English

人类数据与机器人学的GPT-3时刻 · Danfei Xu

2026-06-06 · 由 PodLens 生成的忠实解读

原节目:https://youtu.be/__P5yygfRRQ?si=BWi-1loCvJIIep2i · 时间戳可点击,就地跳转播放器

行为克隆第一人称数据人形机器人具身模仿

这期讲了什么

本期播客探讨了机器人学习(robot learning)的演进路径,特别是“人类数据”(human data)如何作为核心燃料推动机器人走向其“GPT-3时刻”。嘉宾是佐治亚理工学院(Georgia Tech)助理教授 Danfei Xu,他将自己定义为一个全栈机器人学家(full-stack roboticist)。播客围绕的核心问题是:机器人学习如何摆脱对强化学习(reinforcement learning)的盲目崇拜,通过大规模、甚至是不经意间采集的人类数据,实现底层精细操作与物理常识的泛化。

播客的逻辑架构清晰:首先回顾了 Danfei Xu 兴趣驱动的成长历程,包括本科阶段通过打陌生电话(cold call)和直接登门(show up)争取硬核科研机会,以及在 Stanford 攻读博士时毅然选择机器人方向的经历;接着讲述了他在 DeepMind 实习时发现行为克隆(behavior cloning)的巨大潜力,并回校与合作者攻克单臂遥操作行为克隆系统的故事;最后深入探讨了他目前推进的 EgoMimic 项目、人类数据的多模态价值(视频、SLAM、触觉等)、全栈系统观,以及对机器人领域未来终局的展望。

时间线主题地图

核心观点清单

  1. 行为克隆(behavior cloning)在机器人学习中极其有效,但曾因学术界对强化学习(reinforcement learning)的政治正确偏见而被长期低估。 证据锚点 [00:43 - 00:53] “但是为什么他们(DeepMind)没有做behavior cloning,是因为他们的旗舰产品或旗舰研究方向是reinforcement learning,所以他们强行地把这个behavior cloning这件事情压下去了” 以及 [40:40 - 40:47] “直接做BC你就work了,你不需要做RL”。 类型标签 观点 不确定性说明 无。

  2. 以语言模型(LLM)主导的机器人规划路线存在根本局限,因为符号层(symbolic layer)与物理层(physical layer)距离太远,无法解决机器人最核心的精细操作和物理常识问题。 证据锚点 [55:54 - 56:16] “以 language 作为基础能力主导的 robotics 的路线……我觉得是不对的……符号层和物理层差太远了”。 类型标签 观点 不确定性说明 嘉宾态度较为坚决,明确表示“我觉得是不对的”。

  3. 人类第一人称视频数据(egocentric video)在保真度(fidelity)和可扩展性(scalability)之间达到了极佳的平衡,是训练机器人底层精细操作最关键的燃料。 证据锚点 [1:11:08 - 1:11:14] “我直接把人类的数据当做机器人数据来用,这件事情不是不可能的” 以及 [1:15:58 - 1:16:15] 讨论 “fidelity versus scalability”。 类型标签 观点 不确定性说明 嘉宾承认从视频中很难直接学到第三层(本体如何产生动作,如肌肉电信号/电机力矩)。

  4. 亚厘米级的 SLAM 和 VIO 技术是提取人类数据中动作标签(action labels)的工程护城河,目前这一技术的最先进水平被 Meta、Apple 等 AR/VR 巨头垄断。 证据锚点 [1:24:34 - 1:25:10] “对于我们有用的这些 SLAM……只有在这些 AR/VR company 有……open-source 和 academia 这些 SLAM pipeline 和他们差得真的太远了”。 类型标签 事实 不确定性说明 嘉宾提到虽然学术界和开源界差得远,但这是一个纯工程问题,通过资本投入和基于学习的方法是可以弥补的。

  5. 触觉传感器(tactile sensor)由于物理属性多样、缺乏标准化量纲,目前极难形成统一的表征,未来腕部相机(wrist camera)可能会替代部分触觉功能。 证据锚点 [1:29:16 - 1:29:46] “最大的问题是就是太不统一了……触觉传感器它们自己都有不同的 property……腕部相机……解决了一大类 egocentric 很多的问题”。 类型标签 猜想 不确定性说明 嘉宾表示“腕部摄像头到底和触觉……这件事情其实我是一直不太清楚的”,带有一定的不确定性。

  6. 人类数据与人形机器人(humanoid)是互相成就的关系:人类数据赋予了人形硬件存在的意义,而人形硬件降低了人到机器人迁移(human-to-robot transfer)的难度。 证据锚点 [1:39:16 - 1:39:45] “有了 human data 以后 humanoid has its purpose……反过来讲,如果没有 humanoid 的话,human-to-robot transfer 会变得更难”。 类型标签 观点 不确定性说明 嘉宾对“双腿”人形机器人的必要性表示不确定(“我不知道双腿这件事情,但是至少上半身”),但对上半身(双臂加五指)的互相成就非常确信。

  7. 机器人要达到其“GPT-3时刻”(即在任何场景下,任何人能做的事情,机器人有40%-50%的成功率做成),大约需要一亿小时的高质量人类数据。 证据锚点 [1:47:28 - 1:47:40] “一亿小时数据左右……a hundred million” 以及 [2:14:19 - 2:14:31] 对 GPT-3 moment 的定义。 类型标签 预测 不确定性说明 属于嘉宾个人对数据量级的估算(“我的估计应该是在一亿小时数据左右”)。

  8. 真正富含物理智能(physical intelligence)的人类数据往往是日常生活中“不经意”产生的数据,而非在数据采集中心刻意为完成特定任务而演示的数据。 证据锚点 [1:49:24 - 1:50:04] “人类的 physical intelligence 很多程度上讲是我们不会想的一件事情……正常的生活中会做这些事情……故意做的时候可能就会把这些 physical intelligence rich 的 interaction 变少”。 类型标签 观点 不确定性说明 认为未来的实际范式可能是两者的结合(“something in between”)。

  9. 机器人学是一个全栈系统问题(full-stack system problem),算法、软件、硬件、数据采集与评估闭环缺一不可,研究者必须对系统的每一个细节有足够深的理解。 证据锚点 [2:00:36 - 2:00:51] “为什么 full-stack 这件事情这么重要……是你需要知道什么东西对你最后的 outcome 会有影响,所以要对整个东西的每一个细节有足够深的理解”。 类型标签 观点 不确定性说明 无。

内部张力与自我修正

大白话重讲

想象一下,你身边坐着一位既懂硬核技术又特别接地气的机器人专家朋友。他喝了口水,开始跟你唠嗑,把机器人学(robotics)最前沿的内幕和未来的方向,用最实在的话给你盘得清清楚楚。

这位朋友就是 Danfei Xu。他从小就是个“不走寻常路”的人。初高中的时候,他就自己买淘宝零件折腾单片机小车 [00:03:22]。因为极度抗拒应试教育和考试,他几乎是全凭兴趣驱动 [00:03:39, 00:04:07]。高中的时候,他自己通过QQ群和古早的论坛收集信息,硬是靠自己 DIY 申请到了美国的 Dickinson College(狄金森学院) [00:06:42, 00:09:26],后来又转学到了 Columbia(哥伦比亚大学) [00:13:35]

Danfei Xu 对机器人的热爱,是一种“必须让东西动起来、必须亲手摸到硬件”的执念 [00:18:55, 00:19:09]。大一大二的时候,他就极度渴望做科研,于是干了一件极其疯狂的事:在谷歌上搜了20多家名字带机器人的公司,挨个打陌生电话(cold call)问要不要实习生 [00:14:11, 00:14:24]。最后,触觉传感器公司 SynTouch LLC 的负责人被这个口语甚至有点磕绊、但满腔热情的本科生打动了,给了他一个不发工资的实习机会 [00:15:21, 00:15:57]。在那里,他第一次摸到了昂贵的 Shadow 灵巧手,甚至还搞坏了好几个 [00:18:16, 00:18:29]。后来,他听说卡内基梅隆大学(CMU)有个暑期项目,又直接开车4个小时跑去敲教授的门,争取到了实习机会,天天在匹兹堡街头开车采集自动驾驶定位数据 [00:19:37, 00:20:21, 00:21:31]。

2015年,他去 Stanford(斯坦福大学)读博 [00:23:59]。当时的 Stanford 在机器人领域简直是一片“荒漠”,根本没有现在这么火热的“机器人学习”概念 [00:25:12, 00:25:22]。在经历了计算机视觉、虚拟现实等方向的轮转(rotation)后,导师 Fei-Fei 问他要不要继续做场景图(Scene Graph),他非常坚决地拒绝了,说自己必须回去做机器人 [00:27:23, 00:28:51]。

这时候,学术界正处在一种非常奇特的氛围中:大家都疯狂崇拜强化学习(reinforcement learning),认为机器人应该像 AlphaGo 下棋一样,自己在环境里乱试(motor babbling)并进行自我探索 [00:30:44, 00:31:02];而“行为克隆”(behavior cloning,也就是强监督学习,人怎么做,机器人就怎么学)则被看作是“可耻的”低级方法,大家天然地觉得它不够高级、没有泛化能力 [00:31:48, 00:38:13]。

但在2019年去 DeepMind 实习期间,Danfei Xu 亲眼见证了一个事实:行为克隆其实极其有效,它能解决绝大部分问题 [00:37:42, 00:40:39]。而 DeepMind 当时之所以强行把行为克隆的研究压下去,只是因为他们的旗舰研究方向是强化学习,行为克隆在他们那“不政治正确” [00:37:48, 00:38:07]。

为了打破这种“行为克隆羞耻感” [00:41:57],Danfei Xu 回校后和好友 Ajay 一拍即合 [00:41:19, 00:42:21]。他们花了三个月时间,天天加班到凌晨三点 [00:49:12, 00:49:24],在 Franka Panda 机械臂上搭了一套极度丝滑的遥操作(teleoperation)和行为克隆系统 [00:42:37, 00:42:43]。他们拍脑袋做了一些决定,比如装个腕部相机、用 ResNet-18 提取特征、加个循环神经网络(RNN)引入历史信息 [00:43:01 - 00:43:25]。结果,机器人居然做出了之前没人能做到的、长达30秒的连续复杂动作(把盘子从烤箱拉出来、放进东西、关上烤箱) [00:43:42]。虽然为了发论文,他们不得不强行包装了一些学术新颖性 [00:44:12],但这次尝试让他们坚信:行为克隆就是未来的路。

现在,Danfei Xu 是佐治亚理工学院(Georgia Tech)的助理教授 [00:21:12, 02:06:06]。他指出,传统的机器人学依赖于人类写出复杂的动力学物理方程,然后解优化问题 [01:00:16, 01:00:38];而机器人学习(robot learning)则是用数据驱动,把方法都换成机器学习模型 [01:00:01]。他认为,现在行业里最被高估的是算法和模型本身,而最被低估的是“系统”(system),也就是软硬件深度结合的工程实现 [01:01:37, 01:01:49]。

顺着这个思路,他启动了 EgoMimic(具身模仿)项目 [01:04:02]。既然要用行为克隆,就需要海量的数据。而最能扩展规模的数据,就是“人类数据”(human data) [01:23:53]。他们与 Meta 的 Project Aria 团队深度合作,让采集人员戴上 Meta 的智能眼镜 [01:06:40],利用眼镜自带的摄像头、手部姿态估计和定位功能,直接采集人类在日常生活中的第一人称操作视频 [01:06:52]

这里有一个非常核心的理论:Danfei Xu 把人和物理世界的交互拆成了三个子问题 [01:12:44]: 1. 世界应该如何改变(比如杯子要往前移5厘米) [01:13:05]。 2. 某种身体结构如何与世界交互来造成这种改变(比如手应该捏住杯子的哪个部位) [01:13:29]。 3. 身体内部如何产生控制信号(比如肌肉电信号怎么传导,或者电机需要出多大的力) [01:13:16, 01:13:29]。

对于第1点和第2点,人类的数据和机器人的数据是高度相通的,机器人完全可以直接模仿 [01:13:42, 01:14:00]。但第3点(具体的关节受力和驱动)是无法直接从视频里学出来的 [01:15:01]

很多人可能会纳闷:既然要海量数据,为什么不用 YouTube 上的海量第三人称视频?那不是更现成吗? Danfei Xu 解释了一个很反直觉的真相:YouTube 视频虽然多(可扩展性极强),但它的数据分布极其混乱,背景、视角各异,机器人极难将其归一化并与自己的动作对齐 [01:16:22]。相反,第一人称视频(ego video)虽然需要主动采集,但在“数据精确度(fidelity)”和“可扩展性(scalability)”之间找到了最好的甜蜜点 [01:15:58]

为了把人类的第一人称视频转化为机器人看得懂的动作标签,采集系统必须知道人类的头(相机)和手在三维空间里的精确位置。这就需要亚厘米级(sub-centimeter-level)的 SLAM(同步定位与建图)和 VIO(视觉惯性里程计)技术 [01:20:22, 01:21:56]。而这种极高精度的 SLAM 技术,目前完全被 Meta、Apple 等 AR/VR 巨头垄断,开源界和学术界跟它们的差距犹如鸿沟 [01:24:33, 01:25:10]。

在人类数据的各种模态中,Danfei Xu 给出了他的重要性排序:第一人称视频最重要,手部姿态次之,语言标注第三 [01:27:37, 01:32:18]。虽然触觉和力觉本质上非常重要(因为机器人本质上是一个“施力引擎”) [01:28:37],但目前的触觉传感器方案太多太杂,缺乏标准化表示 [01:29:16, 01:29:40],所以现阶段可能还得靠腕部相机来替代一部分触觉功能 [01:27:53, 01:30:05]。

目前行业里还流行一种介于人类数据和机器人数据之间的过渡形态,比如 UMI(通用操作接口) [01:33:03]。它是让人手握着一个机械夹爪去操作物体 [01:33:20]。这种方式虽然牺牲了人类手指的灵巧度 [01:35:50],但它消除了末端执行器上的“形态差异(embodiment gap)” [01:33:45],采集完的数据可以直接部署到机器人上 [01:33:51]

在 Danfei Xu 看来,人类数据与人形机器人(humanoid)是互相成就的:如果机器人长得不像人,人类数据就很难迁移过去;而人形机器人如果不用人类数据,它空有一副类人的骨架,也根本不知道该怎么在物理世界里做出精细的操作 [01:39:16]

他预测,要实现真正人类水平的行为克隆(即通过物理世界的图灵测试),大约需要一亿小时的高质量人类数据 [01:43:23, 01:47:34]。而且,这些数据不能全是人工在摄影棚里故意摆拍的,必须包含大量日常生活中“不经意(unintentional)”的数据(比如用脚肘带上抽屉、拿东西时避开障碍物) [01:49:18, 01:49:30]。因为只有这些不经意的数据,才蕴含着人类最丰富的“物理常识(physical common sense)” [01:49:42, 01:57:07]。

最后,对于想在这个领域做出成绩的年轻研究者或创业公司,他给出了非常诚恳的建议: 在面对“买还是造(buy or build)”的决策时,硬件和数据供应商的东西都可以买,但团队内部绝对不能把评估和训练闭环(evaluation training loop)当成黑箱,必须在内部深度整合,搞清楚每一小块数据是如何改变系统行为的 [02:01:11, 02:01:31, 02:02:06]。

他心目中机器人的“GPT-3时刻”,是机器人在任何场景下执行人类能做的任何事情,能达到40%到50%的成功率 [02:14:18]。要达到这个目标,大家需要摆脱 FOMO(错失恐惧)的心态 [02:11:26],踏踏实实地去培养自己的“品味(taste)” [02:10:23],并且愿意成为一个什么都懂、连电机坏了都愿意自己上去焊的“全栈(full-stack)”研究者 [02:09:04, 02:09:12]。


值得精听的片段

与往期的呼应

与往期的张力

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。