原节目:https://youtu.be/__P5yygfRRQ?si=BWi-1loCvJIIep2i · 时间戳可点击,就地跳转播放器
本期播客探讨了机器人学习(robot learning)的演进路径,特别是“人类数据”(human data)如何作为核心燃料推动机器人走向其“GPT-3时刻”。嘉宾是佐治亚理工学院(Georgia Tech)助理教授 Danfei Xu,他将自己定义为一个全栈机器人学家(full-stack roboticist)。播客围绕的核心问题是:机器人学习如何摆脱对强化学习(reinforcement learning)的盲目崇拜,通过大规模、甚至是不经意间采集的人类数据,实现底层精细操作与物理常识的泛化。
播客的逻辑架构清晰:首先回顾了 Danfei Xu 兴趣驱动的成长历程,包括本科阶段通过打陌生电话(cold call)和直接登门(show up)争取硬核科研机会,以及在 Stanford 攻读博士时毅然选择机器人方向的经历;接着讲述了他在 DeepMind 实习时发现行为克隆(behavior cloning)的巨大潜力,并回校与合作者攻克单臂遥操作行为克隆系统的故事;最后深入探讨了他目前推进的 EgoMimic 项目、人类数据的多模态价值(视频、SLAM、触觉等)、全栈系统观,以及对机器人领域未来终局的展望。
行为克隆(behavior cloning)在机器人学习中极其有效,但曾因学术界对强化学习(reinforcement learning)的政治正确偏见而被长期低估。
以语言模型(LLM)主导的机器人规划路线存在根本局限,因为符号层(symbolic layer)与物理层(physical layer)距离太远,无法解决机器人最核心的精细操作和物理常识问题。
人类第一人称视频数据(egocentric video)在保真度(fidelity)和可扩展性(scalability)之间达到了极佳的平衡,是训练机器人底层精细操作最关键的燃料。
亚厘米级的 SLAM 和 VIO 技术是提取人类数据中动作标签(action labels)的工程护城河,目前这一技术的最先进水平被 Meta、Apple 等 AR/VR 巨头垄断。
触觉传感器(tactile sensor)由于物理属性多样、缺乏标准化量纲,目前极难形成统一的表征,未来腕部相机(wrist camera)可能会替代部分触觉功能。
人类数据与人形机器人(humanoid)是互相成就的关系:人类数据赋予了人形硬件存在的意义,而人形硬件降低了人到机器人迁移(human-to-robot transfer)的难度。
机器人要达到其“GPT-3时刻”(即在任何场景下,任何人能做的事情,机器人有40%-50%的成功率做成),大约需要一亿小时的高质量人类数据。
真正富含物理智能(physical intelligence)的人类数据往往是日常生活中“不经意”产生的数据,而非在数据采集中心刻意为完成特定任务而演示的数据。
机器人学是一个全栈系统问题(full-stack system problem),算法、软件、硬件、数据采集与评估闭环缺一不可,研究者必须对系统的每一个细节有足够深的理解。
想象一下,你身边坐着一位既懂硬核技术又特别接地气的机器人专家朋友。他喝了口水,开始跟你唠嗑,把机器人学(robotics)最前沿的内幕和未来的方向,用最实在的话给你盘得清清楚楚。
这位朋友就是 Danfei Xu。他从小就是个“不走寻常路”的人。初高中的时候,他就自己买淘宝零件折腾单片机小车 [00:03:22]。因为极度抗拒应试教育和考试,他几乎是全凭兴趣驱动 [00:03:39, 00:04:07]。高中的时候,他自己通过QQ群和古早的论坛收集信息,硬是靠自己 DIY 申请到了美国的 Dickinson College(狄金森学院) [00:06:42, 00:09:26],后来又转学到了 Columbia(哥伦比亚大学) [00:13:35]。
Danfei Xu 对机器人的热爱,是一种“必须让东西动起来、必须亲手摸到硬件”的执念 [00:18:55, 00:19:09]。大一大二的时候,他就极度渴望做科研,于是干了一件极其疯狂的事:在谷歌上搜了20多家名字带机器人的公司,挨个打陌生电话(cold call)问要不要实习生 [00:14:11, 00:14:24]。最后,触觉传感器公司 SynTouch LLC 的负责人被这个口语甚至有点磕绊、但满腔热情的本科生打动了,给了他一个不发工资的实习机会 [00:15:21, 00:15:57]。在那里,他第一次摸到了昂贵的 Shadow 灵巧手,甚至还搞坏了好几个 [00:18:16, 00:18:29]。后来,他听说卡内基梅隆大学(CMU)有个暑期项目,又直接开车4个小时跑去敲教授的门,争取到了实习机会,天天在匹兹堡街头开车采集自动驾驶定位数据 [00:19:37, 00:20:21, 00:21:31]。
2015年,他去 Stanford(斯坦福大学)读博 [00:23:59]。当时的 Stanford 在机器人领域简直是一片“荒漠”,根本没有现在这么火热的“机器人学习”概念 [00:25:12, 00:25:22]。在经历了计算机视觉、虚拟现实等方向的轮转(rotation)后,导师 Fei-Fei 问他要不要继续做场景图(Scene Graph),他非常坚决地拒绝了,说自己必须回去做机器人 [00:27:23, 00:28:51]。
这时候,学术界正处在一种非常奇特的氛围中:大家都疯狂崇拜强化学习(reinforcement learning),认为机器人应该像 AlphaGo 下棋一样,自己在环境里乱试(motor babbling)并进行自我探索 [00:30:44, 00:31:02];而“行为克隆”(behavior cloning,也就是强监督学习,人怎么做,机器人就怎么学)则被看作是“可耻的”低级方法,大家天然地觉得它不够高级、没有泛化能力 [00:31:48, 00:38:13]。
但在2019年去 DeepMind 实习期间,Danfei Xu 亲眼见证了一个事实:行为克隆其实极其有效,它能解决绝大部分问题 [00:37:42, 00:40:39]。而 DeepMind 当时之所以强行把行为克隆的研究压下去,只是因为他们的旗舰研究方向是强化学习,行为克隆在他们那“不政治正确” [00:37:48, 00:38:07]。
为了打破这种“行为克隆羞耻感” [00:41:57],Danfei Xu 回校后和好友 Ajay 一拍即合 [00:41:19, 00:42:21]。他们花了三个月时间,天天加班到凌晨三点 [00:49:12, 00:49:24],在 Franka Panda 机械臂上搭了一套极度丝滑的遥操作(teleoperation)和行为克隆系统 [00:42:37, 00:42:43]。他们拍脑袋做了一些决定,比如装个腕部相机、用 ResNet-18 提取特征、加个循环神经网络(RNN)引入历史信息 [00:43:01 - 00:43:25]。结果,机器人居然做出了之前没人能做到的、长达30秒的连续复杂动作(把盘子从烤箱拉出来、放进东西、关上烤箱) [00:43:42]。虽然为了发论文,他们不得不强行包装了一些学术新颖性 [00:44:12],但这次尝试让他们坚信:行为克隆就是未来的路。
现在,Danfei Xu 是佐治亚理工学院(Georgia Tech)的助理教授 [00:21:12, 02:06:06]。他指出,传统的机器人学依赖于人类写出复杂的动力学物理方程,然后解优化问题 [01:00:16, 01:00:38];而机器人学习(robot learning)则是用数据驱动,把方法都换成机器学习模型 [01:00:01]。他认为,现在行业里最被高估的是算法和模型本身,而最被低估的是“系统”(system),也就是软硬件深度结合的工程实现 [01:01:37, 01:01:49]。
顺着这个思路,他启动了 EgoMimic(具身模仿)项目 [01:04:02]。既然要用行为克隆,就需要海量的数据。而最能扩展规模的数据,就是“人类数据”(human data) [01:23:53]。他们与 Meta 的 Project Aria 团队深度合作,让采集人员戴上 Meta 的智能眼镜 [01:06:40],利用眼镜自带的摄像头、手部姿态估计和定位功能,直接采集人类在日常生活中的第一人称操作视频 [01:06:52]。
这里有一个非常核心的理论:Danfei Xu 把人和物理世界的交互拆成了三个子问题 [01:12:44]: 1. 世界应该如何改变(比如杯子要往前移5厘米) [01:13:05]。 2. 某种身体结构如何与世界交互来造成这种改变(比如手应该捏住杯子的哪个部位) [01:13:29]。 3. 身体内部如何产生控制信号(比如肌肉电信号怎么传导,或者电机需要出多大的力) [01:13:16, 01:13:29]。
对于第1点和第2点,人类的数据和机器人的数据是高度相通的,机器人完全可以直接模仿 [01:13:42, 01:14:00]。但第3点(具体的关节受力和驱动)是无法直接从视频里学出来的 [01:15:01]。
很多人可能会纳闷:既然要海量数据,为什么不用 YouTube 上的海量第三人称视频?那不是更现成吗? Danfei Xu 解释了一个很反直觉的真相:YouTube 视频虽然多(可扩展性极强),但它的数据分布极其混乱,背景、视角各异,机器人极难将其归一化并与自己的动作对齐 [01:16:22]。相反,第一人称视频(ego video)虽然需要主动采集,但在“数据精确度(fidelity)”和“可扩展性(scalability)”之间找到了最好的甜蜜点 [01:15:58]。
为了把人类的第一人称视频转化为机器人看得懂的动作标签,采集系统必须知道人类的头(相机)和手在三维空间里的精确位置。这就需要亚厘米级(sub-centimeter-level)的 SLAM(同步定位与建图)和 VIO(视觉惯性里程计)技术 [01:20:22, 01:21:56]。而这种极高精度的 SLAM 技术,目前完全被 Meta、Apple 等 AR/VR 巨头垄断,开源界和学术界跟它们的差距犹如鸿沟 [01:24:33, 01:25:10]。
在人类数据的各种模态中,Danfei Xu 给出了他的重要性排序:第一人称视频最重要,手部姿态次之,语言标注第三 [01:27:37, 01:32:18]。虽然触觉和力觉本质上非常重要(因为机器人本质上是一个“施力引擎”) [01:28:37],但目前的触觉传感器方案太多太杂,缺乏标准化表示 [01:29:16, 01:29:40],所以现阶段可能还得靠腕部相机来替代一部分触觉功能 [01:27:53, 01:30:05]。
目前行业里还流行一种介于人类数据和机器人数据之间的过渡形态,比如 UMI(通用操作接口) [01:33:03]。它是让人手握着一个机械夹爪去操作物体 [01:33:20]。这种方式虽然牺牲了人类手指的灵巧度 [01:35:50],但它消除了末端执行器上的“形态差异(embodiment gap)” [01:33:45],采集完的数据可以直接部署到机器人上 [01:33:51]。
在 Danfei Xu 看来,人类数据与人形机器人(humanoid)是互相成就的:如果机器人长得不像人,人类数据就很难迁移过去;而人形机器人如果不用人类数据,它空有一副类人的骨架,也根本不知道该怎么在物理世界里做出精细的操作 [01:39:16]。
他预测,要实现真正人类水平的行为克隆(即通过物理世界的图灵测试),大约需要一亿小时的高质量人类数据 [01:43:23, 01:47:34]。而且,这些数据不能全是人工在摄影棚里故意摆拍的,必须包含大量日常生活中“不经意(unintentional)”的数据(比如用脚肘带上抽屉、拿东西时避开障碍物) [01:49:18, 01:49:30]。因为只有这些不经意的数据,才蕴含着人类最丰富的“物理常识(physical common sense)” [01:49:42, 01:57:07]。
最后,对于想在这个领域做出成绩的年轻研究者或创业公司,他给出了非常诚恳的建议: 在面对“买还是造(buy or build)”的决策时,硬件和数据供应商的东西都可以买,但团队内部绝对不能把评估和训练闭环(evaluation training loop)当成黑箱,必须在内部深度整合,搞清楚每一小块数据是如何改变系统行为的 [02:01:11, 02:01:31, 02:02:06]。
他心目中机器人的“GPT-3时刻”,是机器人在任何场景下执行人类能做的任何事情,能达到40%到50%的成功率 [02:14:18]。要达到这个目标,大家需要摆脱 FOMO(错失恐惧)的心态 [02:11:26],踏踏实实地去培养自己的“品味(taste)” [02:10:23],并且愿意成为一个什么都懂、连电机坏了都愿意自己上去焊的“全栈(full-stack)”研究者 [02:09:04, 02:09:12]。
本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。