原节目:https://youtu.be/rIwgZWzUKm8?si=visnqbvS_b-eqcLF · 时间戳可点击,就地跳转播放器
本期节目的核心内容是对年轻科学家兼创业者 Xie Saining 的深度马拉松式访谈,以及与 Tommy (Zhiyuan Zeng) 的简短嘉宾分享。讨论的焦点是 Xie Saining 在人工智能领域的学术与职业历程,特别是他在表征学习、Diffusion Transformer (DiT) 的开发,以及他从学术界转型与图灵奖得主 Yann LeCun 共同创立初创公司 AMI Labs 的经历。对话探讨了大型语言模型 (LLMs) 作为世界模型的根本局限性、真实智能的定义,以及构建能够理解物理世界的预测性“世界模型”的技术与哲学路线图。
计算机视觉不仅仅是一项具体的任务或领域,而是智能的一种根本视角,它处理连续、高维、多噪的信号以及分层表征。
大型语言模型 (LLMs) 作为世界模型存在根本缺陷,因为它们完全在离散的语义/token空间中运行,这具有高度冗余性,且缺乏建模连续空间动力学的能力。
语言是人类开发的一种高度压缩的沟通工具,而不是思维或决策的直接映射;因此,仅仅依赖语言模型会制造一个“拐杖”,限制真实智能的发展。
“Bitter Lesson”并不适用于 LLMs,因为语言本身是高度结构化、由人类监督的文明产物,而真正的世界模型必须在没有人类设计的语言约束的情况下,自发地学习潜表征。
真正的世界模型是一个预测性的大脑,它刻画环境状态以预测行动的后果,从而实现规划和推理(System 2 思维),而不仅仅是反应式策略(System 1)。
高维空间是机器学习至关重要的基石,因为它们允许在低维空间中无法解决的复杂问题和线性可分性。
研究在时间和结果上都是非线性的;研究人员只需要凭借一部“代表作”(针对最大值而非平均值进行优化)成功一次,就能定义自己的职业生涯。
当前的 AI 产业价值链由在排行榜上竞争的封闭大厂实验室主导,这导致了资源错配、扼下了学术自由,并迫使研究人员进入短期的产品周期,而不是进行根本性的问题定义。
“通用智能”(AGI)是一个虚假的前提,因为人类智能是高度专业化的,且受限于生物带宽;重建一只松鼠在物理世界中的生存智能,是一个比写代码或做数学题难得多的问题。
AI 的未来在于一个多组件的认知架构,其中世界模型作为底层的基底层,而语言模型退化为一个简单的沟通接口。
想象一下,与一位极其谦逊、才华横溢的朋友坐在一起,他多年来一直处于人工智能的最前沿,与该领域的传奇人物并肩作战。听 Xie Saining 的分享正是这种感觉。他并不认为自己是什么“天选之子”或完美无缺的神童 [00:01:02];相反,他将自己的轨迹描述为一系列非线性的、几乎是偶然的步骤,这些步骤是由他顽固地坚持做自己觉得迷人的事情所引导的 [00:09:52, 00:15:29]。
他的旅程始于一个轻松的家庭环境,父亲是一位心理学家兼媒体人,总是随身携带相机 [00:05:33, 00:08:20]。这种早期接触视觉媒体和书籍的经历塑造了他开放的世界观 [00:08:56]。后来,他被录取进入著名的 SJTU ACM Class [00:04:33]。在入学面试中,资深教授 Shen Enshao 问他喜欢什么书 [00:13:50]。Xie Saining 提到了 Richard Courant 写的《What Is Mathematics?》[00:14:23]。命运奇妙地交织在一起,Xie Saining 如今正是 NYU Courant Institute of Mathematical Sciences 的教授——而这正是由 Richard Courant 建立的研究所 [00:14:55]。
在 SJTU 期间,受传奇学长 Hou Xiaodi 以及他阅读的关于意识和大脑的书籍的深远影响,Xie Saining 发现了计算机视觉 [00:15:30, 00:16:24]。他将视觉解释为智能本身的一种根本视角,而非一项狭隘的任务 [03:35:19]。他指出,在 5.3 亿年前的 Cambrian Explosion 中,生物突然进化出了眼睛,引发了一场巨大的进化军备竞赛 [00:26:30]。视觉是我们大脑中唯一直接暴露于物理世界的部分 [00:28:17];因此,解决视觉问题就等同于解决智能本身 [00:28:32]。
到了大三实习的时候,既定的路线是去 MSRA [00:20:56]。但由于 MSRA 的视觉组不愿意接收“什么都不懂”的本科生 [00:21:42],Xie Saining 主动给新加坡的 NUS 发了封冷邮件,并自己争取到了实习机会,展现了他早期的独立个性 [00:22:57]。
他的博士申请过程同样坎坷。他几乎没有拿到任何计算机视觉方向的录取通知,直到最后一刻被 Tu Zhuowen 挽救 [00:35:57]。当 Tu Zhuowen 决定从 UCLA 转到 UCSD 时,Xie Saining 毫不犹豫地选择跟随他,完全忽略了学校排名,因为他只在乎和谁一起工作 [00:37:50, 00:39:36]。Tu Zhuowen 是一位极其严谨的导师,他会坐在 Xie Saining 的显示器旁,逐行检查代码 [04:41:42]。Tu Zhuowen 那一代人必须从零开始构建一切——仅仅为了图像分割就要写 5 万行 C++ 代码 [04:42:23]。
在读博期间,Xie Saining 共同撰写了《Deeply Supervised Nets (DSN)》,该研究通过在神经网络中加入中间监督出口解决了梯度消失问题 [04:45:32, 04:47:11]。尽管这篇论文最初因为一个简单的笔误(在公式中漏掉了一个平方项)而被 NeurIPS 拒绝 [15:15, 15:49],但十年后它在 AISTATS 上荣获了 Test of Time Award [16:35]。Xie Saining 用这个例子来解释,研究不是一个在每个瞬间评估你价值的“点估计”;它是你一生积累的“积分” [17:19]。他还发表了《Holistically-Nested Edge Detection (HED)》,该论文获得了 Marr Prize 提名 [48:25, 50:33]。
Xie Saining 在读博期间进行了五次不同的实习,其中有一半绝对什么成果都没有产出 [52:21, 54:50]。他把这些告诉他的学生,以表明在实习期间没有产出成果并不是世界末日 [57:04]。他的转折点出现在他在 Meta 的 FAIR 实习期间,当时 He Kaiming 加入了实验室 [57:43]。因为 He Kaiming 在微软时只在 Windows 上编程,Xie Saining 不得不开车带他到处转,教他如何使用 Linux,并向他展示如何在集群上运行任务 [58:17, 58:32]。他们一起为 ImageNet 挑战赛构建了 ResNeXt——这是一种并行网络设计,获得了第二名,但为我们现在所说的 Mixture of Experts (MoE) 奠定了概念基础 [59:50, 01:01:57]。
Xie Saining 还在一个寒冷、痛苦的冬天去伦敦的 DeepMind 实习,研究强化学习 (RL) 和机器人技术 [01:05:36, 01:06:11]。虽然他意识到自己不喜欢 RL 和机器人技术,但他对 DeepMind 的组织结构着迷,该结构无缝地从自下而上的探索过渡到高度组织化、自上而下的执行 [01:06:42, 01:07:40]。他回忆起 Demis Hassabis 告诉实习生,DeepMind 的终极使命是成为一家赢得多个诺贝尔奖的公司——这一说法在当时看来有些遥不可及,但如今已经实现 [01:08:12, 01:08:38]。
在所有这些项目中,统一的主线是表征学习(representation learning)[01:09:55]。Xie Saining 将将其定义为将原始数据映射到一个具有良好特性的结构化空间中,从而使下游任务变得更容易 [01:12:32]。他警告不要追逐像 Neural Architecture Search (NAS) 这样浪费了整个领域两年时间的短暂趋势,并主张专注于永恒的、根本性的问题 [01:13:48, 01:14:58]。
他的职业选择凸显了他对这一哲学的承诺。2018 年,他在 OpenAI 面试,John Schulman 在一张 A4 纸上用铅笔手写了面试题给他 [01:19:30, 01:20:00]。尽管拿到了录取通知,但他拒绝了 OpenAI,选择加入 FAIR,因为那里是计算机视觉的“神圣殿堂”,是 He Kaiming、Piotr Dollar 和 Ross Girshick 的大本营 [01:20:13, 01:20:42]。Ilya Sutskever 非常生气地给他打电话,问是不是钱不够(当时顶尖博士的录取待遇在 40 万到 50 万美元左右) [01:21:08, 01:21:35]。2024 年,Ilya Sutskever 在创立 SSI 后第二次给他打电话 [01:25:19]。他们讨论了如何赋予 AI 爱的能力(以及爱总是带来恨的现实) [01:25:43, 01:27:20]。当 Xie Saining 问 Ilya 如何看待视觉和多模态时,Ilya 回答说这已经“解决得足够好了” [01:25:54, 01:26:10]。由于 Xie Saining 根本不同意这一观点,他拒绝了 SSI [01:26:19]。
Xie Saining 对“影响力(impact)”这个带有侵略性、以自我为中心的词深恶痛绝 [01:31:36]。他引用政治哲学家 Hannah Arendt 的话解释说,研究的目的不是侵略性地强加改变于世界,而是通过被他人理解来寻求“理解(understanding)”和一种“归属感” [01:31:54, 01:32:36]。他也不喜欢“Xie Saining 的团队”这种说法,因为这抢走了真正付出艰苦努力的年轻学生们的功劳 [01:35:26, 01:35:56]。
离开 FAIR 后,Xie Saining 加入 NYU 担任教授,被 Yann LeCun 设计的开放式、玻璃门的 Center for Data Science 所吸引 [01:36:34, 01:38:55]。他还与 Li Fei-Fei 合作,他钦佩她是一位“定义问题”的大师 [01:41:35, 01:43:18]。他指出,Li Fei-Fei 在 ImageNet 上的真正成就不仅在于收集数据,而是在图像分类完全没有标准化的时候,清晰地定义了这个问题 [01:43:19, 01:43:54]。
他用一个具体的比喻解释了从监督学习向自监督学习的转变 [01:47:54]。在监督学习中,神经网络被强行将“椅子”的无限变体(包括牛油果形状的设计师椅子)映射到单个标签“椅子”上 [01:54:00, 01:54:25]。为了做到这一点,网络经常通过依赖“虚假关联”来作弊,比如看背景或假设椅子必须在桌子旁边 [01:54:55, 01:55:07]。自监督学习旨在直接从原始视觉数据中赋予 AI 类似人类的“常识”和直觉 [01:55:18, 01:55:30]。早期的代理任务(如旋转图像、上色或上下文编码器)非常有创意,但其表现比监督预训练差 15-20% [01:56:04, 01:58:03]。当他和 He Kaiming 开发出 MoCo (Momentum Contrast) 时,情况发生了改变,它通过测量表征空间中的距离使对比学习发挥了作用 [01:58:31, 01:59:35]。
Xie Saining 将 He Kaiming 描述为他所知道的绝对最优秀的研究者,拥有极度的专注和“心流状态” [02:01:04, 02:01:20]。He Kaiming 教会他,研究想法不能靠坐在角落里凭空想象;它们必须通过实证探索来发现——这是一个“随机梯度下降”的过程 [02:04:15, 02:07:31]。在一个典型的 6 个月研究周期中,前 1-2 个月用于像玩玩具一样敲代码和摆弄代码 [02:05:19, 02:06:36]。到了第 5 个月,研究人员的心态往往会崩溃,结果在最后一个月,非线性的灵感爆发带来了最终的成果 [02:10:52, 02:11:28]。最糟糕的研究恰恰结束在它开始的地方,因为它很无聊且没有遇到任何障碍;而最好的研究则走过了一条混乱、曲折的道路 [02:09:58, 02:12:05]。引用 Bill Freeman 的曲线,Xie Saining 指出,糟糕或平庸的工作对职业生涯的影响为零,但一部“代表作”会直冲云霄 [02:13:47, 02:15:00]。你一生中只需要成功一次 [02:15:34]。
如今,制定游戏规则的主导权已从学术界转移到 OpenAI、Google 和 Meta 等封闭的行业巨头手中,留给学术界研究人员的是用“微不足道的资源”去追赶工业界 [02:17:02, 02:18:14]。为了应对这一局面,Xie Saining 在 Google 兼职了两年,以观察他们在做什么,从而确切地知道在学术界不该做什么 [02:18:43, 02:19:17]。
在 FAIR 期间,他和实习生 Bill Peebles(现为 Sora 负责人)开发了 DiT (Diffusion Transformers) [03:00:39, 03:02:42]。CVPR 最初拒绝了这篇论文,因为觉得它“太简单”且缺乏复杂的数学,但它最终成为了 Sora 以及当今几乎所有主流视频生成模型的奠基性骨干网络 [03:06:13, 03:06:31, 03:08:24]。
他还强调了美国青年教师面临的严重财务困境,NSF 的资助平均每个 PI 每年只有微不足道的 10 万美元——勉强够一个学生的学费或几块 GPU [03:22:56, 03:24:21]。为了争取资源,Xie Saining 曾不得不与一位合作者在 Google 校园旁的步道上徒步,以此推销并争取赞助,他将这一过程描述为“化缘” [03:25:14, 03:26:00]。
这种随机应变的能力促成了 Cambrian 项目和 Cambrian-S 的诞生,这是一篇定义了多模态 AI 多阶段路线图的立场论文(从 L0 仅限语言,到 L1 看图说话,L2 流式事件认知,L3 空间认知,以及最后的 L4/L5 预测性世界模型) [03:26:33, 03:30:43]。他对视频理解的热情深受电影导演 Jia Zhangke 和 Bi Gan 的影响 [03:27:40]。Bi Gan 在《Kaili Blues》中的长镜头代表了空间如何在时间轴上延伸时间 [03:27:55, 03:29:04]。生活就是一个单镜头的长镜头,而视频是理解物理世界的终极媒介 [03:28:14, 03:28:30]。
Xie Saining 认为,大型语言模型 (LLMs) 作为世界模型存在根本缺陷,因为它们完全在离散的 token 空间中运行,缺乏物理动力学 [04:24:00, 04:31:16]。语言是一种高度压缩的沟通工具,而不是思维的直接映射;仅仅依赖 LLMs 就像使用“拐杖”,会阻碍你锻炼腿部肌肉 [03:53:57, 03:55:15]。此外,LLMs 实际上是在人类策划的语义空间(y空间)中运行的强监督过程,这违背了 Bitter Lesson 的真正精神 [03:51:18, 03:52:50, 04:10:53]。
为了说明世界模型的数学本质,他使用了状态转移函数 $S_{t+1} = F(S_t, a_t)$,即系统根据当前状态和动作预测其下一个状态 [04:11:56, 04:12:13]。这使得 Model Predictive Control (MPC) 成为可能——展开行动序列以进行规划并最小化成本 [04:13:44, 04:14:35]。He 引用了 Richard Sutton 经典的 Dyna 论文,将反应式策略(System 1)与基于模型的规划(System 2)进行对比 [04:15:24, 04:15:47]。
他清晰地地区分了工业界对世界模型的不同定义 [04:25:50]:
1. Sora/Genie:专注于为人类渲染视觉上引人入胜、连贯的视频的世界模拟器 [04:26:51, 04:27:22]。
2. World Labs (Li Fei-Fei):利用显式 3D 表征的空间智能 [04:27:56, 04:28:36]。
3. AMI Labs (Yann LeCun & Xie Saining):旨在提升智能本身的预测性大脑 [04:29:12, 04:29:20]。
Xie Saining 指出,人脑在所有传感器上的输入带宽为每秒 1 亿到 10 亿比特,但我们的行为输出带宽仅为每秒 10 到 100 比特 [04:46:09, 04:46:40]。大脑是一个庞大的、分层的过滤系统,运行功率仅为 20 瓦 [04:46:39, 04:46:56]。为了训练一个世界模型来复制这一点,我们必须使用海量的视频数据来“下载人类” [04:47:52, 04:48:45]。这带来了巨大的数据挑战,因为像 YouTube 这样的平台对其数据严防死守,导致了与爬虫之间持续不断的猫鼠游戏 [04:49:40, 04:50:11]。
对真正世界模型的追求促成了与 Yann LeCun 共同创立 AMI Labs [04:55:27, 05:00:06]。Xie Saining 解释说,封闭的硅谷实验室已经变成了令人窒息、竞争激烈的压力锅,阻碍学术自由、隐藏作者署名,并阻止研究人员开源他们的工作 [05:01:19, 05:02:30, 05:04:02]。Yann LeCun 决定在这个封闭的生态系统之外建立一个研究驱动的初创公司 [05:00:56, 05:01:42]。Yann LeCun 个人非常“JEPA”——极具原则、科学诚信,完全不受外界炒作的干扰 [05:10:48, 05:35:07]。他像“开船”一样管理公司,给予团队成员完全的信任和自主权,直到需要调整为止 [05:38:53, 05:39:11]。Yann LeCun 也是一个真正的多面手,拥有四大爱好:制作模型飞机、天文摄影、电子/爵士乐以及帆船运动 [05:47:38, 05:48:51]。
AMI Labs 已经筹集了资金,目标估值约为 30 亿美元,并组建了一个由 25 名世界级成员组成的初始团队 [05:39:53, 05:41:37, 05:46:17]。一些成员为了加入,放弃了价值数千万美元未归属的 OpenAI 股票,完全是由使命驱动的 [05:42:32, 05:42:55]。
最终,Xie Saining 认为“AGI”是一个虚假的前提,因为人类智能是高度专业化的,且受限于生物带宽 [06:07:44, 06:08:30]。引用进化生物学家 de Waal 和强化学习先驱 Richard S. Sutton 的观点,他指出,重建一只松鼠在物理世界中的生存智能——它拥有自己的目标、情感和社交动力以在现实世界中生存——是一个比写代码或解数学方程难得多的问题 [06:08:56, 06:13:16]。一旦我们能够构建出松鼠的物理智能,其余的事情就会变得容易 [06:13:23]。
推荐听点: 这一片段捕捉到了两种 AI 范式之间一场引人入胜、高密度的哲学碰撞。你可以听到 Ilya Sutskever 以语言为中心的愿景(以及他关于如何赋予 AI “爱的能力”的诗意提问)与 Xie Saining 关于视觉远未被解决的深刻信念之间的对比。它突显了他们技术路线图分道扬镳的确切时刻。
[02:01:14 - 02:05:08]: He Kaiming 的日常研究习惯与专注度。
推荐听点: Xie Saining 在这里的语气充满了真诚、深刻的钦佩。他揭开了 He Kaiming “天才”的神秘面纱,解释了他的“心流状态”以及他如何系统地从文献中提取关键点。这是对 AI 领域最伟大头脑之一的职业道德和“现实扭曲力场”的一次罕见而亲密的窥探。
[03:51:27 - 03:56:03]: 为什么语言是“拐杖”以及 LLMs 是强监督的。
推荐听点: 这是一个非常反直觉且犀利的论点。Xie Saining 解释了为什么语言模型实际上是在人类策划的语义空间中运行的强监督过程,而不是纯粹的自监督系统。他对“拐杖”比喻的使用非常生动,对当前 LLM 的炒作进行了强有力的批判。
[04:41:43 - 04:47:07]: 人脑的带宽与过滤系统。
推荐听点: 这个片段的信息量极大。Xie Saining 剖析了人类感官输入带宽(10亿比特/秒)与我们低带宽的行为输出(10比特/秒)之间纯粹的数学差异。它为为什么 AMI Labs 正在构建一个预测性、过滤性的世界模型,而不是一个生成式的像素重建器,提供了核心的生物学依据。
[06:07:44 - 06:13:49]: “松鼠智能”论点与放下人类的傲慢。
本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。