世界模型与真实世界智能 · Yann LeCun
2026-06-11 · 由 PodLens 生成的忠实解读
原节目:https://youtu.be/72Xj8k5WQX4?si=eVD7EfrtsPRE4sOC · 时间戳可点击,就地跳转播放器
世界模型自监督学习具身智能能量模型JEPA
这期讲了什么
在这场演讲中,Yann LeCun 探讨了世界模型(World Models)作为下一代人工智能革命使能器的核心作用。Yann LeCun 指出当前基于自回归(auto-regressive)架构的大语言模型(LLMs)在处理高维、连续且多噪的真实物理世界数据时存在根本性缺陷,无法真正获得人类或动物级别的物理常识与自主规划能力。他系统性地阐述了如何通过联合嵌入预测架构(JEPA)和能量模型(EBM)来实现非生成式的自我监督学习,避免高维空间中的像素级生成,并探讨了如何通过信息最大化(如 SIGREG 算法与蒸馏方法)来防止表示塌陷(collapse)。最后,他介绍了其新创立的 Emmy Labs 公司,旨在将物理人工智能(Physical AI)与控制技术应用于机器人与工业过程。
时间线主题地图
核心观点清单
-
当前主流机器学习架构在样本效率和常识获取上面临严重瓶颈
类型 事实
证据锚点 [00:00 - 00:38]
不确定性 相比于人类和动物,机器学习模型在面对新任务时学习速度极慢,且缺乏零样本适应能力。
-
纯文本训练无法带来真正的人类级别智能
类型 观点
证据锚点 [10:50 - 11:52]
不确定性 LLM 训练所消耗的 20-30 万亿 Token 需要人类阅读 40 万年,而一个四岁儿童通过视觉获得的物理世界信息总量与其相当。纯文本缺乏具身常识的物理世界映射。
-
智能的本质是适应能力而非陈述性知识的积累
类型 观点
证据锚点 [04:12 - 05:24]
不确定性 Jean Piaget 的思想表明,智能并非 declarative 知识或特定技能的堆积,而是应对未知局面的适应性与快速习得新技能的能力。
-
基于能量优化搜索的推理比直接前馈计算更为强大
类型 观点
证据锚点 [11:58 - 13:32]
不确定性 通过在推理阶段搜索能够最小化能量函数的动作输出,比直接前馈运行固定层数的神经网络具备更高的计算与推理上限。
-
世界模型不应是生成式的像素级预测系统
类型 预测
证据锚点 [19:54 - 21:18]
不确定性 视频中的冗余信息和不可预测性导致像素级预测注定失败(如产生模糊预测或仅预测均值)。正确的路径是在抽象表示空间(Representation Space)进行预测。
-
分层规划是当前智能体与机器人领域最核心的未解问题
类型 观点
证据锚点 [17:26 - 19:54]
不确定性 如何将长周期的宏观目标(如去巴黎旅行)分解为无需实时精细规划的各级子目标(如走到电梯、推按钮),目前尚未有人给出系统解法。
-
防止自监督学习中的表示塌陷必须依赖有效的信息最大化正则化方法
类型 事实
证据锚点 [26:05 - 27:31]
不确定性 在非对比方法中,可以通过最大化表示向量维度之间的信息熵(使各个维度互相独立)来避免编码器输出常数值。
-
强化学习极其低效,应在特征表示完备的基础上最小化其使用
类型 观点
证据锚点 [52:21 - 52:58]
不确定性 RL 采样效率极低,应当作为走投无路时的最后手段。大多数学习应通过观察建立世界模型,在获得优秀表示后再在顶层使用 RL。
内部张力与自我修正
- [55:27] vs [55:31]:Yann LeCun 在宣称“我一直在呼吁放弃强化学习(abandon reinforcement learning)”后,立即进行了自我修正,澄清“我指的不是完全放弃,而是将其使用最小化(minimize its use),因为其样本效率极低”。他进一步补充,在世界模型提供了良好的自监督表示之后,在表示之上使用强化学习是合理且必要的。
大白话重讲
想象一下,你雇了一个极其聪明但完全没有生活常识的助手。他读完了人类历史上所有的书,能背诵所有物理定律,甚至能写出优美的期末论文。但是,当你在他面前放一个苹果,并撤掉支撑物时,他却不知道这个苹果会往下掉——除非你在书里明确写过这件事。这就是今天大语言模型(LLM)的现状:它们拥有海量的“陈述性知识”,却对物理世界一无所知。
Yann LeCun 提出了一个尖锐的警告:别再指望通过继续做大 LLM(堆算力、喂更多数据)来达到人类级别的 AI。一个四岁的小孩,根本不需要读完 40 万年的书才能学会走路和避开障碍。他们仅仅在醒着的时间里,通过眼睛盯着这个世界看,就接收了极其荒谬的庞大视觉数据(大约 10 的 14 次方字节)。这相当于互联网上所有的文本数据量。婴儿是通过被动观察,在大脑里建立起了一个“世界模型”。
这个世界模型有什么用?它能进行“大方向预测”。比如你在 NYU 的办公室里,想计划明天去巴黎。你不会在脑子里规划自己每一微秒肌肉该怎么动、左脚跨出多少厘米。相反,你的世界模型会给出粗线条的步骤:去机场、坐飞机。在这个过程中,具体的细节(比如下楼、等出租车、按电梯)都是在不同层级上动态规划的。这就是分层规划。而现有的生成式模型,比如 Sora 或者各种像素预测工具,试图去精准预测视频里的每一个像素,这就像是设计航天飞机时去模拟每一个空气分子的运动轨迹一样荒谬。我们需要的是“抽象”,是把不重要的像素噪点过滤掉,只保留核心结构。
Yann LeCun 给出的解决方案是 JEPA(联合嵌入预测架构)。它的精妙之处在于,它不在像素空间做预测,而是在“表示空间”里预测。比如,我给你看半截视频,让你预测接下来发生什么,JEPA 不会试图画出每一个人的脸和桌子上的水杯,而是预测“这个人会走向讲台”这个抽象的含义。这不仅极达到节省了算力,还让模型能够抓取到真正的物理规律和因果链条。
那么,怎么训练这个模型而不让它“偷懒”(即产生表示塌陷,只输出全零或全同的内容)?Yann LeCun 介绍了一种名为 SIGREG(各向同性高斯正则化)的新方法。它通过在多个方向上投影,使得数据分布像均匀的球体高斯分布一样,迫使每一维数据都携带独特的、不重复的信息。
最后,Yann LeCun 做出了一个极具争议性的宣告:放弃纯生成模型,最小化使用强化学习,也不要在学术界继续卷 LLM 了。他创立了新公司 Emmy Labs,就是要去攻克如何让物理 AI 在没有公式的复杂工业和机器人场景中,通过世界模型实现真正安全的自动规划。
值得精听的片段
- [09:54 - 11:39] 视觉数据与文本数据的对等计算:Yann LeCun 用非常具体的数字,直观展示了四岁孩子视觉输入与数十万年文本训练量的对等。这是破除“LLM scaling 能够解决一切”幻觉的关键论证。
- [17:26 - 19:54] 去巴黎的例子解释分层规划:用极其通俗的日常出行例子,拆解了什么叫分层规划,并指明这是机器人与 AI 领域至今未解的终极问题。
- [49:37 - 51:14] V-JEPA “违背期望”的实验数据:当视频中出现物体无故消失等不符合物理规律的画面时,V-JEPA 的预测误差会飙升。这从底层证明了自监督模型能够通过纯视觉观察学习到物理常识。
与往期的呼应
- 补充→ 统一智能与物理世界模拟器 · Amit Jain
两者都指出仅靠文本无法让模型建立对物理世界的真正理解。LeCun 强调了文本缺乏物理映射的局限,而 Jain 则进一步提出视频是传递时空物理规律、训练三维物理表征的关键媒介。
本期[10:50 - 11:52] 纯文本训练无法带来真正的人类级别智能。大语言模型训练所消耗的 Token 数量极大,但仍缺乏具身常识的物理世界映射。
往期[08:05-08:28] 视频蕴含了空间(二维)与时间(一维)的物理规律,是人类大脑理解 3D 物理表征的重要媒介;因此,通过视频学习能有效训练 AI 对物理世界的理解 and 模拟。
- 印证→ 统一智能与物理世界模拟器 · Amit Jain
两者均批判了将“视觉/世界模型”等同于“像素级生成”的路线,共同指出模型的真正核心在于底层的物理因果理解与抽象表示,而非表面的像素重建或美学呈现。
本期[19:54 - 21:18] 世界模型不应是生成式的像素级预测系统,视频中的冗余信息和不可预测性导致像素级预测注定失败,正确的路径是在抽象表示空间进行预测。
往期[54:35-56:15] 视觉模型走向通用和实用的最大瓶颈在于“智能”(包含多轮交互能力、时间一贯性与物理因果理解),而非单纯的像素生成美学。
- 印证→ 经验时代:超越人类数据的强化学习 · David Silver
两者都认为局限于纯文本对话无法产生真正的通用智能,AI 必须摆脱单一的文本模态,进入包含更丰富动作与观察的真实物理世界进行交互。
往期Actions and Observations · "act autonomously in the real world" 智能体将拥有更丰富的动作与观察空间,在真实或数字世界中进行自主交互,而非仅限于人类特权的形式(如纯文本对话)。
- 同构← AI超级周期的经济学:企业落地的上下文鸿沟 · Ali Ghodsi
两者在不同维度(企业应用与通用智能)上指出了相同的核心瓶颈:AI 模型的局限不在于计算或参数层面的“智能”不足,而在于缺乏支撑其做出正确决策的“上下文”支撑。
本期[10:50-11:52] 纯文本训练无法带来真正的人类级别智能,因为大语言模型(LLM)缺乏具身常识的物理世界映射(即缺乏物理世界的上下文)。
往期[05:20-06:38] 企业端 AI 应用的概念验证(PoC)失败率极高,本质上不是 AI 模型智能不足的问题,而是模型缺乏人类员工脑海中的业务上下文(Context)。
与往期的张力
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。