English

世界模型与真实世界智能 · Yann LeCun

2026-06-11 · 由 PodLens 生成的忠实解读

原节目:https://youtu.be/72Xj8k5WQX4?si=eVD7EfrtsPRE4sOC · 时间戳可点击,就地跳转播放器

世界模型自监督学习具身智能能量模型JEPA

这期讲了什么

在这场演讲中,Yann LeCun 探讨了世界模型(World Models)作为下一代人工智能革命使能器的核心作用。Yann LeCun 指出当前基于自回归(auto-regressive)架构的大语言模型(LLMs)在处理高维、连续且多噪的真实物理世界数据时存在根本性缺陷,无法真正获得人类或动物级别的物理常识与自主规划能力。他系统性地阐述了如何通过联合嵌入预测架构(JEPA)和能量模型(EBM)来实现非生成式的自我监督学习,避免高维空间中的像素级生成,并探讨了如何通过信息最大化(如 SIGREG 算法与蒸馏方法)来防止表示塌陷(collapse)。最后,他介绍了其新创立的 Emmy Labs 公司,旨在将物理人工智能(Physical AI)与控制技术应用于机器人与工业过程。

时间线主题地图

核心观点清单

  1. 当前主流机器学习架构在样本效率和常识获取上面临严重瓶颈 类型 事实 证据锚点 [00:00 - 00:38] 不确定性 相比于人类和动物,机器学习模型在面对新任务时学习速度极慢,且缺乏零样本适应能力。

  2. 纯文本训练无法带来真正的人类级别智能 类型 观点 证据锚点 [10:50 - 11:52] 不确定性 LLM 训练所消耗的 20-30 万亿 Token 需要人类阅读 40 万年,而一个四岁儿童通过视觉获得的物理世界信息总量与其相当。纯文本缺乏具身常识的物理世界映射。

  3. 智能的本质是适应能力而非陈述性知识的积累 类型 观点 证据锚点 [04:12 - 05:24] 不确定性 Jean Piaget 的思想表明,智能并非 declarative 知识或特定技能的堆积,而是应对未知局面的适应性与快速习得新技能的能力。

  4. 基于能量优化搜索的推理比直接前馈计算更为强大 类型 观点 证据锚点 [11:58 - 13:32] 不确定性 通过在推理阶段搜索能够最小化能量函数的动作输出,比直接前馈运行固定层数的神经网络具备更高的计算与推理上限。

  5. 世界模型不应是生成式的像素级预测系统 类型 预测 证据锚点 [19:54 - 21:18] 不确定性 视频中的冗余信息和不可预测性导致像素级预测注定失败(如产生模糊预测或仅预测均值)。正确的路径是在抽象表示空间(Representation Space)进行预测。

  6. 分层规划是当前智能体与机器人领域最核心的未解问题 类型 观点 证据锚点 [17:26 - 19:54] 不确定性 如何将长周期的宏观目标(如去巴黎旅行)分解为无需实时精细规划的各级子目标(如走到电梯、推按钮),目前尚未有人给出系统解法。

  7. 防止自监督学习中的表示塌陷必须依赖有效的信息最大化正则化方法 类型 事实 证据锚点 [26:05 - 27:31] 不确定性 在非对比方法中,可以通过最大化表示向量维度之间的信息熵(使各个维度互相独立)来避免编码器输出常数值。

  8. 强化学习极其低效,应在特征表示完备的基础上最小化其使用 类型 观点 证据锚点 [52:21 - 52:58] 不确定性 RL 采样效率极低,应当作为走投无路时的最后手段。大多数学习应通过观察建立世界模型,在获得优秀表示后再在顶层使用 RL。

内部张力与自我修正

大白话重讲

想象一下,你雇了一个极其聪明但完全没有生活常识的助手。他读完了人类历史上所有的书,能背诵所有物理定律,甚至能写出优美的期末论文。但是,当你在他面前放一个苹果,并撤掉支撑物时,他却不知道这个苹果会往下掉——除非你在书里明确写过这件事。这就是今天大语言模型(LLM)的现状:它们拥有海量的“陈述性知识”,却对物理世界一无所知。

Yann LeCun 提出了一个尖锐的警告:别再指望通过继续做大 LLM(堆算力、喂更多数据)来达到人类级别的 AI。一个四岁的小孩,根本不需要读完 40 万年的书才能学会走路和避开障碍。他们仅仅在醒着的时间里,通过眼睛盯着这个世界看,就接收了极其荒谬的庞大视觉数据(大约 10 的 14 次方字节)。这相当于互联网上所有的文本数据量。婴儿是通过被动观察,在大脑里建立起了一个“世界模型”。

这个世界模型有什么用?它能进行“大方向预测”。比如你在 NYU 的办公室里,想计划明天去巴黎。你不会在脑子里规划自己每一微秒肌肉该怎么动、左脚跨出多少厘米。相反,你的世界模型会给出粗线条的步骤:去机场、坐飞机。在这个过程中,具体的细节(比如下楼、等出租车、按电梯)都是在不同层级上动态规划的。这就是分层规划。而现有的生成式模型,比如 Sora 或者各种像素预测工具,试图去精准预测视频里的每一个像素,这就像是设计航天飞机时去模拟每一个空气分子的运动轨迹一样荒谬。我们需要的是“抽象”,是把不重要的像素噪点过滤掉,只保留核心结构。

Yann LeCun 给出的解决方案是 JEPA(联合嵌入预测架构)。它的精妙之处在于,它不在像素空间做预测,而是在“表示空间”里预测。比如,我给你看半截视频,让你预测接下来发生什么,JEPA 不会试图画出每一个人的脸和桌子上的水杯,而是预测“这个人会走向讲台”这个抽象的含义。这不仅极达到节省了算力,还让模型能够抓取到真正的物理规律和因果链条。

那么,怎么训练这个模型而不让它“偷懒”(即产生表示塌陷,只输出全零或全同的内容)?Yann LeCun 介绍了一种名为 SIGREG(各向同性高斯正则化)的新方法。它通过在多个方向上投影,使得数据分布像均匀的球体高斯分布一样,迫使每一维数据都携带独特的、不重复的信息。

最后,Yann LeCun 做出了一个极具争议性的宣告:放弃纯生成模型,最小化使用强化学习,也不要在学术界继续卷 LLM 了。他创立了新公司 Emmy Labs,就是要去攻克如何让物理 AI 在没有公式的复杂工业和机器人场景中,通过世界模型实现真正安全的自动规划。

值得精听的片段

与往期的呼应

与往期的张力

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。