视觉智能的物理根基与多模态飞轮 · Andreas Blattmann
2026-06-09 · 由 PodLens 生成的忠实解读
原节目:https://youtu.be/CBaLU0dDEY8?si=VcSHj3o-JNLoAP7J · 时间戳可点击,就地跳转播放器
视觉智能扩散模型多模态飞轮图像生成物理先验
这期讲了什么
Black Forest Labs 联合创始人 Andreas Blattmann 与主持人 Anj 深入探讨了视觉智能的本质、生成式模型的演进路线、开源与闭源生态的商业逻辑,以及通往物理 AI 的发展路径。Andreas Blattmann 回顾了他在 Heidelberg University 攻读 PhD 期间与合作者通过潜空间生成建模(latent generative modeling)算法以小博大、诞生出 Stable Diffusion 的历程,并详细拆解了新创立的 Black Forest Labs(BFL)如何通过 FLUX.1 系列模型在图像生成领域确立行业标准。对话的核心聚焦于“自然表征”(视频、音频)与“非自然表征”(文本)的认知划分,指出真正的智能必须建立在对物理世界的感知与交互之上。此外,他还阐述了流匹配与自回归模型的正交迭代特性,揭示了潜空间对抗扩散蒸馏技术对商业模式的支撑作用,并对隐式空间智能(3D 表征的虚拟化)给出了前瞻性判断。
时间线主题地图
- [00:07-00:39] 课程引入与音乐背景介绍,Anj 欢迎本期嘉宾 BFL 联合创始人 Andreas Blattmann(Andy)。
- [00:40-02:01] 讨论前沿 AI 进展的阶段路径:孵化(incubation)、发布(SOTA release)与扩展(expansion),并指出向新一代架构重写和构建飞轮的重要性。
- [02:02-04:25] 介绍 BFL 和其旗舰模型 FLUX.1。对比语音前沿(Mati, ElevenLabs)与视觉智能前沿,引入 AI 制造管道(pre-training, mid-training, post-training)。
- [04:26-07:16] Andreas Blattmann 介绍其个人背景:从 Germany 的 mechanical engineering 转向 computer science,在 Heidelberg University 攻读 PhD 期间与 Robin、Patrick 合作,在资源极度受限的小实验室中通过更高效的算法与 Google 和 OpenAI 竞争。
- [07:17-09:55] 探讨潜空间生成模型(latent generative modeling)的诞生背景。开发出 Latent Diffusion 算法并开源发布 Stable Diffusion (2022),描述其成为大众 legible(可理解)技术的拐点。
- [09:56-11:04] 探讨学术界与产业界的认知错配:当时的主流教条认为 language modeling 是智能的终极形态,而 computer vision 常被忽视。
- [11:05-14:58] 区分自然表征(natural representations,如视频、音频等源自物理世界的信号)与非自然表征(unnatural representations,如文本这种人类为了高效沟通而消除冗余的人造符号)。Andreas Blattmann 主张智能应如婴儿般从观察自然表征和在物理世界交互中习得,而非单纯叠加在语言之上。
- [14:59-18:30] 讨论从单模态内容创作(content creation)向统一的多模态模型(机器人、物理 AI、世界模拟)的演进。说明跨模态关联(如刚体碰撞声音与物理动作的相关性)对高阶智能的必要性。
- [18:31-21:13] 介绍 BFL 的飞轮(flywheel)初始化过程:凭借在图像生成上的丰富经验,在少于大厂数据与算力的约束下,专注于将图像质量做强,从而在第一天就获得了产品市场匹配(PMF)。
- [21:14-24:18] 拆解 BFL 的训练管线:在预训练(pre-training)和中训练(mid-training)后,通过后训练(post-training)引入真实世界反馈。用户对角色一致性(character consistency)的控制需求推动了 FLUX.1 Kontext 编辑模型的开发。
- [24:19-27:22] Anj 讨论行业内对 AI 图像模型的偏见(如“手部生成不好”、“AI 永远无法突破该限制”等),以及 BFL 如何通过观察用户在真实世界中的提示词与反馈,通过上下文反馈(context feedback)快速迭代。
- [27:23-29:50] 回顾在 Italy 举行 offsite 时的决策:面对强敌推出竞争产品,BFL 团队冷静重组并在 60 天内推出 Kontext 模型,拿下 Meta 两亿用户级合作。强调面对竞争时不恐慌、专注解决未解决问题的领导力。
- [29:51-32:07] 探讨多模态视频、音频和图像联合模型在物理 AI、电脑使用(computer use)和仿真(simulation)中的复利效应(compounding effects)。
- [32:08-35:38] 讨论 mid-training 的上下文注入和动作预测(action prediction),以及 post-training 中通过机器人交互在物理世界中验证和闭环反馈。
- [35:39-38:26] 讨论验证(verification)的逻辑差异:软件工程有单元测试,而图像美学缺乏客观验证(eval dependent on audience),这使得开源模型在允许不同文化和用户做最后一公里自定义(customization)时极具价值。
- [38:27-41:17] 探讨 BFL 选择开源模型的商业逻辑:在 aesthetics 和偏见广泛异构的领域,开源能让用户掌握控制权,而闭源模型更适合偏好单一、狭窄的领域。
- [41:18-43:49] 解释 Self-Flow 技术的核心直觉:将表征学习模型的对齐损失(alignment losses)与多模态表征结合,使模型不仅仅是像素生成器,而是理解语义和物理关联。
- [43:50-45:03] 问答环节 1:在数据闭环中如何确保个人数据隐私和遵守 EU AI Act,介绍 BFL 的内容过滤和用户数据删除机制。
- [45:04-48:35] 问答环节 2:如何筛选合作伙伴(如 xAI、Meta、Nvidia)。Anj 翻译并补充 BFL 的基础设施逻辑——guardrails 对所有人一视同仁,即便损失收入也不妥协。并强调 BFL “争论、分歧但最终共同承诺(commit)”的团结文化。
- [48:36-50:04] 问答环节 3:如何应对海量图像数据标注。预训练阶段使用噪声数据和自动标注,后期对齐阶段使用高质量的黄金标准人工标注(human signals)。
- [50:05-53:42] 问答环节 4:未来是否还需要迭代去噪(iterative denoising)。Andreas Blattmann 深入对比流匹配与自回归模型在训练和推理上的正交特性(数据维度 vs 时间维度,自回归是数据方向迭代,扩散是正交的时间维度迭代)。自回归训练高效(并行)但推理慢;扩散训练效率低(无限损失点)但推理可通过蒸馏大幅加速(如 adversarial diffusion distillation 降至 2-4 步)。提出如何融合两者优势的研究方向。
- [53:43-57:10] Anj 补充解释潜空间对抗扩散蒸馏对于 BFL 商业模式的关键作用:在相同模型大小下通过不同步数区分产品线(Schnell 4步 Apache 2.0 开源;dev 个人/商用授权开源;Pro API 闭源付费),从而在满足开源社区的同时实现商业闭环。
- [57:11-01:01:02] 问答环节 5:空间智能与 3D 表征。Andreas Blattmann 提出反主流观点:人类大脑并无显式的 3D 坐标表征,而是基于视频和交互的隐式三维感知(implicit 3D structure in weights)。Anj 表达了部分不同的直觉,但一致同意在人机接口层面显式 3D 先验是不自然的。
核心观点清单
- 视觉生成模型的算力开销可以通过在潜空间中进行生成建模(latent generative modeling)来大幅压缩。 通过训练一个感知等价且低维度的像素压缩模型(类似 JPEG 编解码器),使后续的扩散模型能够在高效的潜空间中运行,这是在算力极度受限下取得 SOTA 突破的关键工程路径。[07:17-08:28] | 类型:观点
- 文本是一种人工设计的非自然表征,而视频和音频才是更契合人类智能演化的自然表征。 文本去除了物理世界的冗余,信息密度极高,是人类为了高效沟通而创造的产物。真正的物理智能应当如婴儿般从充满冗余的视频和音频中观察物理关联,而非直接建立在符号化的文本语言之上。[12:46-14:42] | 类型:观点
- 跨模态关联对多模态模型能产生复利效应(compounding effects)并加深其对物理世界的理解。 比如通过 Self-Flow 框架同时训练图像、视频与音频,模型能观察到物体碰撞(动作)与声音(噪声)之间的强相关性,这种物理接地是单模态模型无法企及的。[16:01-17:48] | 类型:观点
- 图像生成的美学偏好是广泛异构且因人而异的,这使得开源模型(open weights)在长尾自定义上比闭源模型更具竞争优势。 因为缺乏统一的单元测试,图像评估极度依赖受众,开源允许 Meta 或不同文化背景的用户定制最后一公里的偏好,而闭源模型更适合分发偏好分布极窄的标准化任务。[38:53-41:04] | 类型:观点
- 物理边界条件(physical verification)是检验和自动约束动作生成模型最天然的单元测试。 无论是控制机械臂还是模拟现实世界,物理规律的不可违背性为动作预测模型施加了不可逾越的边界约束,这与难以量化的图像审美评估有着本质的区别。[36:45-37:06] | 类型:事实
- 自回归模型与流匹配/扩散模型在迭代维度上具有正交特性,这决定了两者在训练与推理效率上的利弊互换。 自回归模型沿着数据序列(token by token)迭代,训练可并行但推理极慢;流匹配/扩散模型是在与数据维度正交的虚拟时间轴上(从噪声到图像)迭代,训练效率低但推理可通过步数蒸馏获得数量级提速。[50:23-51:30] | 类型:观点
- BFL 的商业模式建立在“相同模型大小、不同迭代步数”的技术封装之上。 潜空间对抗扩散蒸馏(latent adversarial diffusion distillation)允许他们将同一个模型封装为 4 步极速版(Schnell,完全开源)、中等步数开发版(dev,商业许可开源)和多步专业版(Pro,闭源 API),以极低的边际成本打通开源与商业闭环。[54:43-56:30] | 类型:事实
- 人类空间智能可能并不依赖大脑中的显式 3D 坐标轴和网格,而是通过视频和交互训练出的隐式三维结构。 虽然双眼具备三角测量机制,但其接口仍是投影层面的视频流,空间立体感是深深刻在神经网络权重中的隐式结构感,因此在人机交互层面引入硬编码的显式 3D 网格是不自然的。[57:36-58:44] | 类型:猜想 | 局限说明:Andreas Blattmann 承认这是一个具有高度偏见的个人观点,且 Anj 在此表达了轻微的分歧,认为自己在脑海中仍然拥有显式的空间结构感。
大白话重讲
那我们来聊聊 Andreas Blattmann 在 Stanford CS153 上的这堂分享。很多人知道 Stable Diffusion 或者他们公司最近爆火的 FLUX,但很少有人探究过这群来自 Freiburg, Germany 的研究者底层的思考逻辑。
整场对话最深刻的启发在于:智能的根基究竟是语言还是物理世界本身? Andreas Blattmann 提出了一个很反主流的观点,他认为我们把文本(Text)当作智能 of 智能的中心可能走偏了。文本是人类为了高效沟通,经过漫长演化后“人工设计且高度压缩”的非自然符号,它几乎没有冗余。而婴儿认识世界,最初几年根本不识字,他们是通过眼睛看(视频)、耳朵听(音频)、小手去摸去碰(交互),在大脑里建立起对物理世界的常识。这就是所谓的“自然表征”(Natural Representations)。智能必须从这些充满冗余的自然表征开始,并通过多模态的关联性——比如听到重物撞击的声音,眼睛同时看到两个物体接触——来学习真实的物理规律。如果只给 AI 喂文本,它永远只是在人类高度抽象的符号系统里打转,无法获得真正的“物理智能”。
这也就解释了为什么 BFL 不再只做一个帮人画画的单模态工具,而是把视频、音频、图像统一进一个多模态模型中。比如他们发表的 Self-Flow 架构,就是为了让模型在生成像素的同时,真正理解背后的物理和语义关联。
另外,Andreas Blattmann 还拆解了自回归模型(比如大语言模型)和扩散模型(比如画图模型)在计算机制上的“正交关系”。大语言模型是沿着数据的方向,一个词一个词地往后生成,所以训练时可以并行,但推理时不能跳步。而扩散模型是在一个跟数据垂直的“虚拟时间轴”上,把一张杂乱无章的噪声图一点点擦洗干净。虽然扩散模型训练起来非常浪费数据,但它在推理时可以通过“蒸馏”(Adversarial Diffusion Distillation)把 50 步的计算压缩到 2 步甚至 1 步,这也是为什么 BFL 能够把相同大小的模型,包装成开源的极速版(Schnell)和收费的专业版(Pro)的商业秘密。
最后,在关于三维空间感知的讨论中,他提出了一个极具颠覆性的猜想:大脑里可能根本没有 3D 坐标轴和网格,我们眼里的立体世界,只是双眼视觉投影和物理交互在神经网络权重里形成的“隐式结构”。人类真正空间感知,是不需要显式 3D 先验的。这就直接否定了过去许多试图用硬编码 3D 网格来实现机器视觉的尝试。
值得精听的片段
- [07:17-08:28] Andreas Blattmann 讲述如何在资源极度贫瘠的 Heidelberg University 实验室里,依靠把像素压缩进潜空间(Latent Diffusion)这一巧思,在算力上以小博大,击败行业巨头。这一段展现了资源受限下的工程美学与创造力。
- [12:46-14:42] 解释为什么文本是人类制造的非自然表征,而视频/音频是自然表征,并论证为什么真正的智能应该从自然表征 and 物理交互开始学习。这是整场讲座最核心的认知底座。
- [27:23-29:12] 主持人 Anj 还原 BFL 团队在 Italy offsite 时面对强敌发布竞争产品的冷静决策过程,以及如何在 60 天内迅速重组团队推出 Kontext 模型,并最终拿下 Meta 两亿用户级合作的商业博弈细节。
- [50:23-52:53] 深入对比自回归模型与扩散模型在“迭代维度”上的正交特性,以及为什么扩散模型推理可以通过蒸馏获得巨大加速,技术含金量极高,是理解生成模型底层的绝佳桥梁。
- [57:36-01:00:39] 探讨人脑到底有没有 explicit 3D representation 的辩论,Andreas Blattmann 和 Anj 的实时思维碰撞和观念分歧,展示了前沿科学家对“世界模型”如何在大脑中构建的直觉冲突。
与往期的呼应
- 印证→ 前沿系统算力与上下文回路战争 · Anjney Midha
两方均指出,物理规律或明确的验证指标提供了天然且客观的边界约束,这使得动作、代码等可验证领域的模型优化路径比主观且难以量化的美学评估更为清晰和高效。
本期[36:45-37:06] 物理边界条件是检验和自动约束动作生成模型最天然的单元测试,这与难以量化的图像审美评估有着本质的区别。
往期[38:39-39:35] 强化学习(RL)在前沿的进展速度与领域的易验证性成正比。在代码、材料科学等有明确单元测试或物理指标的领域,AI 可实现指数级自我改进;但在美学、创意写作等难以验证的领域,容易陷入平庸与幻觉。
- 同构→ 人类数据与机器人学的GPT-3时刻 · Danfei Xu
两者都批判了将物理智能直接建立在人工符号(文本或语言模型)之上的路线,认为符号层与真实的物理世界存在脱节,真正的物理智能必须从高维且富含冗余的物理世界数据中直接学习。
本期[12:46-14:42] 文本是一种人工设计的非自然表征,去除了物理世界的冗余。真正的物理智能应当如婴儿般从充满冗余的视频和音频中观察物理关联,而非直接建立在符号化的文本语言之上。
往期[55:54-56:16] 以语言模型(LLM)主导的机器人规划路线存在根本局限,因为符号层(symbolic layer)与物理层(physical layer)距离太远,无法解决机器人最核心的精细操作和物理常识问题。
- 延伸→ 经验时代:超越人类数据的强化学习 · David Silver
两者均强调了“接地”(grounding)在突破单一模态或纯人类数据局限时的核心作用,指出必须通过跨模态关联或真实的物理交互来提供反馈闭环,从而加深对物理规律的真正理解。
本期[16:01-17:48] 跨模态关联对多模态模型能产生复利效应并加深其对物理世界的理解。比如通过 Self-Flow 框架同时训练图像、视频与音频,模型能观察到物体碰撞(动作)与声音(噪声)之间的强相关性,这种物理接地是单模态模型无法企及的。
往期Planning and Reasoning · "grounding provides a feedback loop, allowing the agent to" 智能体必须通过与现实世界交互(具地化)来测试和推翻继承自人类数据的错误思维假设,避免成为现有知识的“回音室”。
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。