English

大模型后训练强化学习基建的探索与反思 · Weng Jiayi

2026-06-09 · 由 PodLens 生成的忠实解读

原节目:https://youtu.be/I0DrcsDf3Os?si=RbqE6pkIgHFJh5mq · 时间戳可点击,就地跳转播放器

强化学习后训练基础设施天授确定论

这期讲了什么

本期播客对话了 OpenAI 后训练(post-training)强化学习(RL)基础设施的核心贡献者 Weng Jiayi。访谈追溯了他在清华大学和 Carnegie Mellon University(CMU)的学术历程,分享了他开发开源项目天授(Tianshou)和退学网(tuixue.online)的幕后故事,并深入探讨了他在 OpenAI 搭建大模型强化学习后训练基建(RLHF)的工程实践。他指出,大模型研发的竞争壁垒在于基础设施的正确性与单位时间内的迭代速度,而非单纯的算法想法(idea)。此外,他还分享了对人工通用智能(AGI)的定义、团队人才密度、组织架构信息流流通性以及关于宿命论和预测未来的哲学思考。

时间线主题地图

核心观点清单

  1. 核心观点: 大模型和人工智能前沿探索的竞争,本质上拼的是基础设施(infrastructure)的正确性和单位时间内的迭代速度。 证据 [01:04:49 - 01:05:19] 类型 观点

  2. 核心观点: 让一个研究人员(researcher)学会做工程(engineering),要比让一个工程师(engineer)学会做研究(research)来得更加困难。 证据 [01:04:26 - 01:04:48] 类型 观点

  3. 核心观点: 代码库和项目的腐化大多源于多名开发者贡献代码时导致的不一致性(inconsistency)和假设传递失效;保持项目从头到尾的一致性是高质量代码的关键。 证据 [01:04:41 - 01:05:23] 类型 观点

  4. 核心观点: 传统的强化学习(RL)研究过度依赖于玩具任务(Atari、MuJoCo 等)的过拟合与启发式调参,而工业界真正关心的则是利用 RL 解决真实的复杂环境问题。 证据 [01:11:51 - 01:12:31] 类型 事实

  5. 核心观点: 衡量强化学习模型性能的痛点在于难以区分 checkpoint 的真实好坏,因为单一的奖励值容易发生奖励黑客行为(reward hacking),导致评估方差和噪音过大,最终仍需依赖人工评估(Human Feedback)。 证据 [01:25:31 - 01:26:58] 类型 事实

  6. 核心观点: AGI 研发团队需要维持极高的人才密度,高人才密度的核心价值在于能够自发涌现创新,同时通过扁平化和简化组织架构,确保管理层与底层执行者之间的信息能够无损传递。 证据 [01:21:11 - 01:22:49] 类型 观点

  7. 核心观点: OpenAI 的闭源策略是基于博弈论的现实考量:如果开源最先进的模型权重,会导致其他商业竞争对手迅速复制并实行闭源,从而使首创者失去持续融资与维持生存的资本。 证据 [01:42:01 - 01:42:56] 类型 预测

  8. 核心观点: 组织规模扩大后不可避免地会导致迭代速度变慢,其根本原因在于人类大脑存储的上下文(context)是有限的,难以在庞大组织中实现完整且一致的上下文分享(context sharing)。 证据 [01:52:01 - 01:52:48] 类型 观点

  9. 核心观点: 宇宙底层是一个确定性系统(determinism),并不存在自由意志;每个人的思维、决策和未来的世界轨迹在宇宙大爆炸那一刻就已被决定。 证据 [01:53:40 - 01:54:08] 类型 猜想

内部张力与自我修正

大白话重讲

大模型研究的核心竞争力究竟是什么?在 Weng Jiayi 看来,答案绝非学术界热衷的精妙算法或论文点子,而是极其朴素的工程实践——基础设施的正确性以及单位时间内的迭代速度。他引用同事的观点指出,教一个研究人员如何做好工程,远比教一个工程师如何做好研究要困难得多。在当前大模型前沿探索中,想法是非常便宜的,真正拉开差距的是谁能更安全、更快速地验证这些想法。每一家研究实验室的模型架构都存在不同程度的缺陷,谁能修好更多的缺陷,谁的模型就训得更好。

这种对“工程一致性”和“做基建工具(卖铲子)”的极度偏爱,贯穿了 Weng Jiayi 的学术与职业生涯。大四那年,因为不满意主流强化学习库 RLlib 过于臃肿和复杂的抽象,他花了两个手撸出第一版天授(Tianshou)。他认为项目的生命力在于 consistency(一致性),多人无序地塞入代码只会加速项目的腐化。而退学网(tuixue.online)的诞生同样出于他个人的签证查询痛点,这个完全不盈利的慈善项目通过数百万的点击量,带给他超出金钱的满足感——他以“死后记得自己名字的人数”作为人生结算的指标,相比官方评价体系,他更渴望获得来自外界发自内心的赞同。

进入 OpenAI 后,Weng Jiayi 负责搭建了后训练阶段的整个强化学习基础设施。他指出,大模型的强化学习与传统的玩具基准测试(如打游戏或物理仿真)有本质不同:玩具测试的瓶颈在环境,而模型本身很小;大模型则是环境极简(输入提示词),但模型参数极其庞大,这使得如何提高采样的吞吐量和训练的分布式效率成为了核心问题。在开发 ChatGPT 的过程中,团队经历了巨大的不确定性:发布 ChatGPT 最初只是为了收集真实世界的用户数据,甚至做好了五天后冷场就关闭的准备,谁也没想到用户曲线会呈指数级爆发。此外,他指出评估强化学习模型时最头疼的问题是 reward hacking(奖励黑客)——模型的奖励分数看似完美饱和,但实际表现却因过度拟合而下滑,最后只能退回用人工评估来筛选模型检查点。

针对 OpenAI 内部的组织变迁,Weng Jiayi 提供了独特的内部视角。2023 年年底的 CEO 罢免风波并非外界谣传的“科学家看到了某种毁灭性的技术突破”,而纯粹是董事会对 Sam Altman 的信任危机。在公司从两百多人急剧扩张到三千多人的过程中,沟通成本成倍增长,人脑有限的 context(上下文)导致了严重的 context sharing(上下文分享)缺失。这也解释了为什么 DeepSeek 在推特上声称的超快迭代速度会让 OpenAI 内部感到警觉——当组织庞大到一定程度后,重构运行了三年的技术负债,找回小团队时期的迭代斜率,成为了关乎生死的课题。

在对话的尾声,Weng Jiayi 展现了其宿命论(determinism)的世界观:宏观宇宙是一个确定性的马尔可夫过程,人类并没有真正的自由意志,你下一秒会说什么、做什么,在宇宙大爆炸的瞬间就已经被写死。他曾试图证伪这一观点,却以失败告终。但他认为,面对这种冷酷的宿命,人最理性的做法是忘掉这一切,去体验当下的生活,就像坚信西西弗斯推石头是幸福的一样,在无尽的确定性轨迹中寻找内心的平静。

值得精听的片段

  1. [41:16 - 45:00] 天授诞生的两周开发故事。Weng Jiayi 讲述他如何因为嫌弃 RLlib 臃肿而决定推倒重来,阐述了“项目一致性是抵御代码腐化的唯一良药”的设计哲学。这段对话极具工程审美,是每个系统架构师都应体会的原则。
  2. [01:04:26 - 01:06:00] 工程与研究能力的难易度倒置。他分享同事关于“教研究员做工程更难”的论点,直接解构了学术界和工业界在前沿大模型研发上的生态定位。对于迷茫于“读博还是就业”的听众,这是极有分量的冷思考。
  3. [01:25:31 - 01:27:00] 奖励黑客与检查点评估的玄学。听他讲述在大模型 RLHF 训练中,如何面对方差极大的评估噪音以及饱和的奖励曲线进行检查点(checkpoint)的盲测。这段内容还原了顶级实验室在解决实际工程问题时的真实挣扎。
  4. [01:53:40 - 01:56:00] 确定论与宇宙大爆炸写死的剧本。Weng Jiayi 极其平静且笃定地论证人类没有自由意志、命运早已注定的瞬间。这种极客式的哲学冷酷与播客整体轻松的技术叙事形成强烈的戏剧张力,十分瞬间。

与往期的呼应

与往期的张力

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。