← PodLensEnglish

AlphaGo 的核心算法 · Eric Jang

2026-06-04 · 由 PodLens 生成的忠实解读

原节目:https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=1082s · 时间戳可点击,就地跳转播放器

蒙特卡洛树搜索策略和价值网络自我对弈强化学习分摊式搜索策略改进算子

这期讲了什么

嘉宾 Eric Jang 是一名研究员,他最近重建了一个围棋 AI。在本期节目中,他解释了 AlphaGo 的核心原理。本期节目介绍了围棋的规则、其博弈树对于经典搜索算法的棘手之处,以及 AlphaGo 如何结合蒙特卡洛树搜索(MCTS)和两个神经网络(一个策略网络和一个价值网络)来解决这个问题。讨论的核心机制是自我对弈强化学习循环,其中 MCTS 过程充当“策略改进算子”,生成更优的落子分布,然后用作训练目标,将搜索的能力提炼到神经网络中。本期节目将这种样本高效的方法与用于大语言模型(LLM)的高方差方法进行了对比,并探讨了其对人工智能研究的更广泛影响,包括计算复杂性的本质和自动化科学的潜力。

时间线主题地图

核心观点清单

  1. 长期以来,围棋因其巨大的搜索空间(约 361³⁰⁰ 种可能的棋局)被认为对人工智能来说是棘手的,但通过使用深度学习智能地修剪搜索树而非穷尽地探索,这个问题得到了解决。 证据 [00:58:58 - 01:00:06] 类型 事实

  2. AlphaGo 的核心是由两个神经网络指导的蒙特卡洛树搜索(MCTS)算法。一个价值网络用于估计在给定棋盘状态下的获胜概率,这使得搜索可以提前终止。一个策略网络用于建议有希望的落子,将搜索广度从所有合法落子缩小到少数几个好的落子。 证据 [00:27:30 - 00:28:15] 类型 事实

  3. 该系统通过自我对弈强化学习循环进行改进,其中 MCTS 充当“策略改进算子”。对于任何给定的棋盘状态,MCTS 执行深度搜索,以生成比策略网络初始猜测更好、更自信的落子分布。然后训练策略网络直接预测这种改进后的分布。 证据 [01:02:46 - 01:03:17] 类型 事实

  4. 这种强化学习训练过程非常稳定且样本高效,因为它为每场对局中的每一步都生成了低方差的监督信号,而与最终结果无关。它用来自搜索的“更好”的行动分布重新标记行动,这个过程类似于机器人学中的 DAgger 算法。 证据 [01:05:49 - 01:07:18] 类型 观点

  5. 这种方法与常用于大语言模型的策略梯度强化学习形成鲜明对比,后者存在高方差问题。大语言模型的强化学习通常依赖于长轨迹末端的单一、稀疏的奖励信号(例如,赢/输),这使得功劳分配和高效学习变得困难,这个问题被描述为“通过吸管吸取监督信号”。 证据 [01:28:29 - 01:28:50] 类型 观点

  6. AlphaGo 带来的一个深刻见解是,一个浅层神经网络可以学会“分摊”一个巨大、几乎棘手的搜索的计算量。这种将复杂、顺序的推理过程压缩为单次、并行的前向传播的能力,挑战了我们对于在最坏情况下是 NP-hard 问题实际难度的直觉。 证据 [01:17:31 - 01:18:46] 类型 观点

  7. 构建世界级围棋 AI 所需的计算量已大幅下降。最初需要 DeepMind 的庞大团队和海量计算资源才能完成的工作,现在由于算法的改进(例如 KataGo)和硬件的提升,个人只需花费数千美元即可复制。 证据 [00:01:49 - 00:02:13] 类型 事实

  8. 成功的自我对弈训练严重依赖于一个准确的价值函数。如果价值网络在搜索树的叶子节点上给出的胜率估计很差,整个 MCTS 过程可能会被破坏,导致推荐的策略比初始策略还要糟糕。这使得良好的初始化(例如,使用专家数据)至关重要。 证据 [01:08:54 - 01:09:19] 类型 观点

  9. 尽管 MCTS 在围棋上很强大,但将其直接应用于像大语言模型推理这样的开放式领域是困难的。语言的行动空间在组合上更大且不那么离散,使得像 PUCT 这样的探索启发式方法无效,而且定义一个可靠的、用于截断搜索的中间价值函数也困难得多。 证据 [01:47:45 - 01:50:32] 类型 观点

  10. 在这个项目中使用大语言模型进行自动化研究表明,它们擅长定义明确的局部优化任务,如超参数调整和执行已描述的实验。然而,它们目前缺乏识别有缺陷的研究方向、调试复杂系统或提出根本性新方法所需的高层战略和横向思维能力。 证据 [02:23:13 - 02:25:40] 类型 例子

大白话重讲

本期节目深入探讨了掌握围棋的 AI——AlphaGo 的实际工作原理。嘉宾 Eric Jang 最近亲自承担了重建它的项目,他将从头开始为我们讲解核心概念。

首先,简单介绍一下围棋。这是一种棋盘游戏,黑白两方在棋盘上放置棋子,以包围和占领地盘。规则简单,但策略极其深奥。对计算机来说,主要挑战在于可能的游戏数量极其庞大。在标准的 19x19 棋盘上,所有可能落子序列组成的“博弈树”大到天文数字——大约是 361 的 300 次方,这个数字远超宇宙中的原子数量 [10:48]。这就是为什么几十年来,专家们都认为计算机永远无法击败顶尖的人类棋手;简单的暴力搜索是行不通的。

AlphaGo 的解决方案不是搜索整个树,而是更聪明地搜索。它使用的核心算法叫做蒙特卡洛树搜索(MCTS)。AI 不会构建出完整的树,而是在每一步棋时,运行数千次小型模拟,探索游戏未来的不同路径。这个过程中的一个关键挑战是平衡“利用”(沿着在过去模拟中看起来有希望的路径)和“探索”(尝试新的、较少走过的、可能出奇制胜的路径)。一个名为 PUCT 的公式帮助 AI 在搜索的每一步做出这种权衡 [15:55]

但即使是 MCTS 本身,对于如此复杂的游戏来说也太慢了。这就是深度学习突破的用武之地。AlphaGo 使用两个神经网络来模仿人类的直觉,并极大地加速搜索过程:

  1. 价值网络: 这个网络观察任何给定的棋盘局面,并估计从该状态获胜的概率 [25:16]。这是一个巨大的捷径。AI 不必将一局棋模拟到最后看谁赢,只需向价值网络询问一个快速的猜测。这有效地“修剪了搜索的深度”,使其能够提前停止。
  2. 策略网络: 这个网络观察棋盘,并建议少数几个最有希望的落子 [32:17]。搜索不必考虑所有 300 多个合法落子,而是可以专注于策略网络“直觉”认为好的那几个。这“修剪了搜索的广度”。

因此,对于它要走的每一步棋,AI 都会执行这个 MCTS 过程,这是一个重复数千次的四步循环 [45:13]: 1. 选择: 它从当前棋盘开始,沿着已经探索过的落子树向下行进,使用 PUCT 公式来引导其路径。 2. 扩展: 当它在搜索中到达一个前所未见的状态时,它会通过考虑可能的下一步落子来“扩展”树。 3. 评估: 它使用价值网络为这个新的、未探索的状态快速打分。 4. 反向传播: 它将该分数沿来路一直传播回去,更新该路径上所有落子的平均胜率。

经过数千次这样的模拟后,AI 对哪一步开局最好有了非常清晰的认识,然后它就下出那步棋。接着,在下一回合,它会丢弃整个搜索树,从新的棋盘状态重新开始整个过程 [29:17]

接下来是最优雅的部分:系统如何通过自我对弈来学习和提高。这就是强化学习(RL)循环。对于任何给定的棋盘状态,策略网络会做出一个初始的、“本能的”关于最佳落子的猜测。但随后,MCTS 过程会运行其深度搜索,并得出一个更好、更自信的优质落子分布 [01:00:43]。AlphaGo 的关键洞见在于,将这个经过搜索改进的结果作为新的“正确答案”。然后,策略网络被训练来直接预测这个更精炼的结果 [01:02:53]

本质上,搜索的缓慢、计算成本高昂的工作被“提炼”或“分摊”到神经网络快速、单次通过的直觉中。网络学会了拥有搜索所提供的智慧。这个过程效率极高。与常用于大语言模型(LLM)的强化学习方法不同——后者可能在很长一系列动作后只得到一个“你赢了”或“你输了”的信号,这个问题被描述为“通过吸管吸取监督信号”[01:28:36]——AlphaGo 的方法为每场对局中的每一步棋都生成了高质量的训练信号,无论输赢 [01:05:49]。这使得学习过程极其稳定。

从 AlphaGo 中可以得出的最深刻的哲学启示是,一个相对简单、浅层的神经网络可以学会近似一个极其庞大搜索的结果 [01:17:31]。这挑战了我们关于什么使问题在计算上“困难”的观念。它表明,许多在最坏情况下技术上棘手的问题,如围棋或蛋白质折叠,可能具有足够的底层结构,以至于神经网络可以迅速找到出色的解决方案。

最后,Eric Jang 反思了在这个研究项目中使用大语言模型助手的情况。他发现它们在定义明确的局部任务上表现出色,比如调整超参数或运行一个描述清晰的实验 [02:23:13]。然而,它们目前缺乏高层次的战略能力,无法意识到整个研究方向是死胡同、调试复杂的系统性问题,或提出根本性的新方法 [02:25:22]

值得精听的片段

与往期的呼应

与往期的张力

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。