每吉瓦的价值交付纪律 · Amin Vahdat
2026-06-09 · 由 PodLens 生成的忠实解读
原节目:https://youtu.be/VeTqsCpcDgg?si=Hv0WYODnPWCCT-qP · 时间戳可点击,就地跳转播放器
算力基建每吉瓦价值数据中心能效系统协同
这期讲了什么
本期内容为 Stanford CS153(前沿系统)的课程讲座,由 Google 负责系统基础设施的副总裁 Amin Vahdat 主讲。讲座围绕“每吉瓦交付的价值”(Value per Gigawatt)展开,探讨了在 AI 规模化时代,算力基础设施的建设重点应当从单纯的“容量与规模(Megawatt/Gigawatt/FLOPs)”转向“实际交付的用户价值与有效产出(Goodput/Daily Active Users)”。Amin Vahdat 结合 Google 近 30 年的基础设施实践,剖析了系统平衡(System Balance)、Amdahl's Law(阿姆达尔定律)、高可用性与可靠性之间的权衡,以及电力供应和供应链在超大规模系统中的制约,并分享了 Google 在 TPU 互联技术(如光路交换 OCS)、软硬件协同规划及环境社区责任方面的思考。
时间线主题地图
- [00:09 - 02:24] 主持人介绍 Amin Vahdat 在 Google 基础设施(如 Borg、TPU)中的核心地位,并引出 1 吉瓦算力建造成本达数十亿美元的背景。
- [02:25 - 05:25] 探讨吉瓦级容量的度量缺陷,Amin Vahdat 主张应关注每美元或每吉瓦交付给用户的实际价值,而非盲目追求算力规模。
- [05:26 - 08:39] 讨论如何衡量“智能产出”,指出相比底层的 FLOPs,最终的用户留存与业务指标(如 Daily Active Users)才是衡量算力效能的根本。
- [08:40 - 11:25] 详细分析了超大规模集群中高可靠性与冗余设计的关系,指出系统设计中数千个环节都可能发生故障,可靠性提升的代价巨大。
- [11:26 - 12:28] 指出前沿实验室在模型训练中表现出“要算力容量胜过要绝对可靠性”的态度转变,可接受短时间停机以换取双倍容量。
- [12:29 - 15:15] 阐述同步训练(如 All-reduce 规约)对单点故障的敏感性,相较于互联网时代的松耦合架构,现在的加速器训练要求每一个节点都不能失效。
- [15:16 - 17:34] 介绍 Amdahl's Law(阿姆达尔定律)在系统平衡中的体现,强调 FLOPs 必须有相匹配的 HBM(高带宽内存)带宽、SRAM 缓存和网络 I/O 支持,否则会导致极低的 MFU(模型算力利用率)。
- [17:35 - 20:06] 阐述 mixture of experts (MoE,混合专家模型) 稀疏计算带来的内存带宽瓶颈,以及如何将系统平衡的视角扩展到 CPU、存储和数据中心网络。
- [20:07 - 22:42] 讨论采购和供应链的物理极限,以及在两到三年的长交付周期下,如何预测算力需求和进行动态再规划。
- [22:43 - 25:34] 探讨电力网架连接容量的短缺,以及超大规模云厂商偏好可扩建的大型站点导致 100 兆瓦以下中小站点闲置的现状,预测推理服务需求将使算力部署走向碎片化和灵活调度。
- [25:35 - 28:25] 问答环节:建议 Stanford 学生寻找自己最热爱的领域,因为算法、硬工程、操作系统和模型架构都同等重要,且未来难以预测。
- [28:26 - 31:30] 讲述 Google TPU v2 设计时的争论,Amin Vahdat 承认自己关于在 TPU 超级计算机中使用 ethernet(以太网)的传统观点被证明是错误的,Norm Jouppi 等人的点对点分布式共享内存设计最终胜出。
- [31:31 - 32:48] 简述 Sundar Pichai 在 ChatGPT Code Red 期间将 Brain 与 DeepMind 合并,并将基础设施团队归口统一,加速了公司文化重塑。
- [32:49 - 36:51] 详细剖析光路交换开关(Optical Circuit Switch, OCS)在 Google 数据中心中的作用,利用 mirrors 进行微秒/秒级拓扑重构以隔离故障机架并直连远程存储。
- [36:52 - 38:03] 探讨机器学习训练的互联拓扑,说明 torus(环面)拓扑适合 All-reduce 规约,而 switch(交换机)拓扑适合 All-to-all 通信,模型设计者会围绕拓扑进行软件优化。
- [38:04 - 40:21] 讨论硬件折旧与规划,指出 Google 计算硬件按六年折旧,旧芯片依然拥有极高使用率,规划部门需在极大不确定性下每日进行重新规划。
- [40:22 - 42:04] 讨论机器人技术的发展,以 Waymo 为例说明局部实时性与安全性的重要性,指出其对边缘算力和延迟有极高要求。
- [42:05 - 43:13] 探讨最近宣布的行业算力合作(如 SpaceX/xAI 与 Anthropic,以及 Cursor 合作),指出这是由于编程智能体爆发带来的推理算力短缺所致。
- [43:14 - 47:19] 分享个人经历,从 6 岁受杂志启发决定成为程序员,到学术假期间加入 Google 后因能解决实际技术问题而留任。
- [47:20 - 49:36] 介绍 TPU 与 GPU 的竞争与演进,指出 Google 正在专门化 TPU 产品线(如 8i 推理芯片与 8t 训练芯片),硬件专门化是提高能效比的必然趋势。
- [49:37 - 52:56] 探讨非零和博弈与供应链集中度风险,指出组件厂商为避免单一客户垄断产能的风险同样需要 Google 作为其客户,鼓励学生摒弃胜负者思维。
- [52:57 - 54:42] 强调技术人员在社会转型中的责任,呼吁在技术部署中加入 guardrails(防护栏)和 safety(安全)机制。
- [54:43 - 56:41] 讨论基础设施创新的最大瓶颈在于能源,实现全球级别的能源丰裕与负担能力需要系统性投资。
- [56:42 - 58:39] 分析太阳能、风能与电池作为成熟方案的短板与数据中心空间、太空太阳能等边缘方案的探索。
- [58:40 - 01:00:05] 指出硬件在未来 5 到 10 年将持续成为瓶颈,即使有类似 transformers(比 LSTM 能效提升 5 倍)的算法突破,省下来的算力也会立刻被新需求填满。
- [01:00:06 - 01:03:08] 讨论 Google 在数据中心与当地社区和谐共存上的技术创新,如在缺水地区选择牺牲 10% 能效的无水冷设计,以及利用吉瓦级需求响应(demand response)在用电高峰期为电网削峰填谷。
- [01:03:09 - 01:04:16] 总结发言,呼吁云基础设施建设者应端到端地思考系统最优规模、高能效交付以及与社区共生。
核心观点清单
-
算力容量的真正衡量标准是每美元交付的实际价值(Value per Dollar)或用户活跃度(Daily Active Users),而非单纯的吉瓦数(Gigawatts)或硬件 FLOPs。
类型 观点
证据锚点 [04:55-05:08]
说话者表达的保留 承认自己在数据中心电力容量采购上花费了大量精力,但仍坚持价值度量才是第一位。
-
现代加速器在大模型训练中表现出极高的同步性(Synchronous Computation),这使得集群从松耦合的容错架构退回到了单点故障即整体停机的紧耦合超级计算机状态。
类型 事实
证据锚点 [12:29-13:57]
-
前沿实验室的内部和外部客户正在展现出一种新的态度:为了获得更多的算力容量,他们愿意牺牲一部分服务可靠性(可接受 99.9% 甚至更低的可用性)。
类型 观点
证据锚点 [11:26-12:28]
-
系统平衡(System Balance)是发挥算力的关键。如果 FLOPs 增加但 HBM 吞吐量、SRAM 缓存以及网络带宽没有等比例提升,算力就会在等待数据中被浪费,导致极低的 MFU。
类型 观点
证据锚点 [14:06-15:15]
-
混合专家模型(MoE)等稀疏计算算法的普及,使得当前大多数未进行匹配设计的硬件系统都面临严重的内存带宽不足。
类型 事实
证据锚点 [16:53-17:34]
-
随着 AI 从训练主导转向推理(Serving)主导,算力部署将从超大 contiguous 集群逐步分流到小型、分散且高度灵活可调度的 100 兆瓦以下中小站点。
类型 预测
证据锚点 [25:05-25:24]
-
硬件专门化(Hardware Specialization)是解决 CPU 性能提升瓶颈的必然路径,Google 分化出 8i(推理)和 8t(训练)TPU 就是由于不同负载的内存、网络与算力比例差异决定的。
类型 观点
证据锚点 [47:20-48:50]
-
计算硬件在未来 5 到 10 年内将始终是主要瓶颈。任何算法上的能效突破都会由于杰文斯悖论(Jevons paradox)而被新增的、更有价值的算力需求迅速耗尽。
类型 预测
证据锚点 [58:40-01:00:05]
-
零和博弈(Zero-sum game)和“赢者通吃”是局限的技术视角。健康的供应链需要多样性来抵御地缘政治和地震等集中度风险,组件厂商并不希望单一客户垄断其产能。
类型 观点
证据锚点 [49:37-52:56]
-
数据中心应作为社区的积极资产而非负担。这需要数据中心建设者做出折中决策,例如在缺水地区使用牺牲 10% 能效的干式冷却,或使用需求响应(Demand Response)技术帮助公共电网削峰填谷。
类型 事实
证据锚点 [01:00:06-01:03:08]
大白话重讲
我们现在往往被那些宏大的数字——比如“某家公司又圈了 1 吉瓦的电力”、“这片机房花了几百亿美金”所震撼。但 Amin Vahdat 兜头泼了一盆冷水:如果你的系统设计不平衡,或者天天宕机,再多的吉瓦也只是浪费电的摆设。这就好比你买了一辆时速几百公里的超跑,却被堵在狭窄、坑洼的泥泞路段上,发动机的马力(相当于 FLOPs)根本无法转化为车速。你真正需要关注的,是把车子开出去送了多少货、赚了多少钱,这就是“每吉瓦交付的实际价值”。
在过去,互联网服务(比如 Google Search)追求的是“五个九”的可用性(99.999%),相当于一年只能停机 30 秒。为了做到这一点,我们必须把所有的电和网都做成双重备份,结果就是有一半的供电和设备在平时只能闲置。但现在前沿实验室在训练大模型时,他们的态度完全变了:给他们两倍的算力,哪怕一年里有几天彻底罢工,他们也乐意签字接受。因为训练模型是一个“算力吞噬兽”,比起绝不停机,他们更在乎能不能以最快的速度把模型训出来。
但这带来了一个极难解决的硬工程挑战:以前的互联网服务是松耦合的,一台服务器坏了,别的服务器补上就行,用户根本察觉不到。而现在的 AI 模型训练是同步的(所有的 TPU/GPU 之间需要频繁、同步地交换参数)。这意味着,只要几万个加速器中有一个因为网络或者散热出了问题掉线,整个训练任务就得全部停下来回滚。这就需要极度精密的互联技术,比如 Google 使用的光路交换(OCS)技术。简单来说,OCS 就像一个自动化的“光纤插拔机”,它里面有上百个可以三维旋转的微型镜子,一旦发现某个机架的设备坏了,软件就可以操纵电机偏转镜子,瞬间把坏掉的节点剔除出去,换上备用节点,让整个系统在几秒钟内恢复运行。
另一个被大多数人忽略的痛点是“系统平衡”。很多人买加速器只看它有多少 TFLOPs,但随着 Mixture of Experts (MoE) 这种稀疏计算的兴起,算力本身其实并不是最难的部分,最难的是怎么把数据喂给算力。如果 HBM(高带宽内存)不够快,网络不够宽,算力就会一直在那儿干等着。这就是为什么现在的硬件利用率(MFU)普遍低得可怜。未来,硬件的“专门化”会越来越明显,Google 推出专门针对推理的 8i 和针对训练的 8t TPU 就是这个原因——因为推理需要频繁去拿不同的数据,而训练则需要海量的同步计算,两者的内存、网络和计算的配比完全不同。
最后,Amin Vahdat 提醒我们,不要陷入“你死我活”的零和博弈思维中。即使有算法层面的突破(比如以前从 LSTM 换到 Transformer,效率提升了 5 倍),硬件也永远不会过剩。因为人类对智能的渴求是无穷无尽的,省出来的算力马上就会被更新、更有价值的应用(比如更复杂的智能体协同)填满。在这个过程中,真正的瓶颈正在从芯片制造转移到更底层的物理限制上——那就是能源。如何高效地获取、调度绿色能源,并且让数据中心成为当地电网的“蓄电池”(在居民用电高峰时主动限电退网,在低谷时吸收多余电能),将是未来十年最核心的基础设施课题。
值得精听的片段
- [11:26 - 12:28] 探讨可用性与算力容量之间的权衡。Amin Vahdat 提到前沿实验室客户愿意接受 3.65 天的年宕机时间来换取双倍容量。这揭示了 AI 浪潮下客户价值取向的重大变革,语气中带有对这种新范式的惊叹。
- [28:26 - 31:30] 讲述 Google TPU v2 设计时的以太网与专用网络之争。Amin Vahdat 坦诚地反思自己作为网络专家当时是如何判定以太网是唯一解,但最终被 Norm Jouppi 等人证明是错的。这段自我修正的思考轨迹极其生动,展现了顶尖系统架构师的坦诚与求实态度。
- [32:49 - 36:51] 详细描述光路交换(OCS)工作原理的段落。Amin Vahdat 用直观的语言解释了微镜偏转、MEMS 控制以及如何实现软件定义拓扑,信息密度极高,是理解现代 AI 集群物理层设计的绝佳切入点。
- [49:37 - 52:56] 反对“零和博弈”和“输赢思维”的即兴表达。Amin Vahdat 和主持人都对当时课堂中普遍存在的 concentration risk 和 zero-sum mindset 进行了纠偏,展现了宏大的产业格局与系统科学家的第一性原理思考。
与往期的呼应
- 同构→ 语音 AI 的前沿系统与未来 · Mati Staniszewski
两者在价值度量上高度同构,均主张打破传统的“资源与成本导向”(如算力成本、吉瓦数、FLOPs)思维,转向以“用户端最终交付的实际价值”作为衡量系统效能与商业成功的核心标准。
本期[04:55-05:08] 算力容量的真正衡量标准是每美元交付的实际价值(Value per Dollar)或用户活跃度(Daily Active Users),而非单纯的吉瓦数(Gigawatts)或硬件 FLOPs。
往期[42:06-42:35] AI 产品定价应当完全脱离算力成本,基于为客户创造的价值进行逆向设计。合理的定价模型应当旨在捕获其为客户所创造总经济价值的十分之一。
- 印证→ 能源瓶颈与铀浓缩的物理突围 · Scott Nolan
两者共同指出算法层面的能效提升无法消除物理世界的刚性瓶颈。前者通过杰文斯悖论解释了效率提升反而会刺激更庞大的算力需求,后者则从物理极限角度指出能源成本是算力扩张无法被算法抹去的终极制约。
本期[58:40-01:00:05] 计算硬件在未来 5 到 10 年内将始终是主要瓶颈。任何算法上的能效突破都会由于杰文斯悖论(Jevons paradox)而被新增的、更有价值的算力需求迅速耗尽。
往期[09:11-09:53] 芯片制造成本和模型训练成本会随着技术迭代持续下降,但运行这些庞大模型所消耗的电力是无法被算法完全抹去的物理刚需,所有算力竞争最终都会收敛于能源成本的竞争。
- 同构← 物理AI、供给生态与组织进化 · Dara Khosrowshahi
两者在商业与技术架构层面呈现出相同的演进规律:人工智能系统的部署必然经历从早期的集中式、高成本“探索与训练”阶段,向规模化落地时分布式、高性价比“应用与推理”阶段的结构性转变。
本期[25:05-25:24] 随着 AI 从训练主导转向推理(Serving)主导,算力部署将从超大 contiguous 集群逐步分流到小型、分散且高度灵活可调度的 100 兆瓦以下中小站点。
往期[15:58] -
[16:39] 在 AI 开发的预算管理上,合理的策略是在早期探索阶段使用昂贵的前沿模型,在规模化落地时则切换为成本更低、效率更高的特定模型或开源模型。
与往期的张力
- 矛盾真冲突→ 算力底座与智能的连续运行 · Jensen Huang
两者在系统设计中对待模型算力利用率(MFU)的态度存在根本分歧。前者将低 MFU 视为系统不平衡和算力浪费的警示信号;而后者主张主动超配算力并接受低 MFU,以冗余算力作为廉价资源来规避网络和内存带宽带来的整体系统瓶颈。
本期[14:06-15:15] 系统平衡是发挥算力的关键。如果 FLOPs 增加但 HBM 吞吐量、SRAM 缓存以及网络带宽没有等比例提升,算力就会在等待数据中被浪费,导致极低的 MFU。
往期[27:11-28:57] Model Flops Utilization(MFU)是一个容易造成设计偏差的局限指标,系统设计需要进行算力超配(overprovisioning)。为了在网络延迟、存储吞吐 and 内存带宽发生动态瓶颈时规避阿姆达尔定律(Amdahl's Law),系统必须具备充足的冗余算力,将 Flops 视为廉价资源,以牺牲局部利用率为代价确保整体任务的瞬时高并发吞吐。
- 对照表面张力→ 风险投资的系统设计与智能时代的范式转移 · Ben Horowitz
投资人从宏观资本视角认为 GPU 算力可以被资本无脑堆叠以实现并行加速;而系统架构师则指出,大模型训练的极高同步性导致硬件集群退回到了紧耦合状态,规模扩大带来了极高的单点故障风险与系统脆弱性,并非简单的线性资金加速。
本期[12:29-13:57] 现代加速器在大模型训练中表现出极高的同步性(Synchronous Computation),这使得集群从松耦合的容错架构退回到了单点故障即整体停机的紧耦合超级计算机状态。
往期[20:39-21:22] AI 正在打破软件工程“无法通过资本 and 人力进行并行加速”的历史规律。在 AI 时代,充足的 GPU 与数据能够直接转化为能力突破,这使资金规模成为核心竞争要素。
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。