English

每吉瓦的价值交付纪律 · Amin Vahdat

2026-06-09 · 由 PodLens 生成的忠实解读

原节目:https://youtu.be/VeTqsCpcDgg?si=Hv0WYODnPWCCT-qP · 时间戳可点击,就地跳转播放器

算力基建每吉瓦价值数据中心能效系统协同

这期讲了什么

本期内容为 Stanford CS153(前沿系统)的课程讲座,由 Google 负责系统基础设施的副总裁 Amin Vahdat 主讲。讲座围绕“每吉瓦交付的价值”(Value per Gigawatt)展开,探讨了在 AI 规模化时代,算力基础设施的建设重点应当从单纯的“容量与规模(Megawatt/Gigawatt/FLOPs)”转向“实际交付的用户价值与有效产出(Goodput/Daily Active Users)”。Amin Vahdat 结合 Google 近 30 年的基础设施实践,剖析了系统平衡(System Balance)、Amdahl's Law(阿姆达尔定律)、高可用性与可靠性之间的权衡,以及电力供应和供应链在超大规模系统中的制约,并分享了 Google 在 TPU 互联技术(如光路交换 OCS)、软硬件协同规划及环境社区责任方面的思考。

时间线主题地图

核心观点清单

  1. 算力容量的真正衡量标准是每美元交付的实际价值(Value per Dollar)或用户活跃度(Daily Active Users),而非单纯的吉瓦数(Gigawatts)或硬件 FLOPs。 类型 观点 证据锚点 [04:55-05:08] 说话者表达的保留 承认自己在数据中心电力容量采购上花费了大量精力,但仍坚持价值度量才是第一位。

  2. 现代加速器在大模型训练中表现出极高的同步性(Synchronous Computation),这使得集群从松耦合的容错架构退回到了单点故障即整体停机的紧耦合超级计算机状态。 类型 事实 证据锚点 [12:29-13:57]

  3. 前沿实验室的内部和外部客户正在展现出一种新的态度:为了获得更多的算力容量,他们愿意牺牲一部分服务可靠性(可接受 99.9% 甚至更低的可用性)。 类型 观点 证据锚点 [11:26-12:28]

  4. 系统平衡(System Balance)是发挥算力的关键。如果 FLOPs 增加但 HBM 吞吐量、SRAM 缓存以及网络带宽没有等比例提升,算力就会在等待数据中被浪费,导致极低的 MFU。 类型 观点 证据锚点 [14:06-15:15]

  5. 混合专家模型(MoE)等稀疏计算算法的普及,使得当前大多数未进行匹配设计的硬件系统都面临严重的内存带宽不足。 类型 事实 证据锚点 [16:53-17:34]

  6. 随着 AI 从训练主导转向推理(Serving)主导,算力部署将从超大 contiguous 集群逐步分流到小型、分散且高度灵活可调度的 100 兆瓦以下中小站点。 类型 预测 证据锚点 [25:05-25:24]

  7. 硬件专门化(Hardware Specialization)是解决 CPU 性能提升瓶颈的必然路径,Google 分化出 8i(推理)和 8t(训练)TPU 就是由于不同负载的内存、网络与算力比例差异决定的。 类型 观点 证据锚点 [47:20-48:50]

  8. 计算硬件在未来 5 到 10 年内将始终是主要瓶颈。任何算法上的能效突破都会由于杰文斯悖论(Jevons paradox)而被新增的、更有价值的算力需求迅速耗尽。 类型 预测 证据锚点 [58:40-01:00:05]

  9. 零和博弈(Zero-sum game)和“赢者通吃”是局限的技术视角。健康的供应链需要多样性来抵御地缘政治和地震等集中度风险,组件厂商并不希望单一客户垄断其产能。 类型 观点 证据锚点 [49:37-52:56]

  10. 数据中心应作为社区的积极资产而非负担。这需要数据中心建设者做出折中决策,例如在缺水地区使用牺牲 10% 能效的干式冷却,或使用需求响应(Demand Response)技术帮助公共电网削峰填谷。 类型 事实 证据锚点 [01:00:06-01:03:08]

大白话重讲

我们现在往往被那些宏大的数字——比如“某家公司又圈了 1 吉瓦的电力”、“这片机房花了几百亿美金”所震撼。但 Amin Vahdat 兜头泼了一盆冷水:如果你的系统设计不平衡,或者天天宕机,再多的吉瓦也只是浪费电的摆设。这就好比你买了一辆时速几百公里的超跑,却被堵在狭窄、坑洼的泥泞路段上,发动机的马力(相当于 FLOPs)根本无法转化为车速。你真正需要关注的,是把车子开出去送了多少货、赚了多少钱,这就是“每吉瓦交付的实际价值”。

在过去,互联网服务(比如 Google Search)追求的是“五个九”的可用性(99.999%),相当于一年只能停机 30 秒。为了做到这一点,我们必须把所有的电和网都做成双重备份,结果就是有一半的供电和设备在平时只能闲置。但现在前沿实验室在训练大模型时,他们的态度完全变了:给他们两倍的算力,哪怕一年里有几天彻底罢工,他们也乐意签字接受。因为训练模型是一个“算力吞噬兽”,比起绝不停机,他们更在乎能不能以最快的速度把模型训出来。

但这带来了一个极难解决的硬工程挑战:以前的互联网服务是松耦合的,一台服务器坏了,别的服务器补上就行,用户根本察觉不到。而现在的 AI 模型训练是同步的(所有的 TPU/GPU 之间需要频繁、同步地交换参数)。这意味着,只要几万个加速器中有一个因为网络或者散热出了问题掉线,整个训练任务就得全部停下来回滚。这就需要极度精密的互联技术,比如 Google 使用的光路交换(OCS)技术。简单来说,OCS 就像一个自动化的“光纤插拔机”,它里面有上百个可以三维旋转的微型镜子,一旦发现某个机架的设备坏了,软件就可以操纵电机偏转镜子,瞬间把坏掉的节点剔除出去,换上备用节点,让整个系统在几秒钟内恢复运行。

另一个被大多数人忽略的痛点是“系统平衡”。很多人买加速器只看它有多少 TFLOPs,但随着 Mixture of Experts (MoE) 这种稀疏计算的兴起,算力本身其实并不是最难的部分,最难的是怎么把数据喂给算力。如果 HBM(高带宽内存)不够快,网络不够宽,算力就会一直在那儿干等着。这就是为什么现在的硬件利用率(MFU)普遍低得可怜。未来,硬件的“专门化”会越来越明显,Google 推出专门针对推理的 8i 和针对训练的 8t TPU 就是这个原因——因为推理需要频繁去拿不同的数据,而训练则需要海量的同步计算,两者的内存、网络和计算的配比完全不同。

最后,Amin Vahdat 提醒我们,不要陷入“你死我活”的零和博弈思维中。即使有算法层面的突破(比如以前从 LSTM 换到 Transformer,效率提升了 5 倍),硬件也永远不会过剩。因为人类对智能的渴求是无穷无尽的,省出来的算力马上就会被更新、更有价值的应用(比如更复杂的智能体协同)填满。在这个过程中,真正的瓶颈正在从芯片制造转移到更底层的物理限制上——那就是能源。如何高效地获取、调度绿色能源,并且让数据中心成为当地电网的“蓄电池”(在居民用电高峰时主动限电退网,在低谷时吸收多余电能),将是未来十年最核心的基础设施课题。

值得精听的片段

与往期的呼应

与往期的张力

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。