算力底座与智能的连续运行 · Jensen Huang
2026-06-09 · 由 PodLens 生成的忠实解读
原节目:https://youtu.be/tsQB0n0YV3k?si=pC6HMVlFXJZKNqtO · 时间戳可点击,就地跳转播放器
算力底座协同设计NVIDIA推理基建连续生成计算
这期讲了什么
NVIDIA 创始人兼 CEO Jensen Huang 与主持人 Anj 在 Stanford CS153 课堂上展开了深度对话。Jensen Huang 剖析了计算机科学 60 年来最根本的重塑:计算正在从基于预录制检索的按需模式,演变为实时、生成式且持续运行的 Agentic 系统。他详细拆解了极端协同设计(Codesign)在芯片、编译、软件和网络层面的底层逻辑,并以 10 年 100 万倍的算力跨越阐述了其如何支撑起生成式 AI 的数据大爆发。对话还讨论了开源与闭源的商业及安全底座、Vera Rubin 硬件架构对 Agent 级低延迟工具调用的针对性优化,以及如何看待算力瓶颈与大学科研计算碎片的深层协调失败。最后,Jensen Huang 分享了公司发展中放弃移动端(Tegra)后向机器人学(Thor)重置的战略路径,以及他个人关于“90% 都在受苦”的强韧韧性观,为智能泛在时代下的工程师和决策者提供了清晰的系统级指引。
时间线主题地图
- [00:08-01:04] 主持人 Anj 介绍并欢迎 NVIDIA 联合创始人兼 CEO Jensen Huang 回到 Stanford 课堂。
- [01:05-03:13] 探讨计算模式的根本性重塑。Jensen Huang 指出当前的计算模式正发生 60 年来的最大变革:从“预录制检索”向“实时生成”转移,AI 不仅响应指令,还能理解和生成上下文一致的意图。
- [03:14-05:33] 讨论软件开发方法论和公司组织的重组。AI 带来软件运行机制(神经网络对比二进制编译)的质变,自驱动驾驶等机器人应用在深度学习下迎来真正解锁。
- [05:34-07:12] 分析 GPT 之后的“推理”与“思维生成”逻辑。AI 通过生成内部消费的 token 进行慢思考,通过输出外部 token 实现工具调用。
- [07:13-08:20] 计算从“按需计算”(on-demand)云服务向“持续运行”(continuously running)的 Agentic 系统迁移,给软硬件基础设施带来全新机遇。
- [08:21-10:01] 追溯 Codesign(协同设计)的历史遗产。以 John Hennessy 在 Stanford 的 RISC 架构研究为例,说明编译器与指令集硬件协同优化能创造出优于独立优化的系统表现。
- [10:02-11:20] 阐述深度学习等极端计算密集型任务为什么需要极致的 Codesign。NVIDIA 是首个将 CPU、GPU、网络、交换机、存储和软件框架进行全局协同设计的系统公司。
- [11:21-13:49] 对比 Moore's Law 的局限性与 NVIDIA 的算力跨越。随着 Dennard Scaling 失效,通用 CPU 算力 10 年仅提升 10 倍,而 NVIDIA 通过全局 Codesign 实现了 10 年 100 万倍的算力提升,直接催生了互联网级海量数据无监督预训练。
- [13:50-17:10] 探讨教育与教材在 AI 时代的演进。Jensen Huang 指出传统预印教材已跟不上 AI 实时生成知识的速度,师生应当深度融合 AI 进行研究和学习;强调虽然工具在变,但第一性原理(如 Mead & Conway VLSI 设计方法)的根基依然坚固。
- [17:11-19:32] 开源与闭源 Frontier 模型的选择逻辑。Jensen Huang 透露 NVIDIA 的工程师已 100% 部署 Agent 辅助开发,并建议开发者积极使用 OpenAI 和 Anthropic 等顶尖闭源 API,同时解释了 NVIDIA 探索开源 foundation 模型的动机。
- [19:33-21:45] 分析 domain-specific models(领域特定模型)的表征学习需求。NVIDIA 致力于在生物学(BioNemo)、自动驾驶(Alpamayo)、机器人(Groot)等领域构建基座模型,以激活下游产业生态。
- [21:46-23:52] 阐述语言模型开源的多语种公平性及与物理世界模型的融合。开源 Nemotron 能避免小语种(如瑞典语)被商业模型边缘化,且语言模型与物理世界先验融合后,能将自动驾驶(Alpamayo)的训练数据开销缩减几个数量级。
- [23:53-25:45] 论证开源透明模型在安全与防御层面的不可替代性。系统无法防御黑盒子,透明性是集体 interrogation 和防御的基础。提出通过部署海量轻量级 AI(如 Nemotron Nano)组成蜂群式防御网来抵御复杂的网络安全攻击。
- [25:46-28:57] 讨论 compute utilization(算力利用率)和 xAI Memphis 算力池低 MFU 的争议。Jensen Huang 反对唯 MFU(Model Flops Utilization)论,指出为了规避阿姆达尔定律和应对网络、存储、内存带宽的系统级瓶颈,系统设计应当过配 Flops。
- [28:58-32:04] 剖析 Hopper 与 Blackwell 的架构转移。Hopper 针对预训练,而 Grace Blackwell NVLink 72 针对推理和 Decode 阶段的显存带宽瓶颈,通过 72 卡全局互联实现了 2 年 50 倍的推理性能提升。在 decode 主导的场景下,虽然 MFU 极低,但单位功耗生成的 token 数(tokens per watt)极高。
- [32:05-33:03] 解释战略艺术在于多领域与单一领域之间的折衷。过度特异化(overfit)丧失市场规模,过度通用化(general purpose)则失去竞争优势,战略的艺术家必须在其中寻找平衡。
- [33:04-38:11] 拆解芯片迭代蓝图。Hopper 对应预训练,Grace Blackwell NVLink 72 对应大模型推理,Vera Rubin 针对 Agentic 模式(高带宽存储直连和低延迟单线程 CPU,避免 GPU 等待工具调用),Feynman 将针对 Agent/Sub-agent 蜂群系统。
- [38:12-41:59] 探讨能源是算力长远瓶颈的化解路径。随着连续生成式计算普及,算力与能源需求将暴增千倍,但这强力拉动了核能、太阳能等可持续能源的商业市场化投资,从而盘活了陈旧的电网升级。
- [42:00-45:32] 分享人生与职业建议。Jensen Huang 质疑“选择你所爱”的教条,认为 90% 的 CEO 工作都是受苦和解决棘手问题,强调抗挫折的韧性(resilience)肌肉只能在不断的痛楚与挣扎中锻造出来。
- [45:33-47:16] 趣谈他在 Corvallis Denny's 工作时的回忆,分享他喜爱的美式餐点组合和 Denny's 对他这个华人青年的社会认知启蒙。
- [47:17-50:55] 回应地缘政治下的芯片管制。他坚决反对将 general-purpose 芯片类比为原子弹,指出 depriving 别国通用算力不仅扭曲了医疗、游戏等通用计算应用,更可能通过扼杀市场需求而给美国半导体产业带来结构性摧毁(如当年的电信产业)。
- [50:56-52:57] 批驳 AGI 奇点崩溃的未来学幻想。他指出神经科学的黑盒迷思和奇点瞬间毁灭人类的 science fiction 想象是不负责任的,应当给计算机科学的学子提供理性的技术乐观前景。
- [52:58-55:54] 回应 Anj 关于美国本土学术界算力匮乏的指责。他澄清芯片供应充沛,核心问题是高校科研经费碎裂化(coordination failure)导致无力筹建大型共享算力集群。建议 Stanford 动用 400 亿美金资产中的 10 亿直接向云服务商购买 campus-wide 算力网。
- [55:55-58:39] 总结 CEO 工作的最好与最坏部分。最好部分是与顶尖学者在复杂而不确定的未来中构筑战略并验证;最坏部分是担负庞大的组织责任,回溯了公司早期四五次濒临破产的致命决策失误(如早期的弯曲表面设计和 forward texture mapping 偏离行业三角规格标准)。
- [58:40-01:04:30] 回顾 Tegra 移动端芯片转型的得失。虽冲上 10 亿规模却在 3G/4G 调制解调器时代被 Qualcomm 锁出局,但这一受挫使 NVIDIA 将低功耗技术重置到机器人学(Thor 芯片的祖先),变坏事为 optionality 的复利。
- [01:04:31-01:08:18] 总结在战争迷雾下的系统战略逻辑。通过观察、第一性原理拆解、So-what 追问构建未来心智模型,倒推当前路径,在执行中控制机会成本并维持选择权(optionality)。
核心观点清单
- 计算科学正经历从“预录制检索”向“实时生成”的根本性重塑。 传统的计算模式本质上是根据指令拉取和呈现预先录制的图像、视频或程序二进制;而在 Agentic 时代,计算机基于对意图的上下文理解进行实时的生成与推理。[01:17-03:13] | 类型:观点
- 在 Dennard Scaling 失效的背景下,芯片设计必须转向硬件、编译器与软件栈的极端协同设计(Codesign)。 通用 CPU 依赖半导体微缩的时代已过去,通过对 CPU、GPU、高速互联、交换机和库的全局协同,NVIDIA 在 10 年内实现了 100 万倍的计算性能跨越,而传统纯硬件升级仅能带来 10 倍的提升。[10:02-12:20] | 类型:事实
- Model Flops Utilization(MFU)是一个容易造成设计偏差的局限指标,系统设计需要进行算力超配(overprovisioning)。 为了在网络延迟、存储吞吐和内存带宽发生动态瓶颈时规避阿姆达尔定律(Amdahl's Law),系统必须具备充足的冗余算力,将 Flops 视为廉价资源,以牺牲局部利用率为代价确保整体任务的瞬时高并发吞吐。[27:11-28:57] | 类型:观点
- 大语言模型的 Decode/Inference 阶段属于显存带宽受阻场景,需通过高密度的互联网络(如 NVLink 72)来实现超高能效。 Blackwell 架构之所以在 decode 场景下 MFU 极低却能实现 50 倍的 tokens-per-watt 提升,是因为它通过高速背板总线将 72 颗芯片的显存聚合,消除了跨网络节点读写显存的致命延迟。[29:33-31:30] | 类型:事实
- 在关键系统设计的选择中,战略的艺术在于在“高度特异化导致的市场过窄”与“通用化带来的平庸”之间寻找折衷。 过度适配(overfit)单一任务虽能达到极致性能,但无法支撑高昂的 R&D 成本;过度通用(general purpose)则在各领域均面临效率低下,架构师必须依靠对产业未来的直觉来进行战略配比。[32:05-33:03] | 类型:观点
- Agent 级计算模式催生了与云服务时代迥然不同的处理器硬件架构(Vera Rubin)。 Agent 执行工具调用时,GPU 处于等待状态,其核心瓶颈不在于多核吞吐,而在于 CPU 运行单线程复杂逻辑的极低延迟。因此,Rubin 架构在 CPU 上选择强化单核低延迟表现,并让存储直接挂载在超高速总线 fabric 上。[36:04-37:52] | 类型:事实
- 学术界和高校科研之所以陷入“算力荒”,其根源在于科研经费的协调失败(coordination failure),而非芯片供应本身。 高校沿袭各实验室独立争取小额 grant 的分散模式,无力支付集中式百万卡集群的建设或租赁费用。解决路径在于预算重组,由学校层面集中拨付 10 亿美金级别的专项资金,搭建全校共享的 campus-wide 超算云服务。[53:27-55:19] | 类型:观点
- 抗挫折的韧性(resilience)是无法在温室中被习得的,它必须通过承受失败和面对绝境来进行肌肉层面的锻造。 真正的职业生涯有 90% 都是关于苦痛、挑战与在黑暗中摸索,成功的关键不是追求无休止的快乐,而是学会在低谷中保持动作不形变,并将战略失误沉淀为企业长期的备选路径(optionality)。[42:00-45:04] | 类型:观点
- 试图 depriving 别国通用算力不仅在技术逻辑上将 GPU 与原子弹混淆,更会对美国半导体产业造成长远的生态自毁。 GPU 广泛服务于医疗扫描、图像渲染等 general-purpose 民用场景。如果美国半导体政策强制放弃全球 2/3 的市场,将导致本土产业因研发资金失血而萎缩,重复当年美国电信行业的衰落轨迹。[47:29-50:34] | 类型:观点
大白话重讲
那我们来聊聊 Jensen Huang 在 Stanford 课堂上的这次分享。虽然大多数人都在惊叹 NVIDIA 暴涨的市值,但其实这场对话暴露了他对整个计算世界底层力学的哲学判断,非常硬核。
首先,我们得理解计算机这门学科正在经历 60 年来的彻底洗牌。在 IBM system 360 奠定的古典时代,我们用电脑是“检索式”的:软件、图片、视频都是程序员预先写好录制在硬盘里的,你按一下,它调出来给你看。而现在的 AI 计算是“实时生成”的。更有意思的是,我们正在告别“按需计算”(On-demand)。以前我们用电脑,是我们需要它了才打开一个网页或发个指令;但在 Agentic 时代,AI 代理是一直挂在后台“持续运行”(Continuously running)的。这就好比从你每天去井里挑水,变成了家里装了自来水管道,水流是持续不断的。
这就带来了一个巨大的软硬件战略分歧。现在很多人在炒作 Model Flops Utilization (MFU),也就是看你买的显卡算力到底利用得充分不充分,如果利用率低就觉得是浪费。但 Jensen Huang 狠狠地泼了一盆冷水。他觉得优秀的系统设计应该“追求低 MFU,进行算力超配”。为什么?因为在庞大的超算集群里,算力(Flops)其实是最便宜的资源,真正的瓶颈在网络传输、存储读取和内存带宽上。如果你非要把算力榨干到 100%,系统一旦遇到突发的数据拥堵,就会卡在其他瓶颈上(这就是阿姆达尔定律)。这就好比高速公路,你不能为了“最大化公路利用率”把所有车都塞上去,那只会造成大塞车。
这种“反唯利用率论”直接指导了 Blackwell 芯片和 Rubin 芯片的研发。比如 Blackwell NVLink 72,就是为了解决 AI 推理中 Decode 显存带宽的问题。哪怕它的 MFU 看起来很低,但它单位功耗吐出的 token 却暴增了 50 倍。而到了 Rubin 架构,他们甚至专门设计了单核极速的 CPU。因为 Agent 在执行工具(比如查数据库或调 API)时,GPU 是闲着的,必须等 CPU 算完。如果 CPU 慢了,昂贵的 GPU 集群就得白白空转。这全部都是从系统全局协同设计(Codesign)的第一性原理推演出来的。
最后,他还顺带揭穿了美国大学“买不起卡”的真相。他说其实芯片管够,斯坦福买不起,不是 NVIDIA 卡住不卖,而是大学的激励机制坏了。教授们都是各占山头自己申请小笔经费,谁也攒不够买大集群的钱,这叫“协调失败”。斯坦福如果真想让学生和教授走在 AI 前沿,就应该从它 400 亿美元的 endowment(基金)里切出 10 亿,直接包下一个超级算力云,让全校共享。这番话可以说是非常直接,但也一针见血地指出了技术变革与陈旧组织结构之间的底层张力。
值得精听的片段
- [11:21-13:00] Jensen Huang 对比 Moore's Law 的终结与 Codesign 的爆发,拆解 Dennard Scaling 的物理极限,以及为什么全局协同设计能实现 10 年 100 万倍的算力级差。这是理解现代半导体物理与计算系统演进的分水岭。
- [27:11-28:57] 深入拆解为什么唯 MFU(Model Flops Utilization)指标是片面的,论述“超配算力以规避瓶颈”的系统架构直觉。技术含金量极高,是系统工程师不可错过的硬核篇章。
- [33:15-37:52] 完整勾勒 Hopper、Blackwell、Vera Rubin 到 Feynman 的处理器物理架构演进路线图,尤其是对 Agent 计算模式下 CPU/GPU 配合与 fabric 存储挂载的硬件级解剖。
- [42:00-45:04] 论述为什么“选择你所爱”是个片面的教条,分享 CEO 工作中“90% 都在受苦”的真实状态,以及如何像锻炼肌肉一样磨砺 resilience(抗挫折韧性)。非常真诚且具张力的人生建议。
- [53:27-55:19] 对斯坦福等学术界“算力荒”进行第一性原理的机制剖析,尖锐指出协调失败(coordination failure)这一组织结构硬伤,并给出动用 10 亿美元 endowment 的直接解决方案。
与往期的呼应
与往期的张力
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。