English

算力底座与智能的连续运行 · Jensen Huang

2026-06-09 · 由 PodLens 生成的忠实解读

原节目:https://youtu.be/tsQB0n0YV3k?si=pC6HMVlFXJZKNqtO · 时间戳可点击,就地跳转播放器

算力底座协同设计NVIDIA推理基建连续生成计算

这期讲了什么

NVIDIA 创始人兼 CEO Jensen Huang 与主持人 Anj 在 Stanford CS153 课堂上展开了深度对话。Jensen Huang 剖析了计算机科学 60 年来最根本的重塑:计算正在从基于预录制检索的按需模式,演变为实时、生成式且持续运行的 Agentic 系统。他详细拆解了极端协同设计(Codesign)在芯片、编译、软件和网络层面的底层逻辑,并以 10 年 100 万倍的算力跨越阐述了其如何支撑起生成式 AI 的数据大爆发。对话还讨论了开源与闭源的商业及安全底座、Vera Rubin 硬件架构对 Agent 级低延迟工具调用的针对性优化,以及如何看待算力瓶颈与大学科研计算碎片的深层协调失败。最后,Jensen Huang 分享了公司发展中放弃移动端(Tegra)后向机器人学(Thor)重置的战略路径,以及他个人关于“90% 都在受苦”的强韧韧性观,为智能泛在时代下的工程师和决策者提供了清晰的系统级指引。

时间线主题地图

核心观点清单

  1. 计算科学正经历从“预录制检索”向“实时生成”的根本性重塑。 传统的计算模式本质上是根据指令拉取和呈现预先录制的图像、视频或程序二进制;而在 Agentic 时代,计算机基于对意图的上下文理解进行实时的生成与推理。[01:17-03:13] | 类型:观点
  2. 在 Dennard Scaling 失效的背景下,芯片设计必须转向硬件、编译器与软件栈的极端协同设计(Codesign)。 通用 CPU 依赖半导体微缩的时代已过去,通过对 CPU、GPU、高速互联、交换机和库的全局协同,NVIDIA 在 10 年内实现了 100 万倍的计算性能跨越,而传统纯硬件升级仅能带来 10 倍的提升。[10:02-12:20] | 类型:事实
  3. Model Flops Utilization(MFU)是一个容易造成设计偏差的局限指标,系统设计需要进行算力超配(overprovisioning)。 为了在网络延迟、存储吞吐和内存带宽发生动态瓶颈时规避阿姆达尔定律(Amdahl's Law),系统必须具备充足的冗余算力,将 Flops 视为廉价资源,以牺牲局部利用率为代价确保整体任务的瞬时高并发吞吐。[27:11-28:57] | 类型:观点
  4. 大语言模型的 Decode/Inference 阶段属于显存带宽受阻场景,需通过高密度的互联网络(如 NVLink 72)来实现超高能效。 Blackwell 架构之所以在 decode 场景下 MFU 极低却能实现 50 倍的 tokens-per-watt 提升,是因为它通过高速背板总线将 72 颗芯片的显存聚合,消除了跨网络节点读写显存的致命延迟。[29:33-31:30] | 类型:事实
  5. 在关键系统设计的选择中,战略的艺术在于在“高度特异化导致的市场过窄”与“通用化带来的平庸”之间寻找折衷。 过度适配(overfit)单一任务虽能达到极致性能,但无法支撑高昂的 R&D 成本;过度通用(general purpose)则在各领域均面临效率低下,架构师必须依靠对产业未来的直觉来进行战略配比。[32:05-33:03] | 类型:观点
  6. Agent 级计算模式催生了与云服务时代迥然不同的处理器硬件架构(Vera Rubin)。 Agent 执行工具调用时,GPU 处于等待状态,其核心瓶颈不在于多核吞吐,而在于 CPU 运行单线程复杂逻辑的极低延迟。因此,Rubin 架构在 CPU 上选择强化单核低延迟表现,并让存储直接挂载在超高速总线 fabric 上。[36:04-37:52] | 类型:事实
  7. 学术界和高校科研之所以陷入“算力荒”,其根源在于科研经费的协调失败(coordination failure),而非芯片供应本身。 高校沿袭各实验室独立争取小额 grant 的分散模式,无力支付集中式百万卡集群的建设或租赁费用。解决路径在于预算重组,由学校层面集中拨付 10 亿美金级别的专项资金,搭建全校共享的 campus-wide 超算云服务。[53:27-55:19] | 类型:观点
  8. 抗挫折的韧性(resilience)是无法在温室中被习得的,它必须通过承受失败和面对绝境来进行肌肉层面的锻造。 真正的职业生涯有 90% 都是关于苦痛、挑战与在黑暗中摸索,成功的关键不是追求无休止的快乐,而是学会在低谷中保持动作不形变,并将战略失误沉淀为企业长期的备选路径(optionality)。[42:00-45:04] | 类型:观点
  9. 试图 depriving 别国通用算力不仅在技术逻辑上将 GPU 与原子弹混淆,更会对美国半导体产业造成长远的生态自毁。 GPU 广泛服务于医疗扫描、图像渲染等 general-purpose 民用场景。如果美国半导体政策强制放弃全球 2/3 的市场,将导致本土产业因研发资金失血而萎缩,重复当年美国电信行业的衰落轨迹。[47:29-50:34] | 类型:观点

大白话重讲

那我们来聊聊 Jensen Huang 在 Stanford 课堂上的这次分享。虽然大多数人都在惊叹 NVIDIA 暴涨的市值,但其实这场对话暴露了他对整个计算世界底层力学的哲学判断,非常硬核。

首先,我们得理解计算机这门学科正在经历 60 年来的彻底洗牌。在 IBM system 360 奠定的古典时代,我们用电脑是“检索式”的:软件、图片、视频都是程序员预先写好录制在硬盘里的,你按一下,它调出来给你看。而现在的 AI 计算是“实时生成”的。更有意思的是,我们正在告别“按需计算”(On-demand)。以前我们用电脑,是我们需要它了才打开一个网页或发个指令;但在 Agentic 时代,AI 代理是一直挂在后台“持续运行”(Continuously running)的。这就好比从你每天去井里挑水,变成了家里装了自来水管道,水流是持续不断的。

这就带来了一个巨大的软硬件战略分歧。现在很多人在炒作 Model Flops Utilization (MFU),也就是看你买的显卡算力到底利用得充分不充分,如果利用率低就觉得是浪费。但 Jensen Huang 狠狠地泼了一盆冷水。他觉得优秀的系统设计应该“追求低 MFU,进行算力超配”。为什么?因为在庞大的超算集群里,算力(Flops)其实是最便宜的资源,真正的瓶颈在网络传输、存储读取和内存带宽上。如果你非要把算力榨干到 100%,系统一旦遇到突发的数据拥堵,就会卡在其他瓶颈上(这就是阿姆达尔定律)。这就好比高速公路,你不能为了“最大化公路利用率”把所有车都塞上去,那只会造成大塞车。

这种“反唯利用率论”直接指导了 Blackwell 芯片和 Rubin 芯片的研发。比如 Blackwell NVLink 72,就是为了解决 AI 推理中 Decode 显存带宽的问题。哪怕它的 MFU 看起来很低,但它单位功耗吐出的 token 却暴增了 50 倍。而到了 Rubin 架构,他们甚至专门设计了单核极速的 CPU。因为 Agent 在执行工具(比如查数据库或调 API)时,GPU 是闲着的,必须等 CPU 算完。如果 CPU 慢了,昂贵的 GPU 集群就得白白空转。这全部都是从系统全局协同设计(Codesign)的第一性原理推演出来的。

最后,他还顺带揭穿了美国大学“买不起卡”的真相。他说其实芯片管够,斯坦福买不起,不是 NVIDIA 卡住不卖,而是大学的激励机制坏了。教授们都是各占山头自己申请小笔经费,谁也攒不够买大集群的钱,这叫“协调失败”。斯坦福如果真想让学生和教授走在 AI 前沿,就应该从它 400 亿美元的 endowment(基金)里切出 10 亿,直接包下一个超级算力云,让全校共享。这番话可以说是非常直接,但也一针见血地指出了技术变革与陈旧组织结构之间的底层张力。

值得精听的片段

与往期的呼应

与往期的张力

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。