算力、交易与招聘:Jane Street 的技术与组织哲学 · Ron Minsky & Dan Ponttovo
2026-06-10 · 由 PodLens 生成的忠实解读
原节目:https://youtu.be/xKZ_8ULR91Y?si=BgAEuMWNMEKXXWWX · 时间戳可点击,就地跳转播放器
Jane Street算力底座交易策略量化招聘协同设计
这期讲了什么
Dwarkesh Patel 访问了 Jane Street 位于德克萨斯州的数据中心,与技术团队共同负责人 Ron Minsky 以及物理工程团队负责人 Dan Ponttovo 展开了深度对话。本期节目探讨了 Jane Street 在极速量化交易到大规模机器学习等多重时间尺度下的技术架构。嘉宾们详细拆解了从亚百纳秒 FPGA 直接连线网络到大尺度 GPU 离线模型训练的多层级交易系统,并透露了他们如何通过与 CoreWeave(转录错误为 "core reef")签署高达 60 亿美元的算力合同来支持高度多样化的模型架构实验。对话还深入到物理工程层面,揭示了兆瓦级机架冷却、模块化基础设施部署等前沿数据中心挑战。在组织结构上,Ron Minsky 剖析了交易作为“AGI-complete”任务中人类认知不可替代的独特价值(尤其在相变期),并分享了 Jane Street 对形式化方法、前端工具以及拼图文化(LLM后门拼图)的 speculative 投资。这期对话展示了一个顶尖量化巨头在智能泛在时代如何权衡算力约束、系统冗余与组织进化。
时间线主题地图
- [00:00-00:25] Dwarkesh Patel 在数据中心现场引入嘉宾 Ron Minsky 和 Dan Ponttovo。
- [00:26-01:30] 拆解低于 100 纳秒的极速交易 régimen:放弃 CPU,将 FPGA 直接连线网络,以至于在示波器上可见数据包在完全读入前就已经发送。
- [01:31-02:30] 阐述从极速纳秒到微秒、毫秒直至天级的 ensemble(组合)交易尺度体系。
- [02:31-03:06] 讨论模型预测的核心目标: fair value(公允价值)的预测,作为可组合目标已被沿用 25 年。
- [03:07-04:32] 分析极速交易中的物理线缆长度及 colocation(托管)设施中的功耗与冷却限制。
- [04:33-06:14] 讨论 60 亿美元的 CoreWeave 算力交易。与 foundation labs 追求单一通用大模型不同,Jane Street 追求模型架构的多样化实验,利用小型模型和高噪金融数据进行高频迭代。
- [06:15-06:40] 对比大模型聊天机器人与量化交易的推理负载特征(延迟、Symbol 级解耦、batching 需求)。
- [06:41-07:48] 分析极高顺序 causally consumed 的 NASDAQ 数据流,指明数据加载性能是系统设计的关键瓶颈。
- [07:49-09:33] 讨论技术组织的演化,放弃 x86_64 转向 ARM 芯片架构,并将单个中心化数据中心向分布式地理节点迁移。
- [09:34-11:40] 探讨 AGI 对量化交易的自动化前景。Ron Minsky 认为交易是“AGI-complete”或“NP-complete”的任务,因为价值评估本质是预测未来,与真实世界的一切事件纠缠。
- [11:41-12:35] 探讨非电子化的传统交易,如通过聊天和电话进行的决策,评估交易对手的 adverse selection(逆向选择)风险。
- [12:36-13:35] 梳理股票和债券市场的电子化与自动化演进轨迹。
- [13:36-14:42] 分析人类决策的独特价值:在市场 phase transitions(相变期)及宏观异动日,人类 judgment 优于模型,Jane Street 始终保持人类在环(human-in-the-loop)的监控。
- [14:43-15:24] Dan Ponttovo 回顾过去 20 年数据中心建设的变化:冷却技术被置于聚光灯下,以及商业决策与纯工程设计的权衡。
- [15:25-17:00] 探讨基础设施(发电机、变压器)的漫长 lead time(交付周期)瓶颈,以及 modular(模块化)基础设施的兴起。
- [17:01-18:47] 拆解兆瓦级机架(1 megawatt rack)的水冷管道与 AC/800V DC 输电技术挑战,对比 TPU 与 NVIDIA GB200。
- [18:48-20:54] 分析 Jane Street 的算力约束,没有类似 Meta 展示广告的备用 compute 消耗方式,而是通过加快模型 retraining(重新训练)和 offline 批量推理来应对模型性能衰退。
- [20:55-22:02] 讨论招聘与算力的投资配比,透露 Jane Street 目前拥有数万张 GPU,未来将扩展到数十万张。
- [22:03-24:20] 剖析团队成长的真正瓶颈是文化吸收和 mentorship(导师)带宽,而非硬件;介绍物理工程、机器学习和交易员的多元角色。
- [24:21-25:40] 介绍软件工程的新投资:随着算力规模提升,进行 fleet-wide optimization(全集群优化)。
- [25:41-26:40] 透露 Jane Street 正在设计定制的 ASIC 芯片。
- [26:41-27:20] 探讨 speculative 技术投资,如建立正式的形式化方法(formal methods)团队,通过数学证明确保系统可靠性。
- [27:21-28:20] 介绍前端工程( GUI 界面设计)对提高人类 Agency(主体性)的作用,以及摆脱“终端唯物主义”。
- [28:21-29:33] 探讨拼图文化在招聘中的作用,并提及 LLM 后门(backdoor)检测竞赛的细节。
核心观点清单
- 量化交易系统是由极速硬件到长周期策略共同构成的高度异构的组合体系(ensemble architecture)。 在亚百纳秒尺度,决策极其简单,甚至无需 CPU 参与,仅通过直接挂载在网络接口上的 FPGA 吐出数据;而在微秒、毫秒以至日级尺度,则依赖更为复杂的模型在 CPU 或 GPU 上运行。[00:45-02:10] | 类型: 事实
- 金融数据的极高噪声使得 Jane Street 的模型优化路线与传统 AI 实验室截然相反。 传统 AI labs 追求训练单一的、泛化的巨型基础模型,而 Jane Street 致力于在高度异构的小型模型架构上进行广泛的架构实验,并面临 bytes to flop(字节对浮点运算)比率极高的吞吐挑战。[04:55-06:00] | 类型: 观点
- 数据加载的极限性能是量化系统吞吐率的真正瓶颈,而非模型计算本身。 由于 NASDAQ 等行情数据流是以极高带宽顺序 causally consumed(因果式消费),数据加载与传输的开销巨大,驱使 Jane Street 放弃第三方存储,完全自研大规模对象存储和数据载入系统。[07:00-08:40] | 类型: 事实
- 地缘与物理电网能力的限制,正在强行拆散原本集中的 AI 算力底座。 数据中心对电力功耗的贪婪(例如兆瓦级机架的普及)使得单个机房的电网接入能力成为物理天花板,技术公司必须适应异构、分布式的地理 scheduling(调度)架构,并承担跨地域的数据同步摩擦。[08:50-09:30] | 类型: 事实
- 量化交易本质上是 AGI-complete(AGI完备)的博弈任务。 交易的本质是评估资产的 fair value,而资产价值取决于真实世界未来的变迁(包括政治、灾害与人类决策)。因此,简单的模式识别无法实现终极自动化,任何自动化的突破都会将竞争推向更难、更需要人类认知判断的深水区。[09:34-11:15] | 类型: 观点
- 相变期(phase transitions)是量化模型失效的高危期,也是人类 judgment(判断力)溢价最高的窗口。 在市场发生异动、流动性枯竭的极端交易日,基于历史统计的模型往往失效,需要人类在环进行 meta-judgment(元判断)来控制风险并提供高额流动性,这也是交易机构获利最丰厚的时刻。[13:40-14:40] | 类型: 观点
- 数据中心建设的决定性约束在于长周期供应链(如变压器和发电机)的协调失败。 为了在芯片快速更新换代的洪流中抢占先机,技术公司往往必须在采购芯片的一年多以前,提前进行物理基础设施设计,甚至通过放弃全量备用发电机等折衷商业决策来加速投产。[15:10-16:50] | 类型: 事实
- AI 革命为形式化方法(formal methods)注入了全新的实用价值。 传统软件工程对数学证明编写测试的态度较为克制,但当智能代码生成和自主 Agent 系统大规模部署时,通过形式化方法对核心代码逻辑进行数学层面的严密逻辑验证,成为提升复杂系统可靠性的 speculative 关键工具。[26:41-27:20] | 类型: 预测
大白话重讲
那我们来聊聊 Dwarkesh Patel 与 Jane Street 这两位硬核管理者的对话。虽然外界总把这家量化巨头看作是神秘的黑盒,但他们在这次访谈中大方地分享了算力、交易和组织管理在物理世界和认知层面的真实痛点。
首先要搞清楚的是,交易并不是一个单一时间尺度的游戏,而是一个极其复杂的“交响乐组合”。在最极端的“百纳秒级”交易里,所有的智能和模型都被剥离了。因为光在光纤里走 30 米都要耗费 100 纳秒,在这个尺度下,任何 CPU 计算都太慢了。Jane Street 直接把 FPGA 芯片焊在网络接口上,行情数据包刚进芯片,还没被完整读完,交易响应包就已经从另一端发出了。这纯粹是物理距离与硬件硬连线的对决。但当你把时间尺度拉长到微秒、毫秒甚至天级时,交易才开始变得“聪明”——你可以用 CPU 甚至 GPU 跑复杂的机器学习模型去预测资产的 fair value。
而在算力建设方面,Jane Street 与传统的硅谷 AI 实验室有截然不同的策略。传统的 foundation labs 喜欢花几百亿去训练一个通用的巨型大模型;但 Jane Street 更倾向于“小模型、大实验”。因为金融市场的 bytes to flop 比率极高,而且数据极其嘈杂。他们买了数万张显卡(并且跟 CoreWeave 签了 60 亿美元的算力合同准备扩建到数十万张),主要是为了让研究员能在各种稀奇古怪的模型架构上做快速的实验迭代。因为在量化界,模型是会“劣化”的。随着市场环境变化,老模型的预测能力会迅速衰退,你必须以极高的频率去 retraining。
最后,Ron Minsky 提出了一个非常反主流的看法:AI 的大爆发不仅没有消灭量化人才的需求,反而让顶尖的工程师和交易员变得更加供不应求。他把交易称为“AGI-complete”任务,因为任何事情(从天气变化到政治选举)都会影响资产的价格。随着基础的策略被算法自动化,竞争的边际就会立刻推向那些最难自动化的“深水区”。比如在市场发生大暴动、流动性枯竭的“相变期”,基于历史数据的模型会集体罢工,此时唯有依赖人类的 judgment 出来主持大局、承担风险。同时,Jane Street 还在做一些前沿的 speculative 投资,比如组建形式化方法团队用数学证明来重构软件的可靠性,以及大力投资前端 GUI 界面开发,来打破过去简陋的“终端唯一论”。这表明在智能泛在的时代,最终胜出的绝非只有冰冷的算力,而是硬件、算法与人类主体性深度 Codesign 的系统工程。
值得精听的片段
- [00:45-01:30] 拆解低于 100 纳秒的极速交易 régimen。Ron Minsky 描述了在示波器上观察数据包“还没读完就已发出”的物理极限,是理解量化物理硬件约束的经典切片。
- [04:55-06:00] 详细拆解 Jane Street 在算力投资和模型架构上与传统硅谷大模型实验室的战略分歧,解释为什么金融数据是高噪且 bytes to flop 比率高的,极富系统设计启发。
- [09:34-11:15] Ron Minsky 论证为什么交易是“AGI-complete”或“NP-complete”的任务。他阐述了随着基础任务自动化,竞争边界如何向更高维的人类认知领域移动,非常有认识论深度。
- [13:40-14:42] 深入剖析相变期(phase transitions)为什么模型会集体失效,以及为什么此时人类交易员的 judgment 具有最高的溢价,展示了人类在人机协同系统中的防线作用。
- [26:41-27:20] Ron Minsky 阐述为什么在 AI 代码生成的浪潮下,形式化方法(formal methods)等 Speculative 投资突然变得具有极高商业价值,为未来软件工程演进指明了道路。
与往期的呼应
- 同构→ AI超级周期的经济学:企业落地的上下文鸿沟 · Ali Ghodsi
两者均从实操层面剖析 AI 算力的经济逻辑——Jane Street 揭示金融机构的算力部署策略,class4 从企业落地侧揭示 AI 成本结构与上下文工程的核心矛盾。
本期[04:33-06:14] Jane Street 与 CoreWeave 签订 60 亿美元算力合约,战略上追求多样化模型架构实验而非单一巨型基础模型——算力是迭代速度的核心杠杆。
往期[01:42-03:43] 在 Ali Ghodsi 看来,AGI 按 AMPLab 2009 年的定义早已实现,但企业落地的真正瓶颈不是模型智能,而是上下文鸿沟与推理成本结构。
- 印证→ 算力底座与智能的连续运行 · Jensen Huang
Jensen Huang 阐释 GPU 算力扩张的技术底层逻辑,Jane Street 从大规模算力买家的实际使用角度印证了 Nvidia 协同设计(Codesign)战略的落地效果。
本期[17:01-18:47] 兆瓦级机架水冷管道系统与 AC/800V DC 直流输电的技术挑战——物理工程层是算力扩张中被低估的系统设计瓶颈。
往期[10:02-12:20] 在 Dennard Scaling 失效的背景下,Nvidia 通过 CPU、GPU、高速互联、交换机和库的全局协同设计,10 年内实现了 100 万倍的计算性能跨越。
- 延伸→ 信用与科技的范式重塑 · Dan Loeb
两者均是金融世界内部对 AI 算力投资的一手视角——Dan Loeb 从宏观投资组合角度,Jane Street 从量化交易实际部署角度,共同勾勒算力作为战略资产的产业图景。
本期[20:55-22:02] Jane Street 当前拥有数万块 GPU 并计划扩展至数十万块,算力投入与招聘比例的战略权衡直接决定了量化团队的竞争边界。
往期[03:10-04:55] Dan Loeb 认为评估 AI 产业生态应采用自底向上的技术栈模型,重点追踪 Nvidia 等算力核心供应商的市场地位与投资价值。
- 补充→ AI 芯片如何从底层运作 · Reiner Pope
Reiner Pope 从芯片设计的最底层(乘加运算与内存带宽)向上解释 AI 算力架构,Jane Street 从量化系统的实际需求侧向下分解,两者形成完整的上下游视角。
本期[06:41-07:48] 极高顺序因果消耗的 NASDAQ 数据流使数据加载成为量化系统的核心设计瓶颈——算法与硬件的协同设计必须围绕数据带宽而非单纯浮点算力。
- 同构← AI超量扩张的电网硬壁垒与能源套利 · Chase Lock Miller
两者均从算力大规模买家视角揭示 AI 计算基础设施的真实运营逻辑——Jane Street 聚焦纳秒级到日级的量化交易系统,Chase 聚焦吉瓦级数据中心的物理工程,核心问题相同:如何最大化每兆瓦的价值产出。
本期[17:01-18:47] 兆瓦级机架水冷与 800V DC 直流输电的技术挑战在量化数据中心同样适用——物理工程与 IT 软件的协同设计是算力产业共同面临的根本性设计约束。
往期[29:20-31:47] IT 设备每兆瓦约 4000 万美元:GPU 占 3000 万,网络 400 万,CPU 严重短缺——这恰好是 Jane Street 亿万量化集群在物理层的采购现实。
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。