English

算力、交易与招聘:Jane Street 的技术与组织哲学 · Ron Minsky & Dan Ponttovo

2026-06-10 · 由 PodLens 生成的忠实解读

原节目:https://youtu.be/xKZ_8ULR91Y?si=BgAEuMWNMEKXXWWX · 时间戳可点击,就地跳转播放器

Jane Street算力底座交易策略量化招聘协同设计

这期讲了什么

Dwarkesh Patel 访问了 Jane Street 位于德克萨斯州的数据中心,与技术团队共同负责人 Ron Minsky 以及物理工程团队负责人 Dan Ponttovo 展开了深度对话。本期节目探讨了 Jane Street 在极速量化交易到大规模机器学习等多重时间尺度下的技术架构。嘉宾们详细拆解了从亚百纳秒 FPGA 直接连线网络到大尺度 GPU 离线模型训练的多层级交易系统,并透露了他们如何通过与 CoreWeave(转录错误为 "core reef")签署高达 60 亿美元的算力合同来支持高度多样化的模型架构实验。对话还深入到物理工程层面,揭示了兆瓦级机架冷却、模块化基础设施部署等前沿数据中心挑战。在组织结构上,Ron Minsky 剖析了交易作为“AGI-complete”任务中人类认知不可替代的独特价值(尤其在相变期),并分享了 Jane Street 对形式化方法、前端工具以及拼图文化(LLM后门拼图)的 speculative 投资。这期对话展示了一个顶尖量化巨头在智能泛在时代如何权衡算力约束、系统冗余与组织进化。

时间线主题地图

核心观点清单

  1. 量化交易系统是由极速硬件到长周期策略共同构成的高度异构的组合体系(ensemble architecture)。 在亚百纳秒尺度,决策极其简单,甚至无需 CPU 参与,仅通过直接挂载在网络接口上的 FPGA 吐出数据;而在微秒、毫秒以至日级尺度,则依赖更为复杂的模型在 CPU 或 GPU 上运行。[00:45-02:10] | 类型: 事实
  2. 金融数据的极高噪声使得 Jane Street 的模型优化路线与传统 AI 实验室截然相反。 传统 AI labs 追求训练单一的、泛化的巨型基础模型,而 Jane Street 致力于在高度异构的小型模型架构上进行广泛的架构实验,并面临 bytes to flop(字节对浮点运算)比率极高的吞吐挑战。[04:55-06:00] | 类型: 观点
  3. 数据加载的极限性能是量化系统吞吐率的真正瓶颈,而非模型计算本身。 由于 NASDAQ 等行情数据流是以极高带宽顺序 causally consumed(因果式消费),数据加载与传输的开销巨大,驱使 Jane Street 放弃第三方存储,完全自研大规模对象存储和数据载入系统。[07:00-08:40] | 类型: 事实
  4. 地缘与物理电网能力的限制,正在强行拆散原本集中的 AI 算力底座。 数据中心对电力功耗的贪婪(例如兆瓦级机架的普及)使得单个机房的电网接入能力成为物理天花板,技术公司必须适应异构、分布式的地理 scheduling(调度)架构,并承担跨地域的数据同步摩擦。[08:50-09:30] | 类型: 事实
  5. 量化交易本质上是 AGI-complete(AGI完备)的博弈任务。 交易的本质是评估资产的 fair value,而资产价值取决于真实世界未来的变迁(包括政治、灾害与人类决策)。因此,简单的模式识别无法实现终极自动化,任何自动化的突破都会将竞争推向更难、更需要人类认知判断的深水区。[09:34-11:15] | 类型: 观点
  6. 相变期(phase transitions)是量化模型失效的高危期,也是人类 judgment(判断力)溢价最高的窗口。 在市场发生异动、流动性枯竭的极端交易日,基于历史统计的模型往往失效,需要人类在环进行 meta-judgment(元判断)来控制风险并提供高额流动性,这也是交易机构获利最丰厚的时刻。[13:40-14:40] | 类型: 观点
  7. 数据中心建设的决定性约束在于长周期供应链(如变压器和发电机)的协调失败。 为了在芯片快速更新换代的洪流中抢占先机,技术公司往往必须在采购芯片的一年多以前,提前进行物理基础设施设计,甚至通过放弃全量备用发电机等折衷商业决策来加速投产。[15:10-16:50] | 类型: 事实
  8. AI 革命为形式化方法(formal methods)注入了全新的实用价值。 传统软件工程对数学证明编写测试的态度较为克制,但当智能代码生成和自主 Agent 系统大规模部署时,通过形式化方法对核心代码逻辑进行数学层面的严密逻辑验证,成为提升复杂系统可靠性的 speculative 关键工具。[26:41-27:20] | 类型: 预测

大白话重讲

那我们来聊聊 Dwarkesh Patel 与 Jane Street 这两位硬核管理者的对话。虽然外界总把这家量化巨头看作是神秘的黑盒,但他们在这次访谈中大方地分享了算力、交易和组织管理在物理世界和认知层面的真实痛点。

首先要搞清楚的是,交易并不是一个单一时间尺度的游戏,而是一个极其复杂的“交响乐组合”。在最极端的“百纳秒级”交易里,所有的智能和模型都被剥离了。因为光在光纤里走 30 米都要耗费 100 纳秒,在这个尺度下,任何 CPU 计算都太慢了。Jane Street 直接把 FPGA 芯片焊在网络接口上,行情数据包刚进芯片,还没被完整读完,交易响应包就已经从另一端发出了。这纯粹是物理距离与硬件硬连线的对决。但当你把时间尺度拉长到微秒、毫秒甚至天级时,交易才开始变得“聪明”——你可以用 CPU 甚至 GPU 跑复杂的机器学习模型去预测资产的 fair value。

而在算力建设方面,Jane Street 与传统的硅谷 AI 实验室有截然不同的策略。传统的 foundation labs 喜欢花几百亿去训练一个通用的巨型大模型;但 Jane Street 更倾向于“小模型、大实验”。因为金融市场的 bytes to flop 比率极高,而且数据极其嘈杂。他们买了数万张显卡(并且跟 CoreWeave 签了 60 亿美元的算力合同准备扩建到数十万张),主要是为了让研究员能在各种稀奇古怪的模型架构上做快速的实验迭代。因为在量化界,模型是会“劣化”的。随着市场环境变化,老模型的预测能力会迅速衰退,你必须以极高的频率去 retraining。

最后,Ron Minsky 提出了一个非常反主流的看法:AI 的大爆发不仅没有消灭量化人才的需求,反而让顶尖的工程师和交易员变得更加供不应求。他把交易称为“AGI-complete”任务,因为任何事情(从天气变化到政治选举)都会影响资产的价格。随着基础的策略被算法自动化,竞争的边际就会立刻推向那些最难自动化的“深水区”。比如在市场发生大暴动、流动性枯竭的“相变期”,基于历史数据的模型会集体罢工,此时唯有依赖人类的 judgment 出来主持大局、承担风险。同时,Jane Street 还在做一些前沿的 speculative 投资,比如组建形式化方法团队用数学证明来重构软件的可靠性,以及大力投资前端 GUI 界面开发,来打破过去简陋的“终端唯一论”。这表明在智能泛在的时代,最终胜出的绝非只有冰冷的算力,而是硬件、算法与人类主体性深度 Codesign 的系统工程。

值得精听的片段

与往期的呼应

本页为对节目内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。