智能体记忆:长周期工作负载的系统特征与启示 · Yasmine Omri
2026-06-06 · 由 PodLens 生成的忠实解读
原文:https://arxiv.org/pdf/2606.06448
智能体记忆系统级表征预填充开销记忆构建鲜度与延迟能耗开销
这篇论文讲了什么
本文是针对大语言模型(LLM)智能体记忆系统(Agent Memory Systems)的第一份系统级表征(systems characterization)研究。随着大语言模型智能体被越来越多地应用于需要长期持续推理的长周期任务(long-horizon tasks)中,智能体需要在多个会话中持久化存储、检索和更新其自身的记忆。尽管目前存在多种智能体记忆系统设计,但它们的系统级行为和计算开销一直未得到刻画。论文作者 Yasmine Omri, Ziyu Gan 等人建立了一个系统化的分类学,构建了一个阶段感知的分析工具(profiling harness),并对十个有代表性的记忆系统在 MemoryAgentBench 和 MemoryArena 基准上进行了系统级评估。研究发现,记忆构建(construction)开销占据了智能体生命周期的绝大部分,且与对延迟敏感的问答(QA)服务存在计算资源上的冲突。最后,论文针对智能体记忆服务架构、调度和系统选择提出了十条系统建议。
论文骨架
- 研究背景与问题定义:大语言模型智能体在长周期任务中积累的状态远超单个推理上下文所能容纳的上限。传统的将全部历史保留在上下文中的做法面临上下文预算有限、Prefill开销二次方级增长以及长序列下推理保真度下降(U形曲线效应)这三大核心限制。外部记忆系统通过将状态持久化到外部数据库,实现了存储容量与上下文长度的解耦。 (1. Introduction · "Realizing this at scale requires agents to")
- 核心分类学:论文提出了一个将智能体记忆系统分为四种范式的分类法:
- 范式 I: Long-context memory:不进行记忆构建,直接将完整的交互历史作为提示词传入模型。 (2.2. Taxonomy of Agent Memory Paradigms · "performs no memory construction and stores no")
- 范式 II: Flat RAG memory:采用确定性的分块 and 索引管道(如 BM25 或 EmbedRAG),不调用大语言模型进行构建,支持 Lexical 或 Dense 检索,属于追加式构建(append-only)。 (2.2. Taxonomy of Agent Memory Paradigms · "applies a deterministic indexing pipeline")
- 范式 III: Structure-augmented RAG memory:使用大语言模型作为固定提取器来从交互流中提取事实、摘要、实体或关系三元组。分为追加式(如 GraphRAG, HippoRAG v2)与合并式(如 Mem0, SimpleMem,后者会进行 ADD/UPDATE/DELETE 的记录更新)。 (2.2. Taxonomy of Agent Memory Paradigms · "These systems use an LLM as a fixed extractor")
- 范式 IV: Agentic control flow:将记忆操作作为工具或动作开放给智能体的大语言模型决策循环,由大语言模型自主控制记忆的读写与修改(如 A-Mem, Letta, MIRIX)。 (2.2. Taxonomy of Agent Memory Paradigms · "Memory access is an action selected by")
- 系统级开销与行为表征:
- 构建开销主导:在使用大语言模型进行记忆处理的系统中,记忆构建开销占据了整个生命周期能量消耗的主导地位,远超查询阶段的能量消耗。 (4.2. Construction Dominates the Agent Lifecycle · "exceeds total query-phase energy across 300")
- Prefill 与 Embedding 瓶颈:记忆构建是高输入、低输出的任务,其大语言模型调用开销几乎全部集中在 Prefill 阶段,Decode 仅占极小比例;此外,不同范式产生的 Embedding 流量呈现出大批处理(bimodal batching)与串行化写入的对立特征。 (4.3. Construction Is an Overwhelmingly Embedding and Prefill-dominated Workload · "it repeatedly reads long chunks or windows and emits compact")
- 构建模型下行兼容性:大多数系统支持通过降低构建期大语言模型的规格来节省成本,但对于需要严格遵守 JSON 模式或工具调用语法的系统(如 MIRIX),模型退化会导致记忆库损坏而彻底失效。 (4.4. Construction-LLM Choice Is Agent memory system-Constrained · "LLM downscaling is a cost lever")
- 研究局限性:作者承认,目前的研究仅局限于单节点智能体,多节点和多智能体部署中分布式存储的一致性与协调要求,以及多模态记忆(结合图像、音频等)的存储与检索,都是尚未解决的挑战。 (5. Discussion & Conclusion · "stores that single-node")
核心论点清单
- 全历史上下文的Prefill开销随历史累积而呈二次方级增长,且存在中段信息丢失风险。
- 锚点:1. Introduction · "prefill costs scale"
- 类型:事实
- 外部记忆系统通过解耦上下文长度与存储容量来克服长上下文处理的系统级限制。
- 锚点:1. Introduction · "decoupling capacity"
- 类型:主张
- 对于大语言模型介导的记忆系统,记忆构建所消耗的能量占据了智能体生命周期的绝大部分。
- 锚点:4.2. Construction Dominates the Agent Lifecycle · "exceeds total query-phase energy across 300"
- 类型:事实
- 智能体记忆构建本质上是一个以 Prefill 和 Embedding 为主导的重读取、轻写入的工作负载。
- 锚点:4.3. Construction Is an Overwhelmingly Embedding and Prefill-dominated Workload · "it repeatedly reads long chunks or windows and emits compact"
- 类型:事实
- 在并行服务时,构建任务的巨大 Prefill 吞吐量会占用 KV 缓存并与低延迟的问答查询产生直接的资源争抢。
- 锚点:4.3. Construction Is an Overwhelmingly Embedding and Prefill-dominated Workload · "a large construction prefill job occupies KV-cache headroom and stalls the batch scheduler precisely when a latency-sensitive query arrives."
- 类型:预测
- 降低构建期大语言模型的规格是可行的开销控制杠杆,但其下限受到算法输出格式约束的硬性限制。
- 锚点:4.4. Construction-LLM Choice Is Agent memory system-Constrained · "LLM downscaling is a cost lever"
- 类型:事实
- 没有任何一个记忆系统能够同时在构建开销、查询延迟和任务准确度上达到最优。
- 锚点:4.5. The Construction–Serve–Accuracy Frontier · "No agent memory system is optimal across"
- 类型:事实
- 在异步调度下,构建速度缓慢的记忆系统会由于写入未提交而向智能体提供过时的记忆数据,导致“鲜度与延迟”的权衡冲突。
- 锚点:4.6. Inter-Session Construction Creates a Freshness–Latency Tradeoff · "Under asynchronous scheduling, slow-construction agent memory systems serve"
- 类型:事实
大白话重讲
我们可以把智能体记忆看成一种从“静态文档检索”到“动态、可变状态管理”的跨越。过去的智能体,要么每次都傻傻地把长达几十万字的所有历史对话一股脑塞给大模型,要么只能像传统 RAG 那样,去搜索一堆死板的、永远不会变的本地文档。但这两种做法都有极大的代价:前者不仅越聊越贵(Prefill 开销呈二次方级上升),而且聊到中间的信息模型根本记不住;后者又无法让智能体记录用户的个人偏好、或是随着新交互不断修正旧认知。
智能体记忆系统就是为了解决这个矛盾而生的。它们把记忆存在大模型外面,只在需要的时候把最相关的几条“捞”出来,这样就能省下大笔的显卡计算费。
但是,这世上没有免费的午餐。这篇论文最核心的发现是:智能体记忆系统其实是把成本从“查询时(Read Path)”转移到了“记录时(Write Path)”。比如,像 Mem0 这种系统,用户每说一句话,它都要在后台调用大语言模型,把这句话精简提炼成一条条原子事实,甚至还要去跟已有的记忆库进行 ADD(新增)、UPDATE(更新)或 DELETE(删除)的去重合并。这个“记忆构建”的过程在后台悄悄运转,花费的电量和时间极为惊人,甚至超出了问答本身几十倍。
不仅如此,由于“记记忆”需要大模型反复阅读很长的一段上下文,然后吐出短短的几行核心关系,这在计算芯片(GPU)上是一个重度依赖“预填充(Prefill)”的大吞吐量任务。如果把这个后台的“记忆构建任务”和前台用户正在急迫等待首字响应(Latency-sensitive Decode)的聊天问答塞到同一个显卡集群里,它们就会发生剧烈的资源抢夺,导致用户等待的时间成倍变长。
论文最后告诉我们,选择记忆范式就像是在做一个多维度的权衡选择。如果你的智能体是那种用户聊得少、但你要反复去读这些历史的(比如高频查询型),那么把开销做在构建阶段、让查询变得极其轻量的范式非常划算。但如果你的智能体需要频繁接收实时大量数据输入,而用户只是偶尔问一下,那么花费高昂成本去实时构建精细记忆就是巨大的浪费。
术语小词典
- Prefill (预填充):大语言模型处理输入提示词并建立内部 KV Cache 状态的初始阶段。智能体在构建记忆时需要读取长文本,其开销几乎全部集中在此。 (1. Introduction · "prefill costs scale")
- Decode (解码):大语言模型在生成回复时,一个词接一个词进行自回归计算的生成阶段。 (4.3. Construction Is an Overwhelmingly Embedding and Prefill-dominated Workload · "it repeatedly reads long chunks or windows and emits compact")
- KV Cache (键值缓存):为了避免重复计算,GPU 显存中保存的已处理上下文的临时状态。上下文极长时,KV Cache 会带来极大的显存压力。 (1. Introduction · "reasoning and recall fidelity degrade significantly in long sequences")
- Memory Ingestion (记忆摄取):智能体记忆的第一阶段,决定以单轮对话、固定分块还是完整会话作为处理记忆的基本单元。 (2.1. Agent Memory Execution Pipeline · "systems can be decomposed into seven stages")
- Flat RAG (扁平检索增强生成):不经过大语言模型提取或重写,直接通过分块、向量化或词频统计将原始文本存入数据库的追加式检索范式。 (2.2. Taxonomy of Agent Memory Paradigms · "applies a deterministic indexing pipeline")
- Consolidating Memory (合并式记忆):不仅提取事实,还会根据新交互对已持久化的旧记忆进行动态去重、修改与删除更新的记忆机制。 (2.2. Taxonomy of Agent Memory Paradigms · "These systems use an LLM as a fixed extractor")
- Agentic Control Flow (智能体控制流记忆):将记忆操作(如写笔记、搜归档)直接作为大语言模型的工具,由模型自主控制决策何时读写。 (2.2. Taxonomy of Agent Memory Paradigms · "Memory access is an action selected by")
这篇之前与之后
- 在这篇之前:整个大模型社区在优化智能体长对话时,往往默认“长上下文窗口”就是最终答案,只要模型支持一百万字,就无脑塞进去。在评估记忆系统时,大家也只盯着下游问答的准确率(Accuracy),几乎没有人去测算它们在后台到底烧了多少电、让显卡卡了多久。 (1. Introduction · "Realizing this at scale requires agents to")
- 在这篇之后:研究第一次用硬数据戳穿了长上下文的乌托邦幻觉,指出了其二次方 Prefill 开销和显存资源占用限制。更重要的是,它绘制了“构建-查询-准确率”的三维 frontier,证明了没有万能的记忆系统,为业界大规模部署智能体记忆提供了实用的物理指标和系统架构层面的选择建议。 (4.5. The Construction–Serve–Accuracy Frontier · "No agent memory system is optimal across")
最值得读原文的几段
- Section 1 关于长上下文三大物理限制的论述: (1. Introduction · "reasoning and recall fidelity degrade significantly in long sequences")
- 为什么值得读:这一段逻辑清晰地指出了为什么我们必须使用外部记忆系统。它从最大容量上限、Prefill 开销的二次方增长、以及大模型在长文本中段丢信息的“Lost in the Middle”局限性这三个系统物理瓶颈入手,直接推导出了外部记忆的必要性。
- Section 4.2 关于构建阶段能耗占主导的发现: (4.2. Construction Dominates the Agent Lifecycle · "exceeds total query-phase energy across 300")
- 为什么值得读:论文用精细的能耗统计揭示了一个惊人的现象:在大语言模型介导的记忆系统里,构建记忆所烧掉的能量占据了绝对大头,远远超出了问答检索。这彻底改变了人们“只关注问答服务开销”的常规思维模式。
- Section 4.3 关于记忆构建计算特性的分析: (4.3. Construction Is an Overwhelmingly Embedding and Prefill-dominated Workload · "it repeatedly reads long chunks or windows and emits compact")
- 为什么值得读:这里详细剖析了记忆构建的计算本质——即这是一个“重预填充、几乎无解码”的高输入、低输出工作负载。这对于想在同一硬件集群上混合部署构建任务与实时对话服务的工程师来说,是极具系统调度参考价值的段落。
与往期的呼应
- 补充→ 经验时代:超越人类数据的强化学习 · David Silver
戴维·西尔弗提出未来智能体将存在于长期的、不间断的经验流中进行持续学习;而该研究从系统底层提供了量化支撑,指出在消化这种不间断经验流时,记忆构建所消耗的能量将占据智能体物理生命周期的绝对主导。
本期4.2. Construction Dominates the Agent Lifecycle · "exceeds total query-phase energy across 300" 对于大语言模型介导的记忆系统,记忆构建所消耗的能量占据了智能体生命周期的绝大部分。
往期Streams · "An experiential agent can continue to learn throughout a lifetime" 经验时代的智能体将存在于长期的、不间断的经验流中,而非简短的单次交互片段。
- 印证→ AI 芯片如何从底层运作 · Reiner Pope
记忆构建负载高度偏向首字生成前阶段(Prefill)和向量嵌入(Embedding),其核心是重复读取长上下文并进行密集的矩阵乘法,这正好能完美契合脉动阵列通过本地权重复用提高计算通信比(算力利用率)的设计优势。
本期4.3. Construction Is an Overwhelmingly Embedding and Prefill-dominated Workload · "it repeatedly reads long chunks or windows and emits compact" 智能体记忆构建本质上是一个以 Prefill 和 Embedding 为主导的重读取、轻写入的工作负载。
这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。