English

智能体协作的行动级心智模型数据集 · Jiaju Chen

2026-06-06 · 由 PodLens 生成的忠实解读

原文:https://arxiv.org/pdf/2606.06388

智能体协作心智模型ALMANAC地图任务行为预测

这篇论文讲了什么

本文介绍了 ALMANAC,这是第一个针对人机协作(human-agent collaboration)的行动级心智模型标注(Action-Level Mental Model Annotations)数据集。虽然大语言模型(LLM)智能体具备多步推理和规划能力,但它们大多被优化用于独立完成任务,缺乏协作所需的共享心智模型对齐能力。为了填补这一空白,作者设计了一个理论指导的双步标注框架,基于经典社交科学双人路由任务“地图任务(Map Task)”收集了来自 50 名参与者的 2,987 个协作动作,为每个动作配对了自我推理、感知到的伙伴意图和感知到的团队目标等三层心智模型标注以及自由文本推导。通过对六个主流大语言模型的基准测试,研究表明心智模型标注能显著提升智能体行为预测的表现,但目前的 LLMs 在推断人类内部私有推理状态上仍存在巨大局限性。

论文骨架

核心论点清单

  1. 智能体仅有任务执行能力不足以实现有效的人机协作,必须能够在交互过程中建立并Align心智模型。 - 锚点:1. Introduction · "Effective collaboration, however, requires" - 类型:主张
  2. 当前的大语言模型智能体设计主要针对独立完成任务进行优化,导致学术界缺乏过程级的协作数据。 - 锚点:1. Introduction · "primarily optimized for task completion" - 类型:事实
  3. 在人机交互通道缺乏非言语线索时,智能体对人类伴侣意图和团队目标的感知是协同成功的核心。 - 锚点:1. Introduction · "verbal cues present in" - 类型:主张
  4. 通过设立 In-session checkpoint 可以有效作为记忆锚点,减轻参与者 Retrospective 标注时的回忆偏差。 - 锚点:3.1. Annotation Framework · "checkpoint typically takes 10" - 类型:主张
  5. 在并行问答与交互中,Guide 对 Follower 动作的干预频率会因画布是否可见而产生系统性偏差。 - 锚点:3.2.2. Data Collection Process · "Guide could not directly" - 类型:事实
  6. 心智模型能够为智能体预测和模拟人类未来的交互行为提供传统历史轨迹无法提供的增量信号。 - 锚点:4.3.1. Next Action Prediction · "next action prediction is" - 类型:事实
  7. 大模型在预测共享的心智模型维度上表现尚可,但在推断私有的 Self-reasoning 上面临严重瓶颈。 - 锚点:4.3.2. Mental Model Prediction · "hardest dimension to predict" - 类型:事实
  8. Follower 的心智模型比 Guide 更好预测,因为前者的推理深度更直接地受后者显式口头指令的约束。 - 锚点:4.3.2. Mental Model Prediction · (释义,非逐字引用) - 类型:事实

大白话重讲

现在的 AI 智能体(比如各种写代码或写报告的助手)在执行具体命令时越来越溜了。但是,它们跟人类配合起来,常常给人一种“各说各话、心不在焉”的感觉。为什么呢?因为它们只是个“任务执行机器”,脑子里根本没有“心智模型(Mental Model)”的概念。人与人合作时,我们无时无刻不在揣摩对方:“他现在发这句话是什么意思?”、“我们现在的目标一致吗?”、“我下一步该怎么配合他?”。而现在的 AI 根本没有这个认知层。

这篇论文就想解决这个问题。作者们建立了一个名为 ALMANAC 的数据集,专门来记录人类在协作时的“内心戏”。他们让两名测试者玩一个经典的社交游戏——“地图任务(Map Task)”。在这个游戏里,Guide 手里有路线图,Follower 手里只有空地图,Follower 需要根据 Guide 的口头指引在网页画布上画出正确的路线。同时,两张地图上的地标还会有一处故意设为错位的,以此制造协作冲突和对齐难点。

最棒的设计是,游戏进行到四分之一、一半和四分之三时,系统会突然切出Checkpoint,让测试者录音回答:“你现在觉得团队的目标是什么?你觉得对方想干嘛?你自己接下来要干嘛?”。在游戏结束后,测试者还会看着自己的录像,回溯每一个行为(比如发消息、画线、擦除)背后的“内心活动”和详细逻辑。这就是“行动级心智模型标注”。

论文用这些数据测试了 GPT-5.5、Llama 3.3 等大模型。研究结果很有意思: 第一,如果把人类标注的“内心戏”(心智模型)当作额外提示词喂给大模型,大模型就能非常准确地预测人类接下来的行为(发什么消息、怎么画线)。这证明心智模型是预测人类行为的强大信号。 第二,大模型在预测“团队目标”和“揣摩对方意图”时表现还行,但在预测“这名测试者自己脑子里在打什么算盘(Self-reasoning)”时,准确率差得一塌糊涂。因为大模型只能根据公开聊天的文字来推断,而人类内心深处的私有小九九往往是不会直接写在聊天框里的。 第三,当 Guide 能实时看到 Follower 的画布时(C_visible),Follower 的动作反而变得极难预测。为什么?因为 Guide 一旦看得见,就会频繁去打断和干预 Follower,交互节奏变得非常琐碎和随机,缺乏可见性时的 Follower 反而会规规矩矩地按照口头计划自己摸索。

总之,这篇论文告诉我们:让 AI 成为合格的合作伙伴,光训练它们去执行命令是没用的。我们必须训练它们像人类一样,在脑子里不断更新和对齐关于同伴、团队和自身的“心智模型”。

术语小词典

这篇之前与之后

最值得读原文的几段

与往期的呼应

本页为对论文内容的忠实解读与大白话重述,由 PodLens 生成。

这是以原文为依据的一次解读,不能替代原文。每条要点都标注了出处,欢迎回到原文核对——也欢迎指出任何细微的偏差。