news 2026/5/19 15:15:37

解读 Externalization in LLM Agents:当 Agent 的进步不再依赖更强的模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
解读 Externalization in LLM Agents:当 Agent 的进步不再依赖更强的模型

论文标题:Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
作者:周宸宇(第一作者,上海交通大学博士生)及 20 位合著者
作者单位:上海交通大学、中山大学、上海创智学院、卡内基梅隆大学、OPPO
通讯作者:OPPO 研究院王俊博士,上海交通大学刘卫文、林江浩、张伟楠教授
发布:arXiv:2604.08224(2026 年 4 月 9 日提交)

你在实践中有没有这样的体验:换了最新的基座模型,Agent 的表现却没有质的飞跃;反过来,给同一个模型加上持久化记忆、可复用的技能文档和标准化的工具接口,效果反而立竿见影?

这种“模型之外的东西比模型本身更重要”的体感,从事 Agent 工程的人多半不会陌生。但这一现象背后,有没有一个统一的理论解释框架?上海交通大学联合多个机构共同发布的这一篇 54 页综述,用“外部化”(Externalization)——一个源自认知科学的理论透镜——给出了系统性回答。

这篇论文首次将记忆、技能、协议和 Harness 工程纳入同一个分析框架,提出 Agent 的实际进步正越来越取决于模型之外的外部认知基础设施,而非模型自身的参数规模与推理能力的简单提升。它将一个长期被感知却无人系统论述的工程趋势,上升到了理论层面。本文将逐层拆解这篇论文的核心思想、历史脉络、四大支柱及其对 Agent 开发的深远影响。


1. 核心洞见:模型之外,方见未来

1.1 三大结构性错配:问题出在哪?

论文尖锐地指出,当前 Agent 的发展面临三大结构性困境[reference:0]:

错配类型核心问题
连续性错配上下文窗口有限且短暂,模型无法跨会话稳定保持状态。每次会话都是全新开始,之前积累的信息需要从头重建
一致性错配复杂的多步骤流程往往被重新推导,而不是被稳定执行。同样的任务,不同时机调用,执行路径和质量难以保证一致
协调性错配与工具、服务和其他 Agent 的交互依赖临时约定,脆弱且不可移植。接口一旦变动,整条调用链路可能同步失效

这些错配的核心矛盾在于:模型本身的设计目标(推理能力)与 Agent 实际部署的需求(可靠性、持续性、协作性)之间存在根本性的维度不匹配。

1.2 认知工件:外部化的理论根基

论文援引认知科学家 Don Norman 的“认知工件”(Cognitive Artifacts)理论来统摄这一范式转变[reference:1]。Norman 的核心洞见是:外部辅助工具并非简单地“放大”了人类的内在能力,而是通过表征转换重构了任务本身的形式。

认知工件所改变的任务转换的本质
购物清单将困难的“回忆”问题转化为简单的“识别”问题记忆外化
地图将隐性的空间关系转化为可见的结构空间认知外化
计算器将符号运算从神经劳动转移至可编程机器计算外化

同样的逻辑正在 LLM Agent 领域发生。外部基础设施(记忆、技能、协议、Harness)不只是在“帮助”模型——它们在改变 Agent 所要解决的任务本身,让模型可以用它最擅长的方式(模式识别、语言生成、上下文演绎)来更可靠地解决问题。

1.3 核心主张

“Agent 基础设施之所以关键,不在于它增加了辅助组件,而在于它将原本难以由模型直接应对的复杂认知负担,转化为模型更擅长、更可靠处理的形式。”[reference:2]

这一观点将 Agent 工程从“工具堆砌”的实践上升到“认知架构重构”的理论高度,赋予了记忆、技能、协议等组件以明确的认知功能定位,而非仅仅是技术模块标签[reference:3]。


2. 历史演进:能力载体的三次外移

论文提炼出了一条清晰的演进主线:能力载体从模型内部逐步向外迁移,形成了“Weights → Context → Harness” 的三阶段演进框架[reference:4]。

2.1 阶段一:权重层(2022–2023)——参数即知识

早期 LLM 时代,能力几乎等同于模型参数,扩展定律(Scaling Law)主导着行业叙事。在这一阶段:

  • 优势:奠定了跨领域语言理解的基础能力
  • 根本局限:知识难以选择性更新,行为难以审计追溯,个性化几乎无从实现
  • 遗留问题:模型训练完成后,知识冻结,无法适应动态变化的环境和个性化需求

2.2 阶段二:上下文层(2023–2024)——知识从参数中释放

Prompt Engineering、Chain-of-Thought(CoT)、RAG 等技术兴起。模型保持冻结,提示模板快速迭代,知识开始从参数中“释放”到上下文里。

  • 代表性案例:购物清单的逻辑在这里重现——困难的“回忆”问题被部分转化为“识别”问题(RAG 将精确记忆转化为检索匹配)
  • 局限:状态短暂,跨步骤协调始终脆弱,每次会话都需要重建上下文,无法积累跨会话的长期经验

2.3 阶段三:Harness 层(2024–至今)——向外寻找新载体

持续记忆、工具使用、多 Agent 协作等机制成为新的战场。外部基础设施不仅扩展了模型的能力边界,更改变了模型解决任务的方式。持久化记忆将时间维度的状态管理外置,可复用技能将程序性专业知识固化,标准化协议将协作交互结构外化,而 Harness 则成为统摄这一切的统一执行层[reference:5]。

演进的核心逻辑:从关注“模型知道什么”到“模型可以调用什么”,最终到“如何让模型可靠地完成什么”。Agent 的每一次迭代,本质上是将某类认知负担从模型参数中卸载到外部基础设施中。


3. 四大支柱:外部化能力的不同维度

论文将 Agent 外部化的核心能力归纳为四个相互独立又紧密耦合的支柱。

3.1 记忆(Memory):时间维度的认知卸载

外部化的是什么:状态(state)在时间跨度上的维持能力。

记忆是 Agent 最核心的外部化组件之一。LLM 本身是无状态的——它的每一次调用都是全新的开始,对历史一无所知。记忆系统将这种时间维度的状态维持从模型参数中卸载出去。

记忆类型功能描述典型实现
工作记忆(Working Memory)当前会话内的短期状态维持上下文窗口、对话历史缓存
事实性记忆(Factual Memory)跨会话的事实知识存储向量数据库、知识图谱
经验性记忆(Experiential Memory)历史交互经验和决策轨迹的存储与召回基于 RAG 的经验池、思维轨迹缓存

论文将记忆系统的发展路径总结为“Storage → Reflection → Experience”三阶段演进:从被动存储轨迹(Storage),到对轨迹进行反思提炼(Reflection),再到将经验抽象为可复用的模式(Experience)[reference:6]。外部化记忆的力量在于:它把一个精确回忆的问题,转换成了一个检索匹配的问题——后者的难度远低于前者。

3.2 技能(Skills):程序性知识的外部化

外部化的是什么:程序性专业知识——即“如何做”的能力。

Agent 需要执行各类确定性操作:调用 API、运行代码、查询数据库、操作软件等。将这些操作的执行逻辑固化在外部技能模块中,而非让模型每次从头推导步骤,是外部化的另一关键维度。

  • 外部化的本质:将“过程生成”问题转化为“工具调用”问题。模型的任务不再是从零推导如何完成一项操作,而是学会识别“当前应该调用哪个技能”
  • 技能的设计趋势:从传统的编程语言定义的工具接口,正逐步向自然语言技能描述迁移。例如,用 Markdown 文档定义技能而非代码,是因为 LLM 对自然语言的理解能力远强于对结构化数据的解析能力[reference:7]
  • 关键演化方向:技能的可组合性可发现性——大型 Agent 系统需要让模型能够动态发现和组合已有技能,而非依赖硬编码的调用链路

3.3 协议(Protocols):交互结构的外部化

外部化的是什么:Agent 之间、Agent 与工具之间的交互规则与通信结构。

随着 Agent 从单体走向多体协作,如何让异质的 Agent(来自不同团队、不同框架、不同供应商)能够可靠地协同工作,成为一个关键问题。协议的作用在于:将协作的结构从 Agent 的内部逻辑中抽取出来,形成标准化的交互规范[reference:8]。

协议功能定位层级
MCP(Model Context Protocol)能力增强层:处理工具集成、上下文获取、数据接入通信层 / 语法层
ACP(Agent Communication Protocol)通信协同层:提供 Agent-to-Agent(A2A)的标准化交互框架语法层 / 语义层
A2A(Agent-to-Agent)跨平台异构 Agent 的通信与编排语法层

MCP 专注工具与数据接入,ACP/A2A 则进一步将协作推向跨团队、跨平台的联邦式编排[reference:9]。协议的外部化价值在于:它将“如何与其他 Agent 沟通”的问题,从一个异构、临时、脆弱的“定制对接”问题,转化为一个结构化的标准交互问题——协议约束着交互的形态,也释放了跨 Agent 协作的可能。

3.4 Harness Engineering:四大支柱的统一整合层

外部化的是什么:Agent 系统的治理与编排能力——记忆、技能、协议的协同运行与受控执行。

Harness(运行框架)是论文中最具原创性的概念。它不是一个具体的工具或库,而是一个统摄性概念:将记忆、技能、协议三大外部化模块整合到统一、受控的执行环境中

Harness 核心职责说明
编排(Orchestration)管理多 Agent 的执行流程、任务分解、结果汇聚
监控(Monitoring)记录执行轨迹、捕获错误、提供可观测性
错误隔离(Error Isolation)当一个 Agent 或模块失败时,防止级联故障扩散
上下文注入(Context Injection)将记忆中的历史信息、技能定义、协议约束注入模型的推理过程

Harness 的兴起揭示了 Agent 工程的一个深层趋势:对于复杂任务,模型的价值越来越不在于它的“大脑容量”,而在于它如何被编排和治理。典型的 Harness 实现包括 LangGraph(基于图的编排引擎)、AutoGen(微软的多 Agent 协作框架)、CrewAI(轻量级协作编排)等[reference:10]。

进一步地,有研究已尝试在范畴论的框架下形式化 Harness 的设计,将记忆映射为余代数状态,将技能映射为算畴组合对象,将协议映射为语法层面的连接,试图为 Harness 工程寻找一个严格的形式理论体系[reference:11]。


4. 关键权衡:参数化能力 vs 外部化能力

论文不仅阐释了外部化的优势,也清醒地探讨了其代价。

4.1 何时外化?何时内化?

方向优势风险
更多参数化(能力固化在模型权重中)推理速度快、无需额外组件、泛化性好更新成本高、行为难以审计、难以个性化
更多外部化(能力外置于基础设施中)可插拔更新、行为可追溯、易于定制增加系统复杂度、引入延迟、可能损害泛化能力

4.2 过度外部化的风险

  • 系统脆弱性:外部化越多,组件间依赖越多,单点故障的风险也随之上升
  • 可迁移性下降:过度依赖特定外部基础设施的 Agent,难以在不同的部署环境中复用
  • “智能外包”陷阱:当所有复杂决策都被外部化后,模型的泛化推理能力反而可能退化,变成一个只会调用工具的“空壳”
  • 泛化能力受损:过度依赖特定领域的外部技能库,模型在面对新领域的“零样本”场景时可能表现不佳

论文指出,“哪种能力应该被外部化”是未来 Agent 架构设计的核心问题,需要在更新频率、稳定性、通用性和个性化之间做系统的平衡[reference:12]。


5. 未来方向

5.1 自演化 Harness

当前的 Harness 是静态配置的。未来,Harness 本身可能具备自我演化的能力——它可以根据执行反馈自动调整编排策略、动态分配任务、甚至重构自身的记忆和技能库[reference:13]。

5.2 共享 Agent 基础设施

随着 Agent 生态的成熟,可能会出现跨组织共享的公共 Agent 基础设施——通用的记忆服务、技能市场、协议注册中心。这些公共基础设施将降低构建高质量 Agent 的门槛,加速 Agentic Web 的形成。

5.3 外部化程度的量化与评估

论文指出了当前领域的空白:我们缺乏衡量“一个 Agent 有多外部化”的量化指标。建立外部化程度的评估体系,是推动该领域科学化的重要步骤[reference:14]。

5.4 模型与基础设施的联合训练

未来的 Agent 可能不再是“模型训练好了再挂载外部组件”的简单拼接,而是将模型训练与基础设施设计视为一个联合优化问题——在训练过程中就让模型学习如何最佳地使用外部记忆、技能和协议[reference:15]。


6. 总结

Externalization in LLM Agents 的核心贡献可以凝练为[reference:16][reference:17]:

层面具体贡献
理论框架首次以“外部化”为统一理论透镜,将 Agent 的演进解释为一个认知负担向模型外部系统性转移的过程
历史脉络提炼出“Weights → Context → Harness”的演进主线,清晰界定了 Agent 架构发展的三个阶段
概念建模记忆、技能、协议和 Harness界定为既独立又耦合的四种外部化形式,赋予了它们超越技术模块的认知功能定位
权衡分析系统对比参数化能力vs外部化能力,指出了外部化的边界和风险
未来前瞻提出自演化 Harness、共享基础设施、联合训练范式等前沿方向

这篇论文最深刻的洞见,或许可以这样概括:Agent 的进步,正从“更强的模型”转向“更好的外部认知基础设施”。

对于任何从事 Agent 工程化的人员来说,这篇论文不仅是一次理论的梳理,更是一面镜子——它让那些在实践中的“肌肉记忆”有了理论根基,也让 Agent 开发的下一阶段方向变得清晰可见。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/19 15:15:23

AI提效20讲⑱:被蒸馏成技能的你,还值多少钱?

一个人今年产出与去年持平、没有变差只是没变好,算不算退步?一家公司持续盈利但增速放缓,股价为何会跌?一个经济体GDP体量庞大但增速下滑,为何会引发舆论的集体焦虑?直觉上的答案是否定的,但三者…

作者头像 李华
网站建设 2026/5/19 15:13:21

win11系统如何打开IE浏览器

1、 打开控制面板,可以在搜索中输入“控制面板”来打开。2、 点击“Internet 选项”,在弹出的窗口中选择“高级”选项卡,往下拉,找到“启动第三方浏览器扩展”将这个选项前的勾去掉,点击右下角的应用。 3、点击右上角的…

作者头像 李华
网站建设 2026/5/19 15:12:49

长期项目中使用Taotoken Token Plan实现成本可预测的优势

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期项目中使用Taotoken Token Plan实现成本可预测的优势 对于需要稳定调用大模型API的长期项目而言,成本管理是项目规…

作者头像 李华
网站建设 2026/5/19 15:11:49

NewJob浏览器插件终极指南:3步解决求职信息过时难题

NewJob浏览器插件终极指南:3步解决求职信息过时难题 【免费下载链接】NewJob 一眼看出该职位最后修改时间,绿色为2周之内,暗橙色为1.5个月之内,红色为1.5个月以上 项目地址: https://gitcode.com/GitHub_Trending/ne/NewJob …

作者头像 李华
网站建设 2026/5/19 15:10:53

5步掌握Page Assist:在浏览器侧边栏运行本地AI助手的完整指南

5步掌握Page Assist:在浏览器侧边栏运行本地AI助手的完整指南 【免费下载链接】page-assist Use your locally running AI models to assist you in your web browsing 项目地址: https://gitcode.com/GitHub_Trending/pa/page-assist 你是否厌倦了每次需要A…

作者头像 李华