news 2026/6/11 7:19:52

微软:利用终端反馈学习世界模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微软:利用终端反馈学习世界模型

📖标题:ECHO: Terminal Agents Learn World Models for Free
🌐来源:arXiv, 2605.24517v1

🛎️文章简介
🔸研究问题:在命令行智能体强化学习中,如何有效利用被标准算法忽略的密集环境反馈信号以提升策略性能?
🔸主要贡献:论文提出ECHO混合目标函数,将终端输出作为辅助监督信号,在不增加额外 rollout 的情况下显著提升智能体任务成功率并降低对专家数据的依赖。

📝重点思路
🔸引入混合损失函数:ECHO在标准GRPO策略梯度损失基础上,增加了一个针对环境观察令牌(如stdout、错误日志)的辅助交叉熵损失,迫使策略预测自身动作引发的环境响应。
🔸复用现有计算资源:该方法无需额外的 rollout、教师模型或前向传播,仅通过改变损失掩码,在一次前向传播中同时计算动作令牌和环境令牌的损失,将稀疏奖励转化为密集监督。
🔸筛选高价值观测目标:实验发现模型能快速记忆低熵的警告信息,因此ECHO专门针对包含具体任务反馈(如文件内容、测试失败信息)的终端输出令牌进行训练,确保持续提供有效梯度。
🔸实现无验证器自适应:仅依靠环境预测损失,智能体可在无外部奖励信号的情况下,通过预测环境反馈来重塑内部状态表示,从而在未见任务上实现自我改进。

🔎分析总结
🔸性能显著提升:在TerminalBench-2.0基准测试中,ECHO使Qwen3-8B和14B模型的pass@1指标相比纯GRPO基线几乎翻倍,分别达到5.17%和10.79%,且在所有内部评估中均表现更优。
🔸习得终端动力学:在由更强模型生成的非策略轨迹上,ECHO显著降低了环境令牌的交叉熵,证明其真正学会了预测终端行为规律,而不仅仅是过拟合自身轨迹。
🔸减少专家数据依赖:从基础模型出发,ECHO在内部评估中完全匹配了经过1.5万条专家演示微调后的模型性能,并在TerminalBench-2.0上弥补了约一半的性能差距,表明其能从交互中自主学习交互先验。
🔸训练与推理更高效:ECHO模型达到峰值性能所需的训练步数更少,且在推理阶段超时率更低、生成令牌数更少,显示出更高的样本效率和执行效率。

💡个人观点
论文重新定义了强化学习中的“浪费”信号,传统RL仅关注最终结果的稀疏奖励,而ECHO敏锐地指出每一次交互产生的环境反馈都是天然的密集监督信号。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 7:14:09

计算机毕业设计之django家庭体检信息管理系统与设计

本文介绍了一款使用django和Vue开发的家庭体检信息管理系统,及其设计与实现过程。根据软件工程对软件系统开发定制的规则和标准,详细的介绍了系统的分析与设计过程,并且详细的概括了系统的开发与测试过程。本文的管理系统使用了Python进行系统…

作者头像 李华
网站建设 2026/6/11 7:14:09

如何永久保存微信聊天记录?3步掌握WeChatMsg完整指南

如何永久保存微信聊天记录?3步掌握WeChatMsg完整指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChat…

作者头像 李华
网站建设 2026/6/11 7:13:02

用AT89C51和Proteus 8.9仿真一个8床位病房呼叫器(附Keil代码)

基于AT89C51的病房呼叫系统仿真开发全指南在医疗电子设备领域,病房呼叫系统是最基础却至关重要的设施之一。对于电子工程初学者而言,通过仿真软件完整实现一个8床位呼叫系统,不仅能掌握单片机开发的核心技能链,还能深入理解医疗电…

作者头像 李华
网站建设 2026/6/11 7:13:00

语义ID技术革新广告推荐系统:UniSID框架解析

1. 语义ID在广告推荐中的革命性应用在当今数字广告领域,每天有数十亿的广告展示机会需要被精准匹配。传统推荐系统面临着海量物品库带来的计算挑战——如何在上亿规模的广告库中,实时找到最相关的几个推荐结果?语义ID(Semantic ID…

作者头像 李华