📖标题:ECHO: Terminal Agents Learn World Models for Free
🌐来源:arXiv, 2605.24517v1
🛎️文章简介
🔸研究问题:在命令行智能体强化学习中,如何有效利用被标准算法忽略的密集环境反馈信号以提升策略性能?
🔸主要贡献:论文提出ECHO混合目标函数,将终端输出作为辅助监督信号,在不增加额外 rollout 的情况下显著提升智能体任务成功率并降低对专家数据的依赖。
📝重点思路
🔸引入混合损失函数:ECHO在标准GRPO策略梯度损失基础上,增加了一个针对环境观察令牌(如stdout、错误日志)的辅助交叉熵损失,迫使策略预测自身动作引发的环境响应。
🔸复用现有计算资源:该方法无需额外的 rollout、教师模型或前向传播,仅通过改变损失掩码,在一次前向传播中同时计算动作令牌和环境令牌的损失,将稀疏奖励转化为密集监督。
🔸筛选高价值观测目标:实验发现模型能快速记忆低熵的警告信息,因此ECHO专门针对包含具体任务反馈(如文件内容、测试失败信息)的终端输出令牌进行训练,确保持续提供有效梯度。
🔸实现无验证器自适应:仅依靠环境预测损失,智能体可在无外部奖励信号的情况下,通过预测环境反馈来重塑内部状态表示,从而在未见任务上实现自我改进。
🔎分析总结
🔸性能显著提升:在TerminalBench-2.0基准测试中,ECHO使Qwen3-8B和14B模型的pass@1指标相比纯GRPO基线几乎翻倍,分别达到5.17%和10.79%,且在所有内部评估中均表现更优。
🔸习得终端动力学:在由更强模型生成的非策略轨迹上,ECHO显著降低了环境令牌的交叉熵,证明其真正学会了预测终端行为规律,而不仅仅是过拟合自身轨迹。
🔸减少专家数据依赖:从基础模型出发,ECHO在内部评估中完全匹配了经过1.5万条专家演示微调后的模型性能,并在TerminalBench-2.0上弥补了约一半的性能差距,表明其能从交互中自主学习交互先验。
🔸训练与推理更高效:ECHO模型达到峰值性能所需的训练步数更少,且在推理阶段超时率更低、生成令牌数更少,显示出更高的样本效率和执行效率。
💡个人观点
论文重新定义了强化学习中的“浪费”信号,传统RL仅关注最终结果的稀疏奖励,而ECHO敏锐地指出每一次交互产生的环境反馈都是天然的密集监督信号。