📖标题:MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation
🌐来源:arXiv, 2605.27366v1
🛎️文章简介
🔸研究问题:如何解决现有LLM Agent技能孤立、静态且缺乏长期改进机制,导致复用性和可靠性受限的问题?
🔸主要贡献:论文提出MUSE-Autoskill框架,通过统一技能创建、记忆、管理、评估和精炼的生命周期,实现Agent能力的持续自进化。
📝重点思路
🔸提出五阶段技能生命周期:将技能视为长期资产,涵盖按需创建、多级记忆存储、高效检索管理、单元测试评估及失败自动精炼。
🔸引入技能级记忆机制:为每个技能维护独立的经验文件,记录跨任务的失败模式和使用技巧,促进知识积累与适应。
🔸实施自适应上下文压缩:采用两级压缩策略处理长对话历史,结合会话状态持久化,解决长程任务中的上下文溢出问题。
🔸构建闭环执行流程:在ReAct循环中集成技能创建工具,新技能必须通过单元测试才能入库,失败则触发自动修复,确保技能质量。
🔎分析总结
🔸性能显著提升:在SkillsBench基准上,MUSE使用人类技能时准确率达68.4%,优于Codex和Hermes,证明其更擅长解析和应用技能。
🔸自生成技能超越人工:从成功轨迹蒸馏生成的技能在35个任务上达到87.9%准确率,超过人类编写技能的天花板,且具备跨Agent迁移能力。
🔸效率与成本优化:使用生成技能比无技能或少技能方案显著降低Token消耗和执行延迟,单次生成成本可在约3次复用后收回。
🔸技能解剖差异:相比人类技能,MUSE生成的技能文档更长、结构更严谨,且强制包含测试用例,体现了更高的可测试性和程序化特征。
💡个人观点
论文将技能从一次性输出重构为具有完整生