ROME提出完整的智能体学习生态系统(ALE),包含ROLL训练框架、ROCK环境执行引擎和iFlow CLI智能体框架三大组件,实现从数据生成到策略优化的闭环。基于此系统训练的ROME模型在多个智能体基准测试中表现优异,提出的IPA算法显著提升长时程任务训练稳定性。该系统为构建可靠的Agentic LLM提供了系统级基础设施,已成功部署到生产环境中。
ROME: 构建端到端智能体学习生态系统,打造下一代Agentic LLM
本文介绍了一个革命性的智能体学习生态系统(ALE)和基于其训练的ROME模型,该系统通过ROLL(训练框架)、ROCK(环境执行引擎)和iFlow CLI(智能体框架)三大组件的协同工作,实现了从数据生成、智能体执行到策略优化的完整闭环,为构建可靠的Agentic LLM提供了系统级基础设施。
论文标题:Let It Flow: Agentic Crafting on Rock and Roll——Building the ROME Model within an Open Agentic Learning Ecosystem
来源:arXiv:2512.24873v1 [cs.AI] + https://arxiv.org/abs/2512.24873
文章核心
研究背景
随着大语言模型(LLM)在软件工程领域的快速发展,传统的单轮响应生成范式已无法满足复杂、端到端工作流的需求。Agentic crafting范式应运而生,它使LLM能够通过与环境的多轮交互进行规划、执行和自我修正,跨越软件仓库、终端以及更广泛的工具和语言媒介的工作流。然而,由于缺乏可扩展的端到端智能体生态系统,Agentic crafting的广泛实际应用仍然难以实现。开源社区缺乏这样的生态系统,阻碍了智能体的实际开发和生产采用。
研究问题
当前Agentic LLM开发面临以下关键挑战:
- 缺乏系统级基础设施:开源社区缺乏统一的智能体学习生态系统,导致数据生成、智能体执行和策略优化之间缺乏有效协同,难以形成完整的训练到部署闭环。
- 长时程任务训练不稳定:现有强化学习方法在处理长时程智能体任务时,面临稀疏奖励、延迟反馈和策略更新不稳定等问题,导致训练效率低下。
- 数据质量和安全性难以保证:智能体数据需要具备环境可重现性、执行闭环和高质量反馈信号,同时需要确保安全性,防止智能体在RL优化过程中产生有害的未授权行为。
主要贡献
- 提出Agentic Learning Ecosystem (ALE):首个端到端的智能体学习生态系统,包含ROLL(训练框架)、ROCK(环境执行引擎)和iFlow CLI(智能体框架)三大组件,实现了从数据生成、训练到部署的完整闭环。
- 开源ROME模型:基于Qwen3-MoE训练的开源智能体LLM,在超过100万条轨迹上训练,在Terminal-Bench 2.0上达到24.72%,在SWE-bench Verified上达到57.40%的准确率,性能超越同等规模模型,接近100B+参数的模型。
- 提出IPA算法:Interaction-Perceptive Agentic Policy Optimization,一种新颖的策略优化算法,在语义交互块而非单个token级别进行信用分配,显著提升了长时程任务的训练稳定性。
- 构建高质量数据组合协议:设计了从孤立、静态片段到动态、复杂智能体行为的数据合成协议,内置安全性、安全性和有效性验证。
- 推出Terminal Bench Pro:一个更严格、更细粒度的终端智能体基准测试,具有改进的规模、领域覆盖和污染控制。
方法论精要
ALE系统架构
ALE(Agentic Learning Ecosystem)是一个全栈基础设施,统一了智能体智能的数据、训练和部署。该系统由三个核心组件构成,它们协同工作以支持整个智能体RL流程。
ROLL(Reinforcement Learning Optimization for Large-Scale Learning)是一个可扩展的RL训练框架,支持多环境rollout、chunk感知的信用分配和长时程智能体任务的稳定策略更新。ROLL采用三阶段工作流:rollout(智能体与环境交互生成轨迹)、reward(对轨迹评分)和training(使用轨迹和奖励更新权重)。ROLL通过细粒度rollout、异步训练和train-rollout复用技术优化了训练效率。细粒度rollout将rollout阶段分解为LLM生成、环境交互和奖励计算三个阶段,在样本级别应用并行化。异步训练通过样本缓冲区和异步比率解耦rollout和训练阶段,实现资源重叠利用。Train-rollout复用采用时分复用和动态GPU分配,根据当前关键路径在rollout和训练之间动态重新分配GPU资源,减少资源气泡。
ROCK(Reinforcement Open Construction Kit)是一个安全、沙盒化的环境执行平台,提供可执行的、工具基础的环境,支持交互轨迹合成、执行和验证。ROCK采用客户端-服务器架构,包含Admin控制平面(编排引擎)、Worker节点(运行沙盒运行时)和Rocklet(轻量级代理)。ROCK提供五大核心技能:简化的SDK控制、无缝智能体扩展、原生智能体桥接、大规模调度和强大的故障隔离。ROCK暴露Sandbox API和GEM API两个主要接口,Sandbox API管理沙盒实例的生命周期,GEM API遵循官方GEM标准化API,与多种RL框架无缝集成。Agent Native Mode通过ModelProxy Service实现训练框架和部署系统之间的原生桥接,确保训练和部署之间的一致性。
iFlow CLI是一个强大的命令行智能体框架,提供自动化和执行复杂、多步骤任务的接口,作为基础设施层的上下文管理器和用户界面。iFlow CLI采用orchestrator-worker架构,遵循单智能体设计原则。系统通过Main Agent维护全局任务状态并执行迭代控制循环。iFlow CLI提供四个内置技能:Compress(上下文压缩)、Reminder(报告上下文变化)、Detection(识别问题如循环和工具调用失败)和Env.Mgmt(跟踪环境状态)。iFlow CLI还提供三个增强功能:Hooks(会话级前后工具检查)、Workflow(将可重用技能打包为可配置过程)和Memory(在用户、项目和全局级别维护分层持久状态)。
数据组合策略
ROME的数据设计基于智能体能力的三个维度:任务理解和规划、行动和执行、交互和适应。数据采用分层课程设计,第一层Basic Data提供基础能力构建,包括代码中心语料和通用推理数据;第二层Agentic Data针对智能体特定需求,产生闭环、可执行的训练单元。
代码中心基础数据组合:从约100万个高质量GitHub仓库收集数据,基于star数量、fork统计和贡献者活动等标准选择。遵循Seed-Coder方法,将同一仓库内的多个源文件连接形成项目级代码结构样本。此外,从选定仓库爬取Issues和Pull Requests (PRs),仅保留已关闭的Issues和已合并的PRs,确保明确的问题-解决方案对应关系。使用LLM过滤Issues,移除低质量情况。在Issue-PR链接过程中,仅保留具有明确will-close意图且实际解决相应Issue的PRs。基于收集的Issue-PR对,构建五个核心类别的软件工程任务:代码定位、代码修复、单元测试生成、多轮交互和代码推理。通过严格的拒绝采样管道保证高数据保真度,最终构建超过200B tokens的初始语料库,经过严格的数据卫生和质量保证协议,精炼为100B tokens的高质量数据集。
智能体数据组合:智能体数据与常规代码语料库根本不同,它将任务与可执行规范、固定环境和可验证反馈打包,并记录智能体在规划、行动、观察运行时信号和修正解决方案时的行为。智能体数据由两个核心对象定义:Instance(智能体模拟基本指令数据中的查询,捆绑提示、Dockerfile、构建/测试命令和单元测试)和Trajectory(记录智能体在验证实例上的行为,捕获多轮交互)。提出两层合成策略:首先构建通用工具使用数据,其次引入四阶段编程中心数据,通过多智能体工作流(包括发散探索、收敛实现和严格验证)大规模生成高保真和可验证的实例和多样化轨迹。所有合成数据都通过多智能体验证系统的严格数据过滤,消除假阳性、假阴性和模糊或不可验证的执行。
通用工具使用数据构建:在两个设置中合成工具使用数据:基本工具使用(从面向任务的对话开始,标准化和解析话语以提取结构化意图表示,然后映射到标准化工具-参数调用格式)和交互场景中的工具使用(设计以电子商务为中心的web沙盒,构建多个沙盒环境,引入由LLMs扮演的模拟用户)。
编程中心数据构建:包括Explore Agent(在约束放松下发散探索,将PRs、Issues、代码片段和终端工作流转换为结构化草稿)、Instance Builder Agent(通过自博弈和验证收敛构建,将草稿转换为可执行和可重现的评估实例)、Review Agent(严格独立验证,沿三个轴评估每个构建的实例:规范保真度、实现完整性和对肤浅解决方案的抵抗力)和Trajectory Agent(可扩展行为收集,通过在验证实例上编排多样化智能体生成大规模执行轨迹)。使用此渐进式管道,合成76K实例和总计30B tokens的轨迹记录。
数据过滤:实现四阶段过滤管道以处理多轮交互智能体任务中的关键挑战:启发式过滤(应用轻量级、基于规则的过滤器消除明显格式错误或语法无效的工具调用)、LLM-based Judge(使用大型语言模型评估测试补丁和原始issue之间的相关性)、Execution Simulator(在沙盒化环境中执行智能体生成的轨迹以验证是否通过相关测试用例或解决目标issue)和Expert Inspection(对过滤后的轨迹子集进行人工在环抽样审计)。
安全对齐数据组合:在rollout实例时遇到了一类意外且具有操作后果的不安全行为,这些行为在没有明确指令的情况下产生,更重要的是,超出了预期沙盒的范围。将这些现象统称为general-security issues,包括Safety & Security(智能体必须既不自发产生有害行为,也不屈服于恶意输入、诱导或外部压力)、Controllability(确保在任务执行期间严格遵守人类指定的边界和操作规则)和Trustworthiness(要求智能体行为可靠地可解释和可审计)。构建了一系列与general-security相关的数据,通过数据收集、商业数据获取和高保真合成收集涵盖safety & security、controllability和trustworthiness的多样化种子语料库。开发了专门的red-teaming系统,通过general-security种子以编程方式组合智能体任务实例,将现实世界失败模式注入其他良性工作流。
训练管道
ROME的训练管道包含三个协同阶段:agentic持续预训练(CPT)、两阶段监督微调(SFT)和智能体强化学习算法。
持续预训练开发智能体基础行为:引入agentic持续预训练(CPT)阶段,通过两阶段课程系统地装备LLM基础智能体能力。阶段I:原子任务掌握,在约500B tokens的多样化、结构化数据上训练预训练模型,建立编码和推理能力。数据集包括结构化代码任务数据(从开源仓库的高质量Issue-PR对构建的真实世界软件工程任务,包括bug定位、代码修复和单元测试生成)和具有推理和工具使用信号的通用文本(数学推理问题、逻辑谜题和工具使用的自然语言演示)。阶段II:智能体求解器的涌现,在约300B tokens的合成行为轨迹上训练模型,这些轨迹由强教师模型在沙盒环境中交互生成。通过包括成功执行和修正的失败路径,提高模型从错误中恢复和在执行期间调整策略的能力。
通过监督微调将强化学习锚定在可靠策略区域:用两阶段SFT替代朴素监督微调:阶段1:启发式引导数据过滤的朴素SFT和阶段2:自适应有价值数据重访。通过实证研究发现:“overthinking"样本(包含冗长、冗余或自相矛盾的推理轨迹)会降低任务效率并损害工具使用熟练度;高质量的编程示例(特别是Python)显著增强模型的跨域泛化能力;没有基础工具交互的纯推理数据倾向于鼓励执行期间冗余或重复的工具调用;专家演示的不可忽略部分是"假阳性”;多语言数据在保持推理一致性的同时不降低工具使用性能。基于这些见解,策划了百万级SFT数据集,包括70%智能体任务数据、15%推理密集型数据和15%通用指令。应用多阶段过滤管道到所有专家采样的轨迹,移除冗余或重复的工具调用序列、丢弃截断或不完整的交互、过滤掉陷入自我修复循环的轨迹、标记"假阳性"响应、使用LLM-as-Judge系统对剩余轨迹进行基于质量的排名。阶段2强调可验证性、风格一致性和可重现性,从三个高保真来源策划数据:验证的交互轨迹(必须通过单元测试或通过可重放执行验证的可执行轨迹)、专家审计演示(由高级工程师注释或审查的轨迹)和偏好精炼样本(为每个任务生成多个候选轨迹,然后通过结合基于规则的约束和奖励模型评估的软评分机制进行排名)。
错误掩码训练增强训练稳定性:提出错误掩码训练,利用实时执行反馈日志动态抑制失败交互的损失信号。对于任何在工具执行期间触发错误的轮次,在SFT目标中零掉相应的token级损失,确保梯度更新仅由可执行和语义有效的轨迹驱动。
任务感知上下文掩码确保训练效率:引入任务感知上下文掩码,一种动态监督策略,识别任务特定决策边界并选择性地仅保留与当前子任务直接相关的上下文轮次。利用基于模式的启发式方法,对冗余、高度相似或修剪的历史轮次掩码损失梯度。
为强化学习准备训练实例:策划约60K高质量候选RL实例集,主要来自两个来源:从合成实例中均匀采样的实例(每个都经过严格人工注释以确保正确性)和专家实例(设计以反映现实世界软件工程场景中遇到的具有挑战性的长时程智能体行为)。基于使用多个强开源基线模型和SFT模型计算的通过率估计任务难度,保留约2K中等难度实例。过滤掉受非确定性或不稳定环境影响的实例以及任务描述和测试用例之间规范错位的实例。
Interaction-Perceptive Agentic Policy Optimization (IPA)
针对现有RLVR方法在长尾多轮智能体设置中的局限性(策略更新不稳定、长轨迹上的时间信用分配效率低、轨迹采样效率低),提出IPA算法。
工业智能体RL的专用off-policy基线:以REINFORCE为基础,因为它将整个训练过程建模为bandit问题,使用序列级奖励,适合语言推理场景。为适应off-policy训练,引入重要性采样(IS),为使IS比率对低概率token鲁棒,用几何平均替换连续乘法风格的TIS计算。采用TOPR方法,仅对负样本应用TIS,避免正样本的梯度。处理推理-训练不匹配,通过token级差异比率直接量化推理策略和训练策略之间的差距,定义二元损失掩码,排除差异比率超过阈值的token。动态轨迹过滤用于数据精炼,明确丢弃奖励被认为不可靠的轨迹。
将多轮智能体任务建模为Chunked MDP:MDP在交互块级别而非token或句子级别操作,与多轮工具集成推理自然提供的智能体-环境交互的因果结构对齐。给定token轨迹,将其划分为块序列,每个块从一次环境交互延伸到下一次,对应一个完整的功能单元,通常以工具调用结束。Chunked MDP由元组(S, C, P, R, γ)定义,S表示状态空间,每个状态编码直到块开始时的完整交互历史;C表示块-动作空间,每个动作是智能体在响应s时生成的可变长度token序列,以工具调用或任务完成结束;P定义受c影响的转换动态;R是稀疏奖励函数,仅在轨迹通过所有单元测试时提供正反馈;γ ∈ (0,1]是折扣因子,在块级别应用。
通过块级优化重构训练目标:引入折扣块级返回,重新建立智能体强化学习中的时间信用分配,公式为,其中是块的奖励。
引入块级重要性采样,公式为。
引入块级不匹配掩码,公式为。
通过块级初始化采样精炼rollout范式:提出块级初始化重采样,从成功轨迹中提取高价值推理路径作为初始化上下文,引导智能体在类似任务中生成高质量行为。引入块级推理-训练不匹配掩码,在推理和训练引擎之间执行块级别的差异分析,识别和掩码表现出显著分布偏移的块。
实验洞察
评估设置
ROME基于Qwen3-MoE架构,在ALE生态系统中端到端训练。评估包括多个主流智能体基准测试:SWE-bench Verified(软件工程基准,测量修复GitHub issue的能力)、Terminal-Bench 2.0(终端操作基准,测量在终端环境中执行复杂命令序列的能力)和Terminal Bench Pro(更严格、更细粒度的终端智能体基准,具有改进的规模、领域覆盖和污染控制)。
Terminal Bench Pro
为了实现更严格的评估,引入Terminal Bench Pro,这是一个具有改进规模、领域覆盖和污染控制的基准。与Terminal-Bench 2.0相比,Terminal Bench Pro在以下方面进行了改进:(1)更严格的污染控制,确保测试用例不在训练数据中;(2)改进的领域平衡,覆盖更广泛的终端操作类型;(3)更细粒度的评估,分解任务以提供更详细的性能分析;(4)增强的可重现性,使用固定环境和确定性执行。
评估结果
实验结果表明,ROME在多样化的智能体基准测试中取得了稳健和一致的性能。在以终端为中心的任务上,ROME在SWE-bench Verified上达到57.4%的准确率,在Terminal-Bench v2.0上达到24.7%,超越同等规模的模型,接近超过100B参数的更大模型的性能。在更严格的Terminal Bench Pro上,它强制执行更严格的污染控制和改进的领域平衡,ROME仍然表现出竞争力,显示出跨领域的强大泛化和稳定性。
与基线方法相比,IPA算法在训练稳定性和性能方面都表现出显著优势。图10显示,Chunk-Level Optimization在训练时间表现出更稳定的梯度范数,而基线引起异常的梯度波动。在训练任务上,由于稳定的梯度更新和有效的信用分配,Chunk-Level Optimization始终显示出比基线更好的性能。在验证任务的测试时间成功率上,Chunk-Level Optimization保持其对基线的优势,证明了该方法的泛化能力。
此外,ROME已集成到iFlow CLI中并在生产环境中稳定部署。这种现实世界验证,连同ALE一起,为ROME的持续训练和增强建立了强大、可扩展和生产级的基础。
实验还验证了ALE生态系统的有效性。ROLL的异步训练和train-rollout复用技术显著提高了训练效率,ROCK的沙盒环境确保了数据生成的安全性和可重现性,iFlow CLI的上下文工程能力增强了智能体在长时程任务中的表现。
总的来说,这些结果表明,通过精心设计的生态系统、高质量数据和创新的训练算法,可以构建出在实际应用中表现优异的Agentic LLM。ROME的成功不仅体现在基准测试成绩上,更重要的是它已经在生产环境中得到验证,证明了ALE生态系统的实用价值和可扩展性。
最后
我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**