【万字长文】工业级Agentic RL训练与选型：全面解析，助力企业高效决策！-编程实验室

这篇博客想法诞生于上半年基于 trl / verl 魔改 agentic rl 时期，但拖延一直搁置。眼看相关技术栈演进速度惊人，再不发出来就要过气了，于是决定抛砖引玉分享。预计本系列还会分别基于一线魔改的开发者经验，在后续博客中再逐步深入解构代码。

本文主要从 Multi-turn Agentic RL 训练效率这一核心问题切入，从异步推理亮点设计、长尾样本处理、 offpolicy 缓解，以及现有训推加速的复用和改进出发，横向对比近半年有代表性的几个工作 AReaL (Ant)、Seer (Moonshot)、Slime (Zhipu) 和 verl (Bytedance) 的设计思路与解决方案。

太长不看版本：直接点击全面对比和选型思路章节。所有框架几乎都较好复用和集成了 pretrain / inference 端的技巧，随着时间演进，也在互相集成对方的优秀 feature，但各自侧重点有所不同，AReaL 的异步推理， Seer 的极致同步，再到 Slime 的 MoE 和 verl 的易用性大一统，四个框架本质是在不同约束条件下的探索优化。

一、Pretrain vs Post-train: MFU to Rollout

Pretrain 时代，训练效率的提升关键是 MFU —— 因为 Scaling Law 中FLOPS 和模型能力之间的关系，不可减少的矩阵浮点计算成了瓶颈 (FLOPS)。

于是，主流 Megatron / FSDP 通过横刀流、纵刀流各并行策略（TP/PP/DP、Sequence Parallel、Expert Parallel）以及算子融合（Ops Fusion）、计算通信重叠（Overlapping）等策略，尽可能填满 GPU，就能带来整体速度的最大提升。

Post-training 时代，特别是 GRPO 等算法，瓶颈则转移到了 Rollout 时间以及 Rollout / Train 的配合关系。这在 Agentic RL 训练中尤其严重，训练中 80%+ 的时间都发生在 rollout。

• Test-time scaling 设置下的 Rollout 极度依赖前一个 action 的生成，这种自回归属性导致它几乎无法通过简单的“加卡”来线性加速。
• LLM 时代，Rollout 本身就是昂贵的 GPU 任务，如何设计 train / rollout 两者之间的协同和调度机制成为了新的系统级挑战。

二、Agentic RL 三大训练瓶颈

Agentic RL 可以分为两类：

• Single-turn RL：例如数学题或单轮交互的工具，只对最后结果校验，输出形如 [prompt, response]。
• Multi-turn Agentic RL：模型在一次 Rollout 中需要多轮和环境交互，输出作为 Interleaved Context 继续推理。以 ReACT 范式和 append-only context 管理的方式为例，输出如 [prompt, action1, obs1, action2, obs2… response]。

2025 Q1，业界主要还在用 openrlhf, trl 及 verl-1.0 等框架主要支持第一种，因此也不需要太多改进。而如果进阶到一般性的 Multi-turn Agentic RL，如果不做针对性优化，以我们实际训练中的 32B 模型为例，Naive 的手搓框架单步时间 1 小时+，严重拖垮迭代速度。

抛开 Scaling up 不谈，仅分析 Basic RL 过程，我们可以从上图 rollout -train 时间看到，核心痛点在于：

Long context，指的是最长任务的 decode 时间

• Long CoT 输出，Test-time scaling 普遍需要 Long CoT 来激发强推理能力
• Long horizon tool call，工具轮次数随着任务复杂度上升直线上升

Bubble，指的是推理中 GPU 空闲等待其他任务完成的空转时间（类比于 pretrain 中 pipeline parallel，称之为 bubble）。

• Long-tail Effect：在 GRPO/PPO 中，一个 Batch 的结束取决于最长的那条轨迹（Longest Trajectory）。Agentic 任务的输出长度极不平衡，也遵循二八定律，频繁触达 Context Window 上限的轨迹往往是不可替代和最有价值的的 Hard Exploration Case。这种 Long-tail Effect 导致同一个 Batch 长短不一，显卡持续等待中空转，进一步增加了 bubble 占比。

Long Call Tool Execution：指的是工具从输出到调用环境、通信等一系列时间。

• Long Call Tool 的调用（代码 Sandbox、数据库轮询、大规模检索）不仅耗时，而且具有强依赖性（后一轮推理依赖前一轮工具的返回结果），必须串行执行，这部分几乎很难压缩。

时间带来 2025 7 月，业界为了解决上述问题，给出了不同方案，从解决思路的演进来看：

常规思路：

• 提升推理速度：复用 vLLM / SGLang 等 Backend 的极致优化，引入 FP8 量化推理，使用改进版的 Speculative Decoding (SD)。
• 降低总长度：通过 Context Manager 压缩历史（如 Qwen AgentFold），或在训练中混合 Long/Short CoT。未来还可能追求更高效的推理路径。

RL 特有思路（核心战场）：

• 异步（Asynchronous）：异步推理，无论是 replay buffer 还是其他 partial rollout 半异步的设计，都是牺牲一定的 On-policy 准度，换取极致效率（AReaL 的思路），比如重走一遍 A3C / A2C 历史、彻底解耦训推策略。
• 分离式（Disaggregated）：在架构上直接解耦 rollout / train，追求训推平滑切换与零冗余，本质上都是 Impala 思想在 LLM 时代的复刻与升级。
• 同步（Load Balance）：坚持同步，不牺牲 On-policy，而是建模为负载均衡任务来消除 bubble 做到零冗余，切分任务、全局显存池化来尽可能消除 Bubble 和降低 tail latency（Seer 的思路）。

AReal: Fully Asynchronous

AReaL 选择了类似 Impala/A3C 的 Fully Asynchronous 路线。

核心哲学：既然同步和等待是 Bubble 的根源，那就彻底解耦训练和推理，再从算法和系统缓解异步引入的 off-policyness。

Highlight：

Stream Rollout：将 Rollout 和 Train 物理分离。推理侧始终用最新 Policy 不间断生成，训练侧持续从 Replay Buffer 取数更新。理论上，Bubble 被压缩至近似为 0。（这也允许了训推采用异构硬件，来降低整体成本如 H800 训练，L40s/A10 推理）。

Staleness-aware PPO：异步的代价是 Off-policyness，梯度越来越不准。AReal 一方面理论上引入 Decoupled PPO，另一方面做好 rollout - train 的相对平衡策略。

• Decoupled PPO Objective，再次解耦实际行为策略和理论行为策略（现在一共有三个策略），通过双层 Importance Sampling 修正行为策略与目标策略的梯度偏差，从而安全地利用“稍微”过时的数据。
• Staleness Control 保证 replay buffer 足够新（rollout >> train），优先回放旧样本 (类似 Priorized level replay)，同时引入超参 eta 控制允许的最大版本偏差。
• Interruptible Generation：保证训练端维持 batch size（train >> rollout），为了维持训练端的 Batch Size 稳定，当 Replay Buffer 数据不足时，系统可以强制挂起长任务、优先产出短任务，实现抢占式调度。

此外也采用了一些系统的优化做极致加速，比如 GPU / CPU 解耦，将 reward 计算等 offload 到 CPU 上，从而可以和 GPU 运算重叠进行；Rollout 时 asyncio 做高并发；以及动态内存分配，固定最大内存下，平衡 micro batch token 数量。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

Seer: Load Balance

核心哲学：为了保证推理模型的逻辑严密性，坚持 On-policy 同步训练的原教旨主义（ A2C ），但通过极致的系统工程做负载均衡，消除长尾 bubble。

Highlight：

Divided Rollout：把长尾 request 切分成更小的 chunk ，以 chunk 粒度调度任务，灵活填充卡间气泡。

• Global KV Cache (Mooncake)： Seer 基于 Mooncake 实现了 Disaggregated KV Cache 这一配合使用的核心基建。全局 KV Cache 意味着负载较高的卡上的 request 可以直接迁移到另一张卡，无需重复 prefill，极大允许了 divided 之后的片段可以在卡间低成本灵活切换。

Context-Aware Scheduling：试图通过 prompt 来预测最长的可能生成长度，采用 Long-first pool 调度，优先处理长任务（从实验来看，简单的 context-aware 策略效果居然能降低 tail latency 87% ，divided rollout 反而只能降低 6% 左右）。

Adaptive Grouped Speculative Decoding (AGSD)：传统 SD 需要固定的 Draft Model，即便支持了推理使用，但在 RL 过程中 Draft Model 会迅速过时导致接受率崩塌，等价于串行。Seer 则是采用同组其他生成快 request 构成的 Compressed Suffix Tree ，当作慢 request 的 draft model，非常巧妙，可能会是压缩推理的主要思路。

Verl: Hybrid Flow

verl (Volcano Engine RL) 拥有目前最发达的开源社区生态 —— 所以除了官方 agent 支持还有 verl-agent 等二次开发工作。官方场外版七月通过 AgentLoop 支持了多轮 Agentic 训练，在一个月前的最新版本中也支持了类似的 Fully Asynchronous 和 decoupled PPO 的训练策略，在细节上略有差异。

这里不再重复基础 RL 训练上的设计优势和异步设计，只列出有区别的细节。

核心哲学：开源、集成、高速迭代

Highlight:

• AgentLoop
• Offpolicy-ness 控制
• Staleness Control，verl 采用动态的 staleness_threshold 控制最大允许的旧样本比例，staleness_threshold=0 时近似同步，> 0 时允许 Rollouter “抢跑”。例如设置为 0.5，表示允许使用滞后不超过 0.5 个 Epoch 的数据。
• Partial Rollout / Sleep-Resume，类似的允许长任务被打断 sleep 和由下一次策略 resume，不浪费一个 token。

Slime: Hybrid

核心哲学：为 MoE 而生，轻量级框架，追求灵活性。

Highlight：

Hybrid Mode：Slime 采用了更灵活的机制，允许根据不同任务采用同步异步。

• Colocated Synchronous 模式：适合推理/数学任务，减少通信，数学证明等对逻辑严密性要求极高的任务，需要保证严格 On-Policy
• Decoupled Asynchronous 模式：适合复杂长执行的 Agent 任务，防止环境交互阻塞训练

SGLang Native Integration深度绑定 SGLang。这意味着所有 SGLang 社区的优化（RadixAttention、Triton Kernels）都能第一时间用上。

Active Partial Rollouts: 通过超额推理，牺牲一部份上下文切换时间，降低单 batch latency。比如需要 batch size = 32，启动 64 个请求，当最快的 32 个请求完成时，立即终止剩余，但保留 KV cache 用于下一个 batch 生成。

三、从基建到创新的全面横向对比

训推端和调度

都采用了 ray，并复用了 sglang / vllm 等推理前后引擎，相较前一代的 rl 框架都有更好的 scale up 特性。

Framework	Org	Policy Type	Training Backend	Inference Backend	Orchestration
AReaL	Ant	Off-policy	Megatron / FSDP	vLLM / SGLang	Ray
Slime	Zhipu	Hybrid	Megatron	SGLang (Native)	Ray
verl	Bytedance	Hybrid	Megatron / FSDP	vLLM / SGLang	Ray
Seer	Moonshot	On-policy	Megatron	vLLM (Custom)	K8s / Ray

推理加速的极致复用

异步推理的技巧

从长尾样本的效率加速看，各显神通地采用了不同机制：

• verl / AReaL (Sleep-Resume)：允许长任务被中断（Sleep/interupt）和下一轮 Resume，不浪费 token，更适合计算比较贵的场景。
• Slime (Active Partial Rollouts): 超额推理，通过冗余计算换整体时延的策略，更适合推理比较便宜、但 batch 时间要求高的场景。
• Seer (Divided Rollout)：将长任务切碎，利用全局 kvcache 池调度，系统利用率最高，无计算浪费，但对基础设施（网络带宽、KV Cache池）要求最高。

从训推分离后的数据管理 Replay Buffer 设计来看：

• AReaL(Replay Buffer): 倾向于混合历史数据，类似 DQN/IMPALA，能带来数据多样性，但 Off-policy 程度最重。
• Slime (APR Replay Buffer)：允许存历史 patial rollout 的片段改进版本 replay buffer。
• Verl(FIFO TransferQueue): 倾向于流式处理最新数据，更适合 PPO/GRPO 等 On-policy 变种算法。

具体选型思路

构建复杂长调用 Agent（如全网搜索、代码执行、长工具调用）适合完全异步换吞吐的 AReaL 或 Slime (Async Mode)，用样本量暴力美学弥补 Off-policy 的精度损失。

构建严密逻辑推理等场景（如 Math/Coding 刷榜）需要严格 on-policy，适合 Seer (架构参考) 或 verl (同步/半异步模式)。Seer 的全局调度是目前的性能天花板。

训练超大规模的 MoE，适合 Slime，SGLang Native + DeepEP 对 MoE 的支持最为完善。

中小团队快速上手/魔改，或者初学者学习，适合 verl 或者 slime，verl 各个特性集成很完备和均衡，开源社区足够活跃，后者轻量级代码框架，学习性很好。

四、如何定义工业级强化学习

总结上述框架的演进，我认为一个能称之为“工业级”的 Agentic RL 训练框架，应该具备以下画像：

训推分离与灵活切换的同/异步机制

原生具备灵活解耦 Rollout/Train 和异步，算法同学能简单易用地高速魔改。这都指向了 Ray —— 足够好的分布式计算通用抽象。

• 是否采用 Ray
• 是否灵活支持同步和异步推理机制
• 是否支持 onpolicyness tradeoff
• 是否训推分离，以及高效的参数切换和同步

极致复用推理加速技术

• 是否原生集成 vllm / sglang
• 是否支持 FP8 和更低精度的量化
• 是否支持更适合 moe 的 deepep 和 route replay
• 是否支持适配于 RL 训练的投机采样

灵活长上下文管理和压缩

包括 particial Rollout、全局 KV cache、更通用的上下文压缩机制、以及可暴露灵活魔改的 Context Manager。

• 是否针对 long-context 样本做感知和细粒度加速
• 是否支持 partial rollout / divided rollout 等灵活多样的推理策略
• 是否采用有效的 context manager，压缩率如何

作为相对通用和底层的算法框架，会更加关注前两者，而在实际应用场景上，做 rollout 长文本压缩和长度均衡显然更直接和有效，这仍然需要 task-specific 的 context manage（coding / tool using / mcp）或比 MCP 协议更省 token 的统一协议，有赖于应用团队做更多针对性优化的方案（这是另一个话题，埋坑）。

为什么选择训练效率作为切入点？从我个人的工程经历来看，早年传统 RL 在 OpenAI Gym 时代，我一开始用 MPI 手搓分布式训练，直到升级到 Ray 以后才体会到系统抽象带来的极大跃升；进入 LLM Pretrain 时代，也是在趟过 Megatron-LM、DeepSpeed 以及各种显存、精度、混合并行训练的深坑后，才算走上正轨。

在 Post-training 阶段，前期 Infra 的“粮草先行”程度（与算法 Co-evolving），直接决定了后期算法、数据和策略迭代的速率与天花板。而当下的 RL 开源届还不能完全说有一套高效的、统一的 Infra把 async 推理、long-tail effect、 offpolicyness 平衡的很好（相信各大厂内部版或许要更进一步），但时间窗口或许不会太久。

测试工程师的感受总结

【万字长文】工业级Agentic RL训练与选型：全面解析，助力企业高效决策！

一、Pretrain vs Post-train: MFU to Rollout

二、Agentic RL 三大训练瓶颈

常规思路：

RL 特有思路（核心战场）：

AReal: Fully Asynchronous

Seer: Load Balance

Verl: Hybrid Flow

Slime: Hybrid

三、从基建到创新的全面横向对比

训推端和调度

推理加速的极致复用

异步推理的技巧

具体选型思路

四、如何定义工业级强化学习

训推分离与灵活切换的同/异步机制

极致复用推理加速技术

灵活长上下文管理和压缩

五、如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

【Open-AutoGLM基因数据分析突破】：揭秘千万级生物数据处理的5大核心技术

软件测试的基本路径覆盖

AI时代的“幸存者偏差”！为什么说90%的人都走错了路？这篇文章给你答案！

彻底颠覆！别再开发App了！AI下半场，智能体将让“应用”这个概念成为历史！

2025 年 LLM「大语言模型」年度回顾（翻译）