news 2026/6/15 15:11:00

RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

概述

本文报告了 rStar2-Agent 的开发和成果,这是一个专门用于数学推理的大规模语言模型。

尽管该模型的参数规模高达 140 亿个,但其性能却可与之前参数规模为 6710 亿个的模型所达到的一流水平相媲美。

这背后的原因是依赖冗长的思维链(CoT)的传统方法的局限性。

换句话说,仅仅通过 “保持足够长的思考时间”,很难发现中间错误和灵活的政策变化。

为了克服这一难题,作者引入了代理强化学习(Agentic Reinforcement Learning),旨在 “让思考更聪明”。
具体来说,强化学习用于学习一种机制,使模型能够恰当地生成和执行 Python 代码,并在反思结果的同时改进其推理能力。

在此基础上,设计了能同时处理 45,000 次工具调用的高效代码执行环境、减少环境噪音的新 GRPO-RoC 算法以及高效的多阶段学习配方。
结果表明,只需 510 个步骤和一周的培训就能达到最先进的水平,而且推理能力可以推广到非数学领域。

建议的方法

我们提出的方法由三个部分组成,用于高效地大规模部署代理强化学习。

首先,构建支持大规模代码执行的基础设施。

作者设计了一个专用执行环境,可在平均 0.3 秒内处理多达 45 000 次并行工具调用。

此外,还实施了动态分配 GPU 计算资源的调度程序,以消除负载偏差。

第二,一种名为 GRPO-RoC(Group Relative Policy Optimisation with Resampling on Correct)的新算法。

这是一种优先强化积极答案轨迹的方法,积极答案轨迹很少出现工具错误或格式违规,而失败轨迹则通过保持其多样性用于训练。

这使得学习既能抵御环境噪声,又能防止奖励黑客。

第三,高效的学习方法。
与传统的以推理为导向的 SFT(监督微调)不同,该系统首先只学习简单指令遵循和工具使用的基础知识,然后通过多阶段 RL 逐步加强推理能力。

这三者使我们能够用比以前更少的计算资源建立实用而强大的推理代理。

实验

在实验中,我们使用 rStar2-Agent-14B 评估了它在数学竞赛问题 AIME24 和 AIME25 以及 HMMT25 等高难度基准上的性能。
结果显示,rStar2-Agent-14B 在 AIME24 和 AIME25 中的正确率分别为 80.6% 和 69.8%,高于 DeepSeek-R1 (671B) 和 Claude-Opus-4.0。

平均响应长度也更短,表明推理精简高效。

在训练过程中,每个阶段的性能提高都很明显。

第一阶段,在 8K 响应长度令牌限制下获得了基本的推理能力,第二阶段将限制扩展到 12K,进一步提高了准确性。

在最后阶段,训练集中在难度更大的问题上,并达到了最先进的标准。

此外,在数学以外的其他领域,通用化性能也得到了证实,在科学推理基准 GPQA-Diamond 和代理工具使用任务 BFCL v3 上都取得了优异成绩。

此外,对错误轨迹和自我反思行为的分析表明,模型学会了 "反思标记 "行为,即积极利用来自环境的反馈,通过试错改进推理。

这证明该方法不仅能提高性能,还能模仿更像人类的思维过程。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 21:16:01

WeChatPad:解锁微信多设备登录的平板模式技术方案

在移动办公场景日益普及的今天,微信作为主要的社交与工作沟通工具,其单设备登录限制已成为用户体验的显著痛点。WeChatPad项目应运而生,通过创新的技术手段实现微信平板模式强制运行,让用户能够在Android设备与其他终端间实现真正…

作者头像 李华
网站建设 2026/6/15 14:16:39

NVIDIA显卡高级调校完全指南:专业级性能优化方案

NVIDIA显卡高级调校完全指南:专业级性能优化方案 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为游戏画面不够流畅、显卡性能无法充分发挥而困扰?NVIDIA Profile Inspecto…

作者头像 李华
网站建设 2026/6/14 23:25:00

League Akari终极指南:英雄联盟智能助手完整配置与实战应用

League Akari终极指南:英雄联盟智能助手完整配置与实战应用 【免费下载链接】LeagueAkari ✨兴趣使然的,功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari 还在…

作者头像 李华
网站建设 2026/6/10 10:27:23

XUnity自动翻译器:打破Unity游戏语言障碍的终极解决方案

XUnity自动翻译器:打破Unity游戏语言障碍的终极解决方案 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 在Unity游戏开发的世界里,语言障碍一直是困扰玩家和开发者的重要问题。XUn…

作者头像 李华
网站建设 2026/6/13 1:57:05

XUnity.AutoTranslator:彻底解决Unity游戏语言障碍的智能翻译方案

XUnity.AutoTranslator:彻底解决Unity游戏语言障碍的智能翻译方案 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为看不懂的日文、韩文游戏而烦恼吗?想要畅玩全球热门Unity游…

作者头像 李华
网站建设 2026/6/13 4:47:41

百度网盘极速下载终极指南:告别龟速的简单方法

还在为百度网盘那令人崩溃的下载速度而烦恼吗?每次看到几十KB的下载进度条,是不是感觉时间都停滞了?今天我要分享一个简单实用的百度网盘下载提速方法,让你轻松突破速度限制,享受高速下载的畅快体验。 【免费下载链接】…

作者头像 李华