news 2026/6/25 17:15:46

TRM:让大模型推理过程从主观感受变为可度量能力,大幅提升准确率!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TRM:让大模型推理过程从主观感受变为可度量能力,大幅提升准确率!

大模型推理:结果之外,过程也重要

大模型推理能力日益增强,但答案正确,思考过程就一定好吗?这就如同做数学题,两个学生都答对了,一个步骤完美,另一个却绕了弯路。对于大模型推理而言,也存在类似问题。模型在给出最终回答前,会生成一段很长的reasoning trace,其中包含探索、反思等,但也有重复、跳步等问题。然而,绝大多数评测和奖励信号只看最终答案,这就忽略了思考过程的差异。那么,什么样的思考过程算好?如何评估?这种评估信号能否帮助模型学会更好的推理方式?

TRM:关注推理过程的新模型

针对上述问题,来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRM(Thinking Reward Model)。它不再只看大模型“答没答对”,而是直接给推理过程打分,让“想得好”成为可度量、可训练、可优化的能力。具体来说,团队提出了统一框架:用ME² principle刻画推理质量,用DAG - based pairwise evaluation还原推理结构,并在此之上训练Thinking Reward Model,将“推理质量”变成可复用的奖励信号。

为何“答案对不对”不够用

过去很多大模型评测主要看最终答案是否正确,对于问答题、代码题来说,这种方式很直接。但对于推理模型,只看答案会忽略模型是如何得到答案的。同样答对一题,不同模型的推理过程可能差异很大,低质量推理不仅增加生成成本,还会让模型在题目条件变化时更容易出错。在强化学习训练里,这个问题更明显,如果奖励只看最终答案,就无法区分哪条推理链更值得学习,而这正是TRM关注的问题。

TRM整体框架

TRM整体框架如下:(a) 提出ME² principle, (b) 用DAG抽象复杂推理结构, (c) 训练Thinking Reward Model,并将其用于Test - Time Scaling和RL。

ME² principle:定义好的思考过程

要评估推理质量,得先明确“好”的定义。论文沿两条正交轴拆解推理质量:粒度上分macro(整体结构)和micro(单步内容);目标上分efficiency(高效)和effectiveness(有效)。两两组合得到四个维度:

  • Macro - Efficiency:整体结构是否高效,好的推理链会避免反复重启和无效检查。
  • Macro - Effectiveness:整体结构是否有效,推理主线应围绕问题目标,分支关系清楚。
  • Micro - Efficiency:单步表达是否简洁,每一步最好有明确作用。
  • Micro - Effectiveness:单步内容是否正确,局部计算等需自洽。

这四个维度构成后续评估和优化流程的基石。

DAG - based Evaluation:让推理可结构化

模型推理链通常是自然语言文本,真实推理不一定直线前进,长文本还容易淹没重要结构信号。因此,论文把自由形式的推理链抽象为有向无环图(DAG),具体步骤如下:

  1. Step Partitioning:先按段落粗切分,再用高频起始词作为分隔符,得到有语义意义的步骤边界。
  2. Reasoning Structuring:按时间顺序遍历推理步骤,用大模型分配语义父节点,构建边,合并相邻节点得到紧凑的DAG,呈现复杂结构。
  3. Pairwise Evaluation:根据ME² principle构造语义抽象,让评估模型给出两条推理链的相对偏好,覆盖ME² principle四个维度。

这样评估模型能更稳定地判断推理链质量。

Thinking Reward Model:将推理质量变为奖励信号

基于上述评估框架,研究团队构建了TRM - Preference数据集。研究者先用多个开源推理模型生成候选推理链,筛掉答案错误的轨迹,只保留答案正确的样本,后续比较重点就转向“哪条推理链更好”。论文用DeepSeek - V3.2在ME²四个维度上对DAG进行成对评估,减少位置偏差后,得到103K训练偏好对 + 1.5K验证偏好对,构成TRM - Preference数据集。TRM以Llama - 3.1 - 8B - Instruct为初始化,训练完成后会为每条推理链输出一个标量分数,分数越高,推理质量越高。在验证集上,TRM取得88.6%的准确率,优于两个代表性PRM基线。

TRM的核心发现

核心发现一:高质量推理链得出的答案更可靠

TRM评估推理链质量,也能提高最终答案准确率。测试时,可将TRM用于Best - of - N selection,让模型生成多条候选推理链,由TRM选出质量最高的一条。实验显示,随着N增大,TRM选出的结果最终准确率更高。

核心发现二:用作RL奖励,模型答得更准

在训练阶段,TRM能为强化学习提供更细粒度的奖励信号。传统RLVR通常只看答案对错,加入TRM后,模型可在答对基础上学习更清晰、高效的推理方式。论文采用GRPO算法,通过gated reward shaping把可验证奖励与TRM给出的思考奖励组合,“门控”确保只有答案正确时,TRM才参与reward shaping。实验结果显示,这种思路在多个模型和任务上都提升了性能。

核心发现三:不止答案更准,推理过程也更优

性能提升不代表推理过程一定变好。论文用DeepSeek - V3.2按照ME² principle对不同训练策略生成的推理链进行成对比较,结果显示,在三个基座模型上,TRM训练后的策略相较于多种基线策略,都取得了更高胜率,说明TRM让模型生成的推理过程更优。

TRM的意义与未来展望

随着大模型应用场景变复杂,推理过程的重要性会继续上升。未来的模型既要答对,也要更会组织思路。TRM的意义在于,它让“想得好”从主观感受变成可度量、训练、优化的能力。那么,TRM在未来大模型的发展中还会带来哪些惊喜呢?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 17:15:00

精准选对矩形导向轨,专业制造商该看哪些点

在工业自动化与精密设备领域,矩形导轨作为核心的导向与承载部件,其选型直接决定了设备的运行精度、使用寿命与稳定性。对于专业制造商而言,从庞大的供应链中筛选出真正可靠的矩形导轨,并非易事。面对市场上参差不齐的产品质量与五…

作者头像 李华
网站建设 2026/6/25 17:12:19

7个已落地AI工程方向:轻量化部署、RAG增强、多模态理解等实操指南

1. 这不是预测清单,而是一份“正在发生的现场报告”我从2018年开始带团队落地AI项目,做过智能客服中台、工业质检模型、金融风控图谱,也亲手把大模型微调进银行核心业务系统。过去五年,我几乎没写过“趋势预测”类文章——因为真正…

作者头像 李华
网站建设 2026/6/25 17:09:06

Appsmith:开源低代码平台,快速构建内部工具

文章目录Appsmith:开源低代码平台,快速构建内部工具Appsmith:开源低代码平台,快速构建内部工具 Appsmith 是一个开源的低代码平台,GitHub 上有 40,116 个 Star。 很多团队需要构建管理后台、数据看板这类内部工具。传…

作者头像 李华
网站建设 2026/6/25 17:07:50

Windows 11系统优化终极指南:3分钟告别臃肿系统

Windows 11系统优化终极指南:3分钟告别臃肿系统 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and customiz…

作者头像 李华
网站建设 2026/6/25 17:07:29

Chilibot:基于规则的PubMed生物关系抽取与假说生成工具

我理解你的要求,也完全认同内容安全、专业深度与表达真实性的极端重要性。作为一名在生物信息、科研工具与文本挖掘领域持续深耕十余年的实践者,我深知Chilibot这类经典工具的价值远不止于“老而可用”——它是一面镜子,照见了在没有大模型加…

作者头像 李华