TRM：让大模型推理过程从主观感受变为可度量能力，大幅提升准确率！-编程实验室

大模型推理：结果之外，过程也重要

大模型推理能力日益增强，但答案正确，思考过程就一定好吗？这就如同做数学题，两个学生都答对了，一个步骤完美，另一个却绕了弯路。对于大模型推理而言，也存在类似问题。模型在给出最终回答前，会生成一段很长的reasoning trace，其中包含探索、反思等，但也有重复、跳步等问题。然而，绝大多数评测和奖励信号只看最终答案，这就忽略了思考过程的差异。那么，什么样的思考过程算好？如何评估？这种评估信号能否帮助模型学会更好的推理方式？

TRM：关注推理过程的新模型

针对上述问题，来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRM（Thinking Reward Model）。它不再只看大模型“答没答对”，而是直接给推理过程打分，让“想得好”成为可度量、可训练、可优化的能力。具体来说，团队提出了统一框架：用ME² principle刻画推理质量，用DAG - based pairwise evaluation还原推理结构，并在此之上训练Thinking Reward Model，将“推理质量”变成可复用的奖励信号。

为何“答案对不对”不够用

过去很多大模型评测主要看最终答案是否正确，对于问答题、代码题来说，这种方式很直接。但对于推理模型，只看答案会忽略模型是如何得到答案的。同样答对一题，不同模型的推理过程可能差异很大，低质量推理不仅增加生成成本，还会让模型在题目条件变化时更容易出错。在强化学习训练里，这个问题更明显，如果奖励只看最终答案，就无法区分哪条推理链更值得学习，而这正是TRM关注的问题。

TRM整体框架

TRM整体框架如下：(a) 提出ME² principle, (b) 用DAG抽象复杂推理结构, (c) 训练Thinking Reward Model，并将其用于Test - Time Scaling和RL。

ME² principle：定义好的思考过程

要评估推理质量，得先明确“好”的定义。论文沿两条正交轴拆解推理质量：粒度上分macro（整体结构）和micro（单步内容）；目标上分efficiency（高效）和effectiveness（有效）。两两组合得到四个维度：

Macro - Efficiency：整体结构是否高效，好的推理链会避免反复重启和无效检查。
Macro - Effectiveness：整体结构是否有效，推理主线应围绕问题目标，分支关系清楚。
Micro - Efficiency：单步表达是否简洁，每一步最好有明确作用。
Micro - Effectiveness：单步内容是否正确，局部计算等需自洽。

这四个维度构成后续评估和优化流程的基石。

DAG - based Evaluation：让推理可结构化

模型推理链通常是自然语言文本，真实推理不一定直线前进，长文本还容易淹没重要结构信号。因此，论文把自由形式的推理链抽象为有向无环图（DAG），具体步骤如下：

Step Partitioning：先按段落粗切分，再用高频起始词作为分隔符，得到有语义意义的步骤边界。
Reasoning Structuring：按时间顺序遍历推理步骤，用大模型分配语义父节点，构建边，合并相邻节点得到紧凑的DAG，呈现复杂结构。
Pairwise Evaluation：根据ME² principle构造语义抽象，让评估模型给出两条推理链的相对偏好，覆盖ME² principle四个维度。

这样评估模型能更稳定地判断推理链质量。

Thinking Reward Model：将推理质量变为奖励信号

基于上述评估框架，研究团队构建了TRM - Preference数据集。研究者先用多个开源推理模型生成候选推理链，筛掉答案错误的轨迹，只保留答案正确的样本，后续比较重点就转向“哪条推理链更好”。论文用DeepSeek - V3.2在ME²四个维度上对DAG进行成对评估，减少位置偏差后，得到103K训练偏好对 + 1.5K验证偏好对，构成TRM - Preference数据集。TRM以Llama - 3.1 - 8B - Instruct为初始化，训练完成后会为每条推理链输出一个标量分数，分数越高，推理质量越高。在验证集上，TRM取得88.6%的准确率，优于两个代表性PRM基线。

TRM的核心发现

核心发现一：高质量推理链得出的答案更可靠

TRM评估推理链质量，也能提高最终答案准确率。测试时，可将TRM用于Best - of - N selection，让模型生成多条候选推理链，由TRM选出质量最高的一条。实验显示，随着N增大，TRM选出的结果最终准确率更高。

核心发现二：用作RL奖励，模型答得更准

在训练阶段，TRM能为强化学习提供更细粒度的奖励信号。传统RLVR通常只看答案对错，加入TRM后，模型可在答对基础上学习更清晰、高效的推理方式。论文采用GRPO算法，通过gated reward shaping把可验证奖励与TRM给出的思考奖励组合，“门控”确保只有答案正确时，TRM才参与reward shaping。实验结果显示，这种思路在多个模型和任务上都提升了性能。