大模型推理:结果之外,过程也重要
大模型推理能力日益增强,但答案正确,思考过程就一定好吗?这就如同做数学题,两个学生都答对了,一个步骤完美,另一个却绕了弯路。对于大模型推理而言,也存在类似问题。模型在给出最终回答前,会生成一段很长的reasoning trace,其中包含探索、反思等,但也有重复、跳步等问题。然而,绝大多数评测和奖励信号只看最终答案,这就忽略了思考过程的差异。那么,什么样的思考过程算好?如何评估?这种评估信号能否帮助模型学会更好的推理方式?
TRM:关注推理过程的新模型
针对上述问题,来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRM(Thinking Reward Model)。它不再只看大模型“答没答对”,而是直接给推理过程打分,让“想得好”成为可度量、可训练、可优化的能力。具体来说,团队提出了统一框架:用ME² principle刻画推理质量,用DAG - based pairwise evaluation还原推理结构,并在此之上训练Thinking Reward Model,将“推理质量”变成可复用的奖励信号。
为何“答案对不对”不够用
过去很多大模型评测主要看最终答案是否正确,对于问答题、代码题来说,这种方式很直接。但对于推理模型,只看答案会忽略模型是如何得到答案的。同样答对一题,不同模型的推理过程可能差异很大,低质量推理不仅增加生成成本,还会让模型在题目条件变化时更容易出错。在强化学习训练里,这个问题更明显,如果奖励只看最终答案,就无法区分哪条推理链更值得学习,而这正是TRM关注的问题。
TRM整体框架
TRM整体框架如下:(a) 提出ME² principle, (b) 用DAG抽象复杂推理结构, (c) 训练Thinking Reward Model,并将其用于Test - Time Scaling和RL。
ME² principle:定义好的思考过程
要评估推理质量,得先明确“好”的定义。论文沿两条正交轴拆解推理质量:粒度上分macro(整体结构)和micro(单步内容);目标上分efficiency(高效)和effectiveness(有效)。两两组合得到四个维度:
- Macro - Efficiency:整体结构是否高效,好的推理链会避免反复重启和无效检查。
- Macro - Effectiveness:整体结构是否有效,推理主线应围绕问题目标,分支关系清楚。
- Micro - Efficiency:单步表达是否简洁,每一步最好有明确作用。
- Micro - Effectiveness:单步内容是否正确,局部计算等需自洽。
这四个维度构成后续评估和优化流程的基石。
DAG - based Evaluation:让推理可结构化
模型推理链通常是自然语言文本,真实推理不一定直线前进,长文本还容易淹没重要结构信号。因此,论文把自由形式的推理链抽象为有向无环图(DAG),具体步骤如下:
- Step Partitioning:先按段落粗切分,再用高频起始词作为分隔符,得到有语义意义的步骤边界。
- Reasoning Structuring:按时间顺序遍历推理步骤,用大模型分配语义父节点,构建边,合并相邻节点得到紧凑的DAG,呈现复杂结构。
- Pairwise Evaluation:根据ME² principle构造语义抽象,让评估模型给出两条推理链的相对偏好,覆盖ME² principle四个维度。
这样评估模型能更稳定地判断推理链质量。
Thinking Reward Model:将推理质量变为奖励信号
基于上述评估框架,研究团队构建了TRM - Preference数据集。研究者先用多个开源推理模型生成候选推理链,筛掉答案错误的轨迹,只保留答案正确的样本,后续比较重点就转向“哪条推理链更好”。论文用DeepSeek - V3.2在ME²四个维度上对DAG进行成对评估,减少位置偏差后,得到103K训练偏好对 + 1.5K验证偏好对,构成TRM - Preference数据集。TRM以Llama - 3.1 - 8B - Instruct为初始化,训练完成后会为每条推理链输出一个标量分数,分数越高,推理质量越高。在验证集上,TRM取得88.6%的准确率,优于两个代表性PRM基线。
TRM的核心发现
核心发现一:高质量推理链得出的答案更可靠
TRM评估推理链质量,也能提高最终答案准确率。测试时,可将TRM用于Best - of - N selection,让模型生成多条候选推理链,由TRM选出质量最高的一条。实验显示,随着N增大,TRM选出的结果最终准确率更高。
核心发现二:用作RL奖励,模型答得更准
在训练阶段,TRM能为强化学习提供更细粒度的奖励信号。传统RLVR通常只看答案对错,加入TRM后,模型可在答对基础上学习更清晰、高效的推理方式。论文采用GRPO算法,通过gated reward shaping把可验证奖励与TRM给出的思考奖励组合,“门控”确保只有答案正确时,TRM才参与reward shaping。实验结果显示,这种思路在多个模型和任务上都提升了性能。
核心发现三:不止答案更准,推理过程也更优
性能提升不代表推理过程一定变好。论文用DeepSeek - V3.2按照ME² principle对不同训练策略生成的推理链进行成对比较,结果显示,在三个基座模型上,TRM训练后的策略相较于多种基线策略,都取得了更高胜率,说明TRM让模型生成的推理过程更优。
TRM的意义与未来展望
随着大模型应用场景变复杂,推理过程的重要性会继续上升。未来的模型既要答对,也要更会组织思路。TRM的意义在于,它让“想得好”从主观感受变成可度量、训练、优化的能力。那么,TRM在未来大模型的发展中还会带来哪些惊喜呢?