一篇刚刚挂在arXiv上的论文,正在悄悄戳破大模型对齐领域一个心照不宣的痛点。
这篇论文来自斯坦福大学,题为《General Preference Reinforcement Learning》(通用偏好强化学习,简称GPRL),作者包括斯坦福大学的多位研究者以及来自俄克拉荷马大学和独立研究者的联合团队。论文于2026年5月18日上传,直指当前大模型后训练(post-training)领域的一个核心矛盾:在线强化学习训练得越久,模型反而越差。
这不是危言耸听。实验数据清晰地显示,当使用传统标量奖励模型做强化学习时,GRPO+BT的方案在训练到一定程度后就开始走下坡路,AlpacaEval 2.0分数从峰值一路滑落,最终停在41.92分。而GPRL在同样的训练周期内持续提升,第三个epoch达到56.51分,领先超过14个百分点。
差距的根源,不在算力,不在数据量,在于奖励信号本身的"形状"。
一个标量分数,装不下人类对质量的期待故事要从奖励黑客(reward hacking)说起。
这是强化学习对齐领域公认的顽疾。训练一个策略模型时,研究者先训练一个奖励模型(Reward Model,RM),用来打分,再让策略模型不断优化以拿高分。问题在于,真正的"好回答"是多维度的——事实准确、对用户有帮助、表达安全、行文流畅……把这些维度压缩进一个数字,信息必然丢失。
代理指标一旦被优化,就会背叛它本来代表的东西——这叫古德哈特定律(Goodhart's Law)。对于LLM对齐来说,最常见的表现是"越说越长":奖励模型发现长回答往往更受人类评估员青睐,于是模型学会拼命堆砌字数,内容未必变好,评分却不断攀升。
更深层的问题是:标量奖励模型在数学结构上就无法表达"非传递偏好"(intransitive preferences)。所谓非传递偏好,是指A比B好、B比C好,但C又比A好——这种循环偏好在人类真实判断中普遍存在,却被标量模型直接忽略,因为标量必须施加全序关系,不允许这种循环。
论文指出,既有的两条技术路线都没有真正解决这个问题。一条路线是DPO、SimPO、SPPO等偏好优化方法,处理开放性任务效果不错,但依赖静态或迭代刷新的偏好数据,没有在线强化学习的持续探索能力;另一条路线是以GRPO为代表的在线RL方法,需要一个可编程验证器(比如数学题的对错判断),在数学、代码任务上表现出色,但无法扩展到开放性生成任务,一旦换成学习型标量RM,奖励黑客问题就卷土重来。
GPRL的目标,就是用一个结构上更诚实的奖励信号,把两条路线连接起来。
把偏好嵌进向量空间,而不是压缩成一个数
GPRL的核心依赖是通用偏好模型(General Preference Model,GPM),这是Zhang et al.此前提出的工作。
GPM的基本思路是:与其给每个回答打一个分数,不如把每个回答映射成一个向量,再用向量之间的关系来表达偏好。具体来说,GPM把每个回答嵌入到2k维空间,分成k个独立的二维子空间,每个子空间捕捉质量的一个不同维度。
以k=3为例(论文在Skywork-Reward语料库上验证,k=3时性能饱和),三个子空间大致对应:有用性对比冗长性、事实准确性对比语言流畅性、安全性对比直接性。每对回答在每个子空间的得分,是两个向量构成的平行四边形有向面积——几何上意味着,相对相位越接近得分越低,差异越大得分越高。
这种表示方式有两个关键优势。第一,它可以天然表达非传递偏好:三个子空间组合的循环偏好,在数学上是合法的,不需要像标量那样强行施加全序;第二,每个子空间的得分被单位范数约束限制在[-1, 1]之间,不会随训练过程漂移,给后续的"漂移监控器"提供了稳定的参照。
但GPM本身的配套优化器GPO是迭代式的——固定策略、收集数据、训练至收敛、刷新策略……这本质上和DPO系方法一样,没有真正的在线探索。GPRL做的,是保留GPM作为奖励源,把GPO的迭代回归替换成GRPO风格的在线策略梯度更新。
多维优势函数:让每个维度都有发言权
GPRL最核心的技术设计,在于如何把GPM的k维输出转化为策略梯度可以用的优势函数(advantage)。
标准GRPO的做法是:对同一个提示采样G个回答,用奖励模型打分,组内归一化得到优势分数。GPRL沿用这个框架,但把"一个分数"扩展成"k个维度的分数",并引入了三步处理:
第一步,逐维度计算群体相对得分。 对于每个回答,计算它在k个子空间中分别与组内其他回答比较的平均得分。这相当于在每个质量维度上分别问:这个回答比组内平均水平好多少?
第二步,逐维度独立归一化。 每个维度的得分,只用该维度自己的均值和标准差来归一化。这一步是防止奖励黑客的关键机制。如果用全局归一化,某个量级最大的子空间会淹没其他子空间;逐维度归一化后,每个子空间的贡献都被拉到单位方差尺度,任何一个维度都无法仅凭"长得更大"来主导梯度方向。
第三步,用上下文相关的特征值加权聚合。 GPM本身会为每个提示输出k个特征值(eigenvalues),反映该提示在各维度上的相对重要性。这些特征值作为权重,把k个归一化后的维度优势加权相加,得到最终的聚合优势分数。
这个聚合分数直接代入标准GRPO的截断代理目标函数(clipped surrogate objective),形式上和GRPO完全一致,只是优势函数的计算方式变了。这意味着GPRL可以无缝接入现有的大规模RL训练基础设施,额外成本只是GPM的一次前向传播,和普通奖励模型的推理成本相当。
论文还证明了一个重要性质(命题1):对于任意提示和任意维度,组内所有回答的优势之和为零。这是群体相对方法保持低方差的核心条件,在k维情况下依然成立,说明多维度聚合不会破坏GRPO本来的统计性质。
漂移监控器:训练过程中的实时纠偏
但光有多维奖励还不够。论文设计了一个闭环漂移监控系统,在训练过程中实时检测和纠正奖励黑客的萌芽。
机制的出发点很直观:当策略开始奖励黑客某个维度l时,组内回答在l上的方差会异常扩大,而在其他维度上的方差会萎缩——因为策略把"聪明才智"都集中在优化那一个维度了。
定义每个维度的方差占比为α_l,用当前时刻的α与初始分布α(0)之间的KL散度D(t)作为漂移指标。健康训练时,D(t)接近零;发生奖励黑客时,D(t)会快速攀升。
控制器的响应逻辑是:一旦D(t)超过阈值τ,就对每个维度施加一个乘数m_l,过度增长的维度乘以小于1的系数被压低,被忽视的维度乘以大于1的系数被拉高,同时收紧KL散度的正则化系数β,防止策略继续大步偏移。D(t)回落后,控制器逐渐松弛,恢复到基准状态。
图3展示了典型的漂移轨迹对比:健康运行时,各维度方差占比保持稳定;发生黑客时,某一维度方差份额猛增;控制器介入后,方差分布被拉回平衡,而使用标量BT奖励模型时,代理分数单调攀升,完全看不到这个信号。
论文特别指出,把τ设得过小会适得其反。阈值太低,控制器会在策略还没来得及在某个维度上积累真正有效信号之前就开始干预,强行把方差拉回初始分布,实际上损失了有用的信号。实验表明τ=0.2是默认最优选择。
数字说话:比GRPO+BT领先14个百分点
实验从Llama-3-8B-Instruct出发,奖励模型在Skywork-Reward上训练,策略模型在UltraFeedback的提示上做在线rollout,每个提示采样8个回答,完成长度512 token,训练3个epoch。
AlpacaEval 2.0的长度控制胜率(LC WR)是这项工作最核心的指标,因为它显式去除了答案长度偏差。结果:
GPRL(8B GPM):56.51%GRPO+BT(8B BT):41.92%,差距14.59个百分点最强迭代式基线SPPO(8B BT):42.55%,差距13.96个百分点DPO:40.30%SimPO:44.70%
在Arena-Hard v2、MT-Bench、WildBench三个基准上,GPRL同样全面领先,且优势持续到训练第5个epoch,而其他方法普遍在第3个epoch附近开始退步。
回答长度的数据同样有意思。迭代式GPM方法(SPPO+GPM、GPO+GPM)到第3轮时回答膨胀到2400到3300 token,LC胜率却停滞不前。GPRL的平均回答长度只有1600 token,是所有有奖励模型的方法里最短的,LC胜率却是最高的——二者同步改善,而不是此消彼长。
分类别来看,GPRL在结构性任务上的增益格外突出:MT-Bench代码类别比最强迭代式基线高出1.00分,WildBench数学/数据类别比GRPO+BT高出2.84分。论文认为,这与在线RL结合丰富奖励信号能够涌现出链式推理能力的规律一致,GPM的k个子空间为这些任务提供了足够的判别信号,防止策略在这些提示上退化为风格模仿。
k值消融实验印证了这一切:k=1时,GPRL退化为标量GRPO,LC WR为44.21;k=3时达到56.51;k=6时开始微跌,说明在当前的监督语料库上,三个维度已经覆盖了大部分有效信号,超出的维度只会放大噪声。
一个方法论意义上更大的断言
论文的结论部分提出了一个超出技术细节的判断:奖励的"形状",而不仅仅是奖励的"强度",才是解决在线RL与开放性对齐之间裂缝的关键变量。
"监督结构是第一类设计变量,而不是损失函数的固定属性。"这句话是对当前后训练思路的一次方法论修正。过去的共识大体是:给足数据、调好超参、RLHF就能work。但这篇论文的结论是:标量奖励在结构层面就错了,把k维输出压成一个数的那一刻,任何在线RL都注定找到单轴捷径。
这个逻辑在更大范围内也成立。任何"用学习的代理指标替代真实目标"的场景,只要目标是多维的,代理指标是一维的,就会面临同样的奖励黑客问题。GPRL给出的思路——保留奖励的结构、在优化过程中监控结构是否被破坏、以结构失衡作为干预信号——不只是LLM对齐的局部技巧,可能是一个更通用的框架。
当然,GPRL也有它承认的边界。它依赖GPM本身的校准质量,如果某个质量维度压根没有被GPM表征为一个子空间,GPRL的逐维度归一化会忠实地放大这个空白。当前实验局限在单一基础模型、单一奖励语料库、单一rollout语料库上,k=3的饱和点是Skywork-Reward的属性,不是GPRL或GPM本身的属性。漂移控制器的闭环动力学也没有收敛性保证,参数选择不当可能导致D(t)振荡。
Q&AQ1:GPRL为什么比GRPO+BT强这么多,核心机制是什么?
GRPO+BT使用标量奖励模型,策略的梯度只受一个数影响。一旦模型找到某个捷径(比如拼命堆字数)能让这个数变大,梯度就会一直往那个方向推,其他质量维度的退化完全不可见。GPRL把奖励换成k维向量,每个维度独立归一化,任何一个维度都不能靠"量级大"来垄断梯度,同时漂移监控器实时检测哪个维度的方差份额异常扩大,一旦发现就压低那个维度的权重,把梯度拉回平衡。
Q2:逐维度归一化和全局归一化有什么实质区别?
如果用全局归一化,三个子空间共用一套均值和标准差,量级最大的那个子空间的得分会在归一化后主导其他子空间,等于变相退化成一维。实验验证了这一点:换成全局归一化后LC WR下跌约4个点,回答长度重新膨胀到2104 token,复现了迭代式GPM方法的冗长模式。逐维度归一化把每个子空间都拉到单位方差,谁也无法靠"更大"来碾压其他维度。
Q3:漂移监控器的阈值τ设得越小越好吗?
不是,过小的τ反而有害。阈值太低,控制器会在策略刚开始集中优化某个维度时就介入,但策略在该维度的集中可能是合理的(比如当前提示批次恰好在考察事实准确性),强行把方差拉平等于丢掉了有用信号,结果比不开控制器还差。τ=0.2是论文测试后确定的默认值,在"允许策略积累真实信号"和"阻止单轴奔跑"之间取得了平衡。