news 2026/6/3 19:16:15

美团:去相关奖励优化多目标学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
美团:去相关奖励优化多目标学习

📖标题:Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization
🌐来源:arXiv, 2605.13641v1

🛎️文章简介
🔸研究问题:在多任务混合奖励的强化学习环境中,如何克服异构奖励分布差异大及维度间相关性高导致的标量优势构建不稳定问题?
🔸主要贡献:论文提出了奖励去相关策略优化(RDPO)方法,通过两级处理流程显著提升了大模型在后训练阶段的指令遵循、写作质量及鲁棒性。

📝重点思路
🔸提出幅度感知分位数归一化(MAQ),利用对数压缩间隙和逆正态映射,将不同量纲和分布的奖励转化为统一尺度,解决二元、离散及连续奖励混合时的异常值敏感问题。
🔸引入马氏白化技术,在活跃奖励子空间内计算协方差矩阵并进行特征分解,去除共现奖励维度间的冗余信息,避免相同变异被重复计算。
🔸设计有效信息效率指标,从投影均衡性和相关性冗余两个维度量化评估混合奖励聚合质量,指导算法优化方向。
🔸采用指数移动平均在线估计协方差,并仅对当前任务实际观测到的奖励子空间进行局部白化,适应多任务场景下奖励信号动态变化的特性。

🔎分析总结
🔸实验表明 MAQ 能有效降低单条 rollout 主导提示级优势分配的概率,显著提高有效 rollout 参与度,使策略更新更稳定。
🔸马氏白化处理成功降低了代码生成、数学推理等任务子空间内的奖励皮尔逊相关系数,减少了有效信息的冗余损耗。
🔸在 LongCat-Flash 后训练中,RDPO 在 IFEval、WritingBench 及 ArenaHard 等高难度基准上均优于 GRPO 和 GDPO 基线。
🔸组件消融实验证实,归一化与白化模块具有互补效应,前者改善分布敏感型指标,后者提升相关性敏感型任务表现。

💡个人观点
论文发现混合奖励中“尺度不均”与“信息冗余”两大痛点,引入统计学中的马氏距离概念进行动态去相关,结合鲁棒的分位数归一化,巧妙地将复杂的异构信号转化为高质量的优势估计。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 19:11:55

全世界航司都在学廉航?航空市场这是怎么了?

这些年,伴随着航空产业的高速发展,越来越多的人已经开始习惯出门坐飞机了,然而就在最近有媒体曝出最近全世界的航司都快成廉航了,这到底是怎么回事?航空市场又发生了什么?一、全世界的航司都快成廉航了&…

作者头像 李华
网站建设 2026/6/3 19:07:15

LinkSwift:终极网盘直链下载助手,彻底告别下载限速烦恼

LinkSwift:终极网盘直链下载助手,彻底告别下载限速烦恼 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动…

作者头像 李华
网站建设 2026/6/3 19:07:11

MAA_Punish:战双帕弥什玩家的终极智能自动化助手

MAA_Punish:战双帕弥什玩家的终极智能自动化助手 【免费下载链接】MAA_Punish 战双帕弥什每日任务自动化 | Assistant For Punishing Gray Raven 项目地址: https://gitcode.com/gh_mirrors/ma/MAA_Punish 在《战双帕弥什》这款深受玩家喜爱的动作角色扮演游…

作者头像 李华
网站建设 2026/6/3 19:07:02

ESP32-CAM本地人脸识别与MQTT智能家居集成实战

1. 项目概述与核心价值最近在折腾一个智能门禁的原型,核心需求很简单:用一块便宜的ESP32 CAM开发板,实现本地人脸识别,并且把识别结果(比如是谁、什么时候出现的)实时推送到我的智能家居中枢。这听起来像是…

作者头像 李华