美团：去相关奖励优化多目标学习-编程实验室

📖标题：Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization
🌐来源：arXiv, 2605.13641v1

🛎️文章简介
🔸研究问题：在多任务混合奖励的强化学习环境中，如何克服异构奖励分布差异大及维度间相关性高导致的标量优势构建不稳定问题？
🔸主要贡献：论文提出了奖励去相关策略优化（RDPO）方法，通过两级处理流程显著提升了大模型在后训练阶段的指令遵循、写作质量及鲁棒性。

📝重点思路
🔸提出幅度感知分位数归一化（MAQ），利用对数压缩间隙和逆正态映射，将不同量纲和分布的奖励转化为统一尺度，解决二元、离散及连续奖励混合时的异常值敏感问题。
🔸引入马氏白化技术，在活跃奖励子空间内计算协方差矩阵并进行特征分解，去除共现奖励维度间的冗余信息，避免相同变异被重复计算。
🔸设计有效信息效率指标，从投影均衡性和相关性冗余两个维度量化评估混合奖励聚合质量，指导算法优化方向。
🔸采用指数移动平均在线估计协方差，并仅对当前任务实际观测到的奖励子空间进行局部白化，适应多任务场景下奖励信号动态变化的特性。

🔎分析总结
🔸实验表明 MAQ 能有效降低单条 rollout 主导提示级优势分配的概率，显著提高有效 rollout 参与度，使策略更新更稳定。
🔸马氏白化处理成功降低了代码生成、数学推理等任务子空间内的奖励皮尔逊相关系数，减少了有效信息的冗余损耗。
🔸在 LongCat-Flash 后训练中，RDPO 在 IFEval、WritingBench 及 ArenaHard 等高难度基准上均优于 GRPO 和 GDPO 基线。
🔸组件消融实验证实，归一化与白化模块具有互补效应，前者改善分布敏感型指标，后者提升相关性敏感型任务表现。

💡个人观点
论文发现混合奖励中“尺度不均”与“信息冗余”两大痛点，引入统计学中的马氏距离概念进行动态去相关，结合鲁棒的分位数归一化，巧妙地将复杂的异构信号转化为高质量的优势估计。

AI时代的孩子怎么学？北京101中学引入AI助教，老师说“终于有时间备课了“

一、AI助教走进课堂 2026年5月，北京101中学迎来了一位特殊的"新老师"——AI助教。这位AI助教不吃不喝，不用休息，却能同时处理200个学生的作业批改、个性化练习生成、学习情况分析。上线一个月，数据说话：教师工作量减少：60% 学生作业批改时间：从2小时缩…

李华

全世界航司都在学廉航？航空市场这是怎么了？

这些年，伴随着航空产业的高速发展，越来越多的人已经开始习惯出门坐飞机了，然而就在最近有媒体曝出最近全世界的航司都快成廉航了，这到底是怎么回事？航空市场又发生了什么？一、全世界的航司都快成廉航了&…

李华

980nm泵浦EDFA增益建模MATLAB仿真包：含RK4求解器与多波长信号分析模块

本文还有配套的精品资源，点击获取简介：这个MATLAB仿真包专为掺铒光纤放大器（EDFA）在980nm泵浦条件下的增益行为建模设计，适用于教学演示和基础科研场景。主程序main_980q_dan_ns.m调用一系列物理意义明确的子函数—…

李华

LinkSwift：终极网盘直链下载助手，彻底告别下载限速烦恼

LinkSwift：终极网盘直链下载助手，彻底告别下载限速烦恼【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动…

李华

MAA_Punish：战双帕弥什玩家的终极智能自动化助手

MAA_Punish：战双帕弥什玩家的终极智能自动化助手【免费下载链接】MAA_Punish 战双帕弥什每日任务自动化 | Assistant For Punishing Gray Raven 项目地址: https://gitcode.com/gh_mirrors/ma/MAA_Punish 在《战双帕弥什》这款深受玩家喜爱的动作角色扮演游…

李华

ESP32-CAM本地人脸识别与MQTT智能家居集成实战

1. 项目概述与核心价值最近在折腾一个智能门禁的原型，核心需求很简单：用一块便宜的ESP32 CAM开发板，实现本地人脸识别，并且把识别结果（比如是谁、什么时候出现的）实时推送到我的智能家居中枢。这听起来像是…

李华