news 2026/6/15 20:03:25

阿里:扩散模型强化学习框架d-TreeRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里:扩散模型强化学习框架d-TreeRPO

📖标题:d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models
🌐来源:arXiv, 2512.09675

🌟摘要

用于扩散大型语言模型 (dLLM) 的可靠强化学习 (RL) 需要准确优势估计和预测概率的精确估计。现有的 dLLM 的 RL 方法在两个方面都很短:它们依赖于粗略或不可验证的奖励信号,并且它们在不考虑相对于正确集成所有可能的解码顺序的真实无偏预期预测概率的偏差的情况下估计预测概率。为了缓解这些问题,我们提出了 d-TreeRPO,这是一种可靠的 dLLM RL 框架,它利用基于可验证结果奖励的树结构推出和自下而上的优势计算来提供细粒度和可验证的逐步奖励信号。在从父节点估计条件转移概率到子节点时,我们从理论上分析了无偏期望预测概率与通过单次前向传递获得的估计之间的估计误差,发现较高的预测置信度会导致较低的估计误差。在该分析的指导下,我们在训练期间引入了一个时间调度的自蒸馏损失,以增强后期训练阶段的预测置信度,从而实现更准确的概率估计和改进的收敛性。实验表明,d-TreeRPO 优于现有的基线,并在多个推理基准上获得了显着的收益,包括 Sudoku 上的 +86.2、Countdown 上的 +51.6、GSM8K 上的 +4.5 和 Math500 上的 +5.3。消融研究和计算成本分析进一步证明了我们设计选择的有效性和实用性。

🛎️文章简介

🔸研究问题:如何提高扩散语言模型(dLLM)在强化学习中的策略优化的可靠性?
🔸主要贡献:论文提出了d-TreeRPO,一个更可靠的策略优化算法,通过提供细粒度的可验证奖励和更准确的概率估计,提高了扩散语言模型的表现。

📝重点思路

🔸引入树结构的强化学习机制,将去噪过程分解为层次化的步骤,以便实现可验证的过程奖励。
🔸通过单次前向传播估计父子节点之间的条件转移对数概率,以提高计算效率。
🔸设计时间调度的自蒸馏损失机制,随着训练的进展,逐步增强模型的确定性,降低估计误差。
🔸实现了完整的d-TreeRPO损失函数和端到端的训练工作流程。

🔎分析总结

🔸d-TreeRPO在多个推理基准上显著优于现有的dLLM RL方法,具体包括在数独等任务上提高了多达86.2%。
🔸细粒度奖励设计有效减少了奖励黑客风险,使得强化学习的优势估计更加可靠。
🔸实验结果表明,自蒸馏损失在训练过程中显著加速了模型的收敛过程,提高了最终的性能和稳定性。
🔸对比分析显示,d-TreeRPO在计算成本和性能之间提供了良好的平衡,相较于其他方法具备实用性。

💡个人观点

论文的创新点在于将树结构与时间调度的自蒸馏机制结合,建立可验证的奖励信号和精准的转移概率估计。

🧩附录

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 1:07:55

矩阵在图像处理中的5个实际应用案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个图像处理Web应用,展示矩阵在图像处理中的应用。功能包括:1) 基于矩阵卷积的图像滤镜(模糊、锐化等) 2) 灰度转换的矩阵运算 3) 简单的边缘检测算法。…

作者头像 李华
网站建设 2026/6/15 13:10:56

CVAT终极安装指南:从零到专家的完整部署手册

还在为机器学习数据标注而烦恼吗?想要一款既专业又易用的标注工具?今天我要向您推荐CVAT——这款被誉为计算机视觉领域多功能工具的开源神器。无论您是个人开发者还是团队负责人,CVAT都能让您的数据标注工作变得轻松高效。 【免费下载链接】c…

作者头像 李华
网站建设 2026/6/15 6:23:15

Android高级RecyclerView侧滑操作终极指南

Android高级RecyclerView侧滑操作终极指南 【免费下载链接】android-advancedrecyclerview RecyclerView extension library which provides advanced features. (ex. Googles Inbox app like swiping, Play Music app like drag and drop sorting) 项目地址: https://gitcod…

作者头像 李华
网站建设 2026/6/15 15:02:10

3分钟搞定Git账号切换:效率提升500%的秘诀

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 制作一个极简Git账号切换效率工具,核心功能:1.基准测试不同切换方法耗时 2.提供最优切换方案比较 3.生成一键切换脚本 4.内置常用配置模板 5.操作耗时统计面…

作者头像 李华
网站建设 2026/6/15 9:59:38

贴吧 Lite 终极指南:如何用轻量客户端重获清爽贴吧体验

贴吧 Lite 终极指南:如何用轻量客户端重获清爽贴吧体验 【免费下载链接】TiebaLite 贴吧 Lite 项目地址: https://gitcode.com/gh_mirrors/tieb/TiebaLite 还在为官方贴吧应用的卡顿和广告困扰吗?贴吧 Lite 作为一款革命性的轻量级贴吧客户端&…

作者头像 李华
网站建设 2026/6/14 20:25:51

5步实现Qdrant混合搜索:从新手到专家的完整指南

5步实现Qdrant混合搜索:从新手到专家的完整指南 【免费下载链接】qdrant Qdrant - 针对下一代人工智能的高性能、大规模向量数据库。同时提供云端版本 项目地址: https://gitcode.com/GitHub_Trending/qd/qdrant 还在为单一向量搜索效果不佳而烦恼吗&#xf…

作者头像 李华