news 2026/5/21 23:12:36

05-21 · LLM 最新论文速览

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
05-21 · LLM 最新论文速览

今日候选池89篇,硬过滤 + LLM 打分后通过评估18篇,精选 Top-10,另列 8 篇速览。

关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1. LamPO: A Lambda Style Policy Optimization for Reasoning Language Models

评分8.4·方向cs.CL · Computation and Language ·arxiv2605.21235· PDF

💡 在 RLVR 中用 Pairwise Decomposed Advantage 替代 GRPO 组优势,并加 ROUGE-L 稠密奖励做细粒度信用分配。

RLVR后训练推理模型

摘要:针对 RLVR 中 GRPO 仅用组级标量优势、难以区分细微推理质量差异的问题,LamPO 提出成对分解优势(Pairwise Decomposed Advantage),在组内聚合候选答案的两两奖励差,并结合序列 log-prob 差异进行置信加权,保持 critic-free 与 clipped PPO 结构;有参考解时再加入基于 ROUGE-L 的稠密辅助奖励。Qwen3 与 Phi-4-mini 在 AIME、MATH-500、GPQA 上均稳定优于 GRPO,训练更稳、样本效率更高。

评分细项:rel 9.2 / nov 7.8 / prac 7.7 / author 6.0

2. Multi-agent Collaboration with State Management

评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.20563· PDF

💡 STORM在共享代码库上做状态中介与写时冲突检测,替代git worktree式隔离以降低多代理集成失败。

多智能体Coding Agent状态管理协作系统

摘要:多智能体并发修改共享代码库时,工作区隔离虽能避免直接冲突,却把问题推迟到昂贵的合并阶段。STORM 通过显式状态管理统一 agent 与共享工作区的交互,保证每个 agent 始终基于一致视图工作,并在写入时检测和解决冲突。它可无缝接入现有多智能体系统,在 Commit0 与 PaperBench 上分别较 git-worktree 基线提升 18.7 和 1.4 分,成本效率相当或更优。

评分细项:rel 9.0 / nov 7.5 / prac 8.5 / author 6.0

3. Mem-π ππ: Adaptive Memory through Learning When and What to Generate

评分8.3·方向cs.CL · Computation and Language ·arxiv2605.21463· PDF

💡 提出 Mem-π,用决策-内容解耦 RL 同时学习何时生成记忆提示与生成什么提示,替代检索式 agent memory。

agentic强化学习记忆机制

摘要:Mem-π 将 agent 记忆从“检索静态条目”改为“按需生成指导”。它使用独立于下游 agent 的语言/视觉语言模型,根据当前上下文联合学习何时生成、生成什么,并用决策—内容解耦的强化学习目标让模型在无益时选择 abstain、在需要时输出简洁有效提示。该方法在网页导航、终端工具使用和文本具身交互等基准上持续超过检索式与既有 RL 优化记忆方法,网页导航相对提升超 30%。

评分细项:rel 9.0 / nov 8.0 / prac 8.0 / author 5.0

4. Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents

评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.21347· PDF

💡 用 scout-investigator 多 agent 在轨迹语料上提假设、验假设并生成证据报告,定位 LLM agent 系统性失效模式。

multi-agentagent调试trace分析

摘要:LLM agent 失效诊断常依赖人工抽查少量轨迹,难以发现跨样本的系统性模式。Insights Generator 将问题形式化为语料级轨迹诊断:针对整批执行轨迹提出并检验假设,生成带证据的自然语言洞察报告。其 scout-investigator 多智能体架构在报告深度、证据质量和检测覆盖上表现领先;人类专家据此改进 scaffold 后,性能较原始基线提升 30.4 个百分点,编码 agent 也获得稳定增益。

评分细项:rel 9.0 / nov 7.5 / prac 8.5 / author 5.5

5. Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.21085· PDF

💡 提出β统一稀疏度/轮次/消息维度约束,并用SLIM解耦通信通道与策略隐表示以稳住带宽受限MARL性能。

多智能体MARL通信约束带宽优化

摘要:面向带宽受限的 MARL,作者指出许多通信架构把策略表示与通信消息耦合,压缩带宽会连带削弱策略能力。为此提出统一约束指标 β,将稀疏度、通信轮数和消息维度归一化比较;并设计 SLIM,将通信路径与策略潜表示解耦,在保留步内通信的同时隔离带宽与策略容量的影响。该方法在多个部分可观测基准上达到 SOTA,并在低带宽下仅有轻微性能下降。

评分细项:rel 8.5 / nov 7.5 / prac 7.0 / author 5.0

6. PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2605.21427· PDF

💡 PALS 在 vLLM 中联合调节 GPU 功耗上限与 batch size,为 MoE 服务在功率约束下提升能效与 QoS。

LLM servingMoE推理优化能效

摘要:针对数据中心中 LLM 推理高能耗、现有服务系统很少把 GPU 功率当作可控变量的问题,PALS 将 power cap 与 batch size 等软件参数联合优化。系统结合轻量离线功耗—性能模型与反馈控制器,在满足吞吐目标的同时提升能效;已集成到 vLLM,无需重训或改 API。跨多 GPU、dense 与 MoE 模型实验显示,PALS 最高提升 26.3% 能效,在功率受限下将 QoS 违约降低 4 到 7 倍,并可跟踪动态功率预算。

评分细项:rel 8.5 / nov 7.0 / prac 9.0 / author 5.5

7. AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions

评分7.7·方向cs.AI · Artificial Intelligence ·arxiv2605.21082· PDF

💡 AutoRPA 用 translator-builder 管线把 ReAct 交互轨迹蒸馏成 RPA 函数,并用执行校验加回退修复代码。

GUI agentRPA代码合成agentic workflow

摘要:ReAct 式 GUI agent 适合复杂交互,但对重复性任务反复调用 LLM 推理成本过高;传统 RPA 高效,却依赖大量人工开发。AutoRPA 试图把 ReAct agent 的决策逻辑自动蒸馏为可复用 RPA 函数:先由 translator-builder 流水线把硬编码动作转成软编码过程,再基于多轨迹检索增强生成稳健代码,并在验证阶段结合 RPA 执行与 ReAct 回退进行修复。实验表明,其生成函数在相似 GUI 任务上可用,并将 token 消耗降低 82%–96%。

评分细项:rel 8.0 / nov 7.5 / prac 8.5 / author 5.0

8. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.20834· PDF

💡 证明DPO与RLHF等价需满足隐藏偏好假设,并给出带约束的CPO以避免偏好反转式收敛。

LLM后训练DPORLHF

摘要:本文证明 DPO 与 RLHF 的“等价性”并非普适,而依赖一个常被违背的隐含假设:RLHF 最优策略必须偏好人类偏好回答。假设失效时,DPO 实际优化的是相对参考策略的优势,可能在 DPO loss 下降的同时更偏向劣质回答。作者刻画了该失效条件与不良解空间,并提出带约束的偏好优化 CPO,为对齐提供可证明保证;几何上将 DPO 解释为目标可能为负的 soft margin ranking。实验显示 CPO 达到 SOTA。

评分细项:rel 8.4 / nov 7.6 / prac 6.3 / author 5.0

9. Declarative Data Services: Structured Agentic Discovery for Composing Data Systems

评分7.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20690· PDF

💡 用四层typed contract把agentic search分解为意图、算子DAG、系统技能与运行时归因,组合数据后端。

agentic workflow数据系统多系统编排

摘要:论文关注将 agentic discovery 用于多系统数据后端组合时,因搜索空间异构、验证依赖真实部署、预训练缺少组合知识而难以收敛。作者提出 Declarative Data Services (DDS),以意图、算子 DAG、系统技能和运行时归因四层 typed contract 将全局搜索拆为有界子搜索,并用内联技能引用前传知识、typed 信号回传错误。在交易后端任务上,DDS 能收敛到可运行栈,且运行失败可沉淀为后续部署可复用的 skill patch。

评分细项:rel 8.0 / nov 7.0 / prac 7.9 / author 5.0

10. Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.20630· PDF

💡 提出时序语义缓存、工具发现缓存和依赖感知并行执行,加速 plan-execute agent 流水线。

agentic workflow缓存推理加速

摘要:针对工业资产运维中 plan-execute agent 流水线延迟高的问题,作者在 AssetOpsBench 上评估发现,传统 KV cache 复用和基于 embedding 的 semantic caching 会因时间、设备与传感器参数变化而失效。论文提出 temporal semantic cache,并结合 MCP 工作流优化,如磁盘支持的工具发现缓存和依赖感知并行执行。实验显示,工作流优化带来 1.67x 加速、端到端中位延迟下降约 40%,cache 命中时中位加速达 30.6x,并揭示纯语义缓存对参数密集查询的可靠性风险。

评分细项:rel 7.6 / nov 6.8 / prac 8.2 / author 5.0


📚 速览 · 其他通过评估的工作(8 篇)

一句话扫读,按评分从高到低;点击标题跳转 arxiv。

  1. q-fin.PM7.5Continuous Timing Signals for Growth-Defensive Style Allocation: Factor Attribution, Risk Matching, and Out-of-Sample Evidence· 💡 将 rate relief、VIX 缓释和 drawdown 信号经 softplus+tanh 映射为 G/D 风格轮动权重。

  2. q-fin.PM7.0Portfolio Preference Elicitation in Institutional Crossing Markets· 💡 在机构 crossing 市场中联合 price-directed demand query 和 value query,做组合级偏好 elicitation。

  3. cs.MA6.7What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems· 💡 分析代理间传递的reasoning与verification信息,并用CARA强制补全关键字段恢复失败协作轨迹。

  4. cs.AI6.8Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards· 💡 提出g^car在flow/diffusion引导采样中检测并化解梯度冲突,减少多奖励组合时的off-manifold drift。

  5. cs.CV6.7One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration· 💡 提出Fixed-Point Distillation:对学生一步草稿做局部腐化,再用教师单步修正,并以multi-bandwidth drift loss蒸馏离散扩散。

  6. cs.MA6.0Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development· 💡 提出Agentic Agile-V流程,用SCOPE-V闭环把仓库检索、工具调用、证明与验证串成开发管线。

  7. cs.CV6.2Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens· 💡 按图像正相关、不变、负相关三类 token 重加权训练,并过滤高幻觉训练样本。

  8. cs.CV6.0StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation· 💡 基于流式生成模型做few-step视频编辑,加入dual-branch fast sampling、self-attention bridge与cross-attention grounding。


数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 23:11:18

Angular-dragdrop项目贡献指南:从克隆到测试的完整流程

Angular-dragdrop项目贡献指南:从克隆到测试的完整流程 【免费下载链接】angular-dragdrop Implementing jQueryUI Drag and Drop functionality in AngularJS (with Animation) is easier than ever 项目地址: https://gitcode.com/gh_mirrors/an/angular-dragdr…

作者头像 李华
网站建设 2026/5/21 23:11:15

CANN Ascend C矩阵计算方向设置

SetTraverse 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.co…

作者头像 李华
网站建设 2026/5/21 23:08:21

Linux内核安全模块深入剖析【2.0】

3.网络 网络的基本构成是节点、端口和网卡。 (1)节点 nodecon 用来标记一个 IPv4 或 IPv6 节点。 nodecon subnet netmask node_context 举例: nodecon 127.0.0.1 255.255.255.255 system_u:object_r:lo_node_t nodecon ff00:: ff00:: system…

作者头像 李华
网站建设 2026/5/21 23:08:00

Goya像素艺术编辑器工具详解:画笔、橡皮擦、填充等10大功能

Goya像素艺术编辑器工具详解:画笔、橡皮擦、填充等10大功能 【免费下载链接】goya Pixel art editor built on Clojurescript Om 项目地址: https://gitcode.com/gh_mirrors/go/goya Goya是一款基于ClojureScript和Om构建的像素艺术编辑器,专为像…

作者头像 李华