05-21 · LLM 最新论文速览-编程实验室

今日候选池89篇，硬过滤 + LLM 打分后通过评估18篇，精选 Top-10，另列 8 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. LamPO: A Lambda Style Policy Optimization for Reasoning Language Models

评分8.4·方向cs.CL · Computation and Language ·arxiv2605.21235· PDF

💡 在 RLVR 中用 Pairwise Decomposed Advantage 替代 GRPO 组优势，并加 ROUGE-L 稠密奖励做细粒度信用分配。

RLVR后训练推理模型

摘要：针对 RLVR 中 GRPO 仅用组级标量优势、难以区分细微推理质量差异的问题，LamPO 提出成对分解优势（Pairwise Decomposed Advantage），在组内聚合候选答案的两两奖励差，并结合序列 log-prob 差异进行置信加权，保持 critic-free 与 clipped PPO 结构；有参考解时再加入基于 ROUGE-L 的稠密辅助奖励。Qwen3 与 Phi-4-mini 在 AIME、MATH-500、GPQA 上均稳定优于 GRPO，训练更稳、样本效率更高。

评分细项：rel 9.2 / nov 7.8 / prac 7.7 / author 6.0

2. Multi-agent Collaboration with State Management

评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.20563· PDF

💡 STORM在共享代码库上做状态中介与写时冲突检测，替代git worktree式隔离以降低多代理集成失败。

多智能体Coding Agent状态管理协作系统

摘要：多智能体并发修改共享代码库时，工作区隔离虽能避免直接冲突，却把问题推迟到昂贵的合并阶段。STORM 通过显式状态管理统一 agent 与共享工作区的交互，保证每个 agent 始终基于一致视图工作，并在写入时检测和解决冲突。它可无缝接入现有多智能体系统，在 Commit0 与 PaperBench 上分别较 git-worktree 基线提升 18.7 和 1.4 分，成本效率相当或更优。

评分细项：rel 9.0 / nov 7.5 / prac 8.5 / author 6.0

3. Mem-π ππ: Adaptive Memory through Learning When and What to Generate

评分8.3·方向cs.CL · Computation and Language ·arxiv2605.21463· PDF

💡 提出 Mem-π，用决策-内容解耦 RL 同时学习何时生成记忆提示与生成什么提示，替代检索式 agent memory。

agentic强化学习记忆机制

摘要：Mem-π 将 agent 记忆从“检索静态条目”改为“按需生成指导”。它使用独立于下游 agent 的语言/视觉语言模型，根据当前上下文联合学习何时生成、生成什么，并用决策—内容解耦的强化学习目标让模型在无益时选择 abstain、在需要时输出简洁有效提示。该方法在网页导航、终端工具使用和文本具身交互等基准上持续超过检索式与既有 RL 优化记忆方法，网页导航相对提升超 30%。

评分细项：rel 9.0 / nov 8.0 / prac 8.0 / author 5.0

4. Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents

评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.21347· PDF

💡 用 scout-investigator 多 agent 在轨迹语料上提假设、验假设并生成证据报告，定位 LLM agent 系统性失效模式。

multi-agentagent调试trace分析

摘要：LLM agent 失效诊断常依赖人工抽查少量轨迹，难以发现跨样本的系统性模式。Insights Generator 将问题形式化为语料级轨迹诊断：针对整批执行轨迹提出并检验假设，生成带证据的自然语言洞察报告。其 scout-investigator 多智能体架构在报告深度、证据质量和检测覆盖上表现领先；人类专家据此改进 scaffold 后，性能较原始基线提升 30.4 个百分点，编码 agent 也获得稳定增益。

评分细项：rel 9.0 / nov 7.5 / prac 8.5 / author 5.5

5. Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.21085· PDF

💡 提出β统一稀疏度/轮次/消息维度约束，并用SLIM解耦通信通道与策略隐表示以稳住带宽受限MARL性能。

多智能体MARL通信约束带宽优化

摘要：面向带宽受限的 MARL，作者指出许多通信架构把策略表示与通信消息耦合，压缩带宽会连带削弱策略能力。为此提出统一约束指标 β，将稀疏度、通信轮数和消息维度归一化比较；并设计 SLIM，将通信路径与策略潜表示解耦，在保留步内通信的同时隔离带宽与策略容量的影响。该方法在多个部分可观测基准上达到 SOTA，并在低带宽下仅有轻微性能下降。

评分细项：rel 8.5 / nov 7.5 / prac 7.0 / author 5.0

6. PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2605.21427· PDF

💡 PALS 在 vLLM 中联合调节 GPU 功耗上限与 batch size，为 MoE 服务在功率约束下提升能效与 QoS。

LLM servingMoE推理优化能效

摘要：针对数据中心中 LLM 推理高能耗、现有服务系统很少把 GPU 功率当作可控变量的问题，PALS 将 power cap 与 batch size 等软件参数联合优化。系统结合轻量离线功耗—性能模型与反馈控制器，在满足吞吐目标的同时提升能效；已集成到 vLLM，无需重训或改 API。跨多 GPU、dense 与 MoE 模型实验显示，PALS 最高提升 26.3% 能效，在功率受限下将 QoS 违约降低 4 到 7 倍，并可跟踪动态功率预算。

评分细项：rel 8.5 / nov 7.0 / prac 9.0 / author 5.5

7. AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions

评分7.7·方向cs.AI · Artificial Intelligence ·arxiv2605.21082· PDF

💡 AutoRPA 用 translator-builder 管线把 ReAct 交互轨迹蒸馏成 RPA 函数，并用执行校验加回退修复代码。

GUI agentRPA代码合成agentic workflow

摘要：ReAct 式 GUI agent 适合复杂交互，但对重复性任务反复调用 LLM 推理成本过高；传统 RPA 高效，却依赖大量人工开发。AutoRPA 试图把 ReAct agent 的决策逻辑自动蒸馏为可复用 RPA 函数：先由 translator-builder 流水线把硬编码动作转成软编码过程，再基于多轨迹检索增强生成稳健代码，并在验证阶段结合 RPA 执行与 ReAct 回退进行修复。实验表明，其生成函数在相似 GUI 任务上可用，并将 token 消耗降低 82%–96%。

评分细项：rel 8.0 / nov 7.5 / prac 8.5 / author 5.0

8. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.20834· PDF

💡 证明DPO与RLHF等价需满足隐藏偏好假设，并给出带约束的CPO以避免偏好反转式收敛。

LLM后训练DPORLHF

摘要：本文证明 DPO 与 RLHF 的“等价性”并非普适，而依赖一个常被违背的隐含假设：RLHF 最优策略必须偏好人类偏好回答。假设失效时，DPO 实际优化的是相对参考策略的优势，可能在 DPO loss 下降的同时更偏向劣质回答。作者刻画了该失效条件与不良解空间，并提出带约束的偏好优化 CPO，为对齐提供可证明保证；几何上将 DPO 解释为目标可能为负的 soft margin ranking。实验显示 CPO 达到 SOTA。

评分细项：rel 8.4 / nov 7.6 / prac 6.3 / author 5.0

9. Declarative Data Services: Structured Agentic Discovery for Composing Data Systems

评分7.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20690· PDF

💡 用四层typed contract把agentic search分解为意图、算子DAG、系统技能与运行时归因，组合数据后端。

agentic workflow数据系统多系统编排

摘要：论文关注将 agentic discovery 用于多系统数据后端组合时，因搜索空间异构、验证依赖真实部署、预训练缺少组合知识而难以收敛。作者提出 Declarative Data Services (DDS)，以意图、算子 DAG、系统技能和运行时归因四层 typed contract 将全局搜索拆为有界子搜索，并用内联技能引用前传知识、typed 信号回传错误。在交易后端任务上，DDS 能收敛到可运行栈，且运行失败可沉淀为后续部署可复用的 skill patch。

评分细项：rel 8.0 / nov 7.0 / prac 7.9 / author 5.0

10. Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.20630· PDF

💡 提出时序语义缓存、工具发现缓存和依赖感知并行执行，加速 plan-execute agent 流水线。

agentic workflow缓存推理加速

摘要：针对工业资产运维中 plan-execute agent 流水线延迟高的问题，作者在 AssetOpsBench 上评估发现，传统 KV cache 复用和基于 embedding 的 semantic caching 会因时间、设备与传感器参数变化而失效。论文提出 temporal semantic cache，并结合 MCP 工作流优化，如磁盘支持的工具发现缓存和依赖感知并行执行。实验显示，工作流优化带来 1.67x 加速、端到端中位延迟下降约 40%，cache 命中时中位加速达 30.6x，并揭示纯语义缓存对参数密集查询的可靠性风险。

评分细项：rel 7.6 / nov 6.8 / prac 8.2 / author 5.0

📚 速览 · 其他通过评估的工作（8 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

q-fin.PM7.5Continuous Timing Signals for Growth-Defensive Style Allocation: Factor Attribution, Risk Matching, and Out-of-Sample Evidence· 💡 将 rate relief、VIX 缓释和 drawdown 信号经 softplus+tanh 映射为 G/D 风格轮动权重。
q-fin.PM7.0Portfolio Preference Elicitation in Institutional Crossing Markets· 💡 在机构 crossing 市场中联合 price-directed demand query 和 value query，做组合级偏好 elicitation。
cs.MA6.7What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems· 💡 分析代理间传递的reasoning与verification信息，并用CARA强制补全关键字段恢复失败协作轨迹。
cs.AI6.8Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards· 💡 提出g^car在flow/diffusion引导采样中检测并化解梯度冲突，减少多奖励组合时的off-manifold drift。
cs.CV6.7One-Step Distillation of Discrete Diffusion Image Generators via Fixed-Point Iteration· 💡 提出Fixed-Point Distillation：对学生一步草稿做局部腐化，再用教师单步修正，并以multi-bandwidth drift loss蒸馏离散扩散。
cs.MA6.0Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development· 💡 提出Agentic Agile-V流程，用SCOPE-V闭环把仓库检索、工具调用、证明与验证串成开发管线。
cs.CV6.2Reducing Object Hallucination in LVLMs via Emphasizing Image-negative Tokens· 💡 按图像正相关、不变、负相关三类 token 重加权训练，并过滤高幻觉训练样本。
cs.CV6.0StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation· 💡 基于流式生成模型做few-step视频编辑，加入dual-branch fast sampling、self-attention bridge与cross-attention grounding。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考

05-21 · LLM 最新论文速览

🌟 精选

1. LamPO: A Lambda Style Policy Optimization for Reasoning Language Models

2. Multi-agent Collaboration with State Management

3. Mem-π ππ: Adaptive Memory through Learning When and What to Generate

4. Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents

5. Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

6. PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

7. AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions

8. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

9. Declarative Data Services: Structured Agentic Discovery for Composing Data Systems

10. Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

📚 速览 · 其他通过评估的工作（8 篇）

Angular-dragdrop项目贡献指南：从克隆到测试的完整流程

CANN Ascend C矩阵计算方向设置

异常处理函数在WebShell免杀中的实战应用：绕过安全检测的终极指南

一天一个开源项目（第107篇）：CodeGraph - 给 AI 编码代理预建代码知识图谱，省 35% 费用减少 70% 工具调用

Linux内核安全模块深入剖析【2.0】

Goya像素艺术编辑器工具详解：画笔、橡皮擦、填充等10大功能