05-20 · LLM 最新论文速览-编程实验室

今日候选池94篇，硬过滤 + LLM 打分后通过评估18篇，精选 Top-10，另列 8 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration

评分8.7·方向cs.CL · Computation and Language ·arxiv2605.20022· PDF

💡 提出 FlexDraft 并用 attention tuning 与 bonus-guided calibration 提升并行 speculative decoding 的接受率和大 batch 吞吐。

推理加速speculative decoding并行解码

摘要：FlexDraft 针对并行 speculative decoding 在大 batch 下接受率下降、bonus token 与接受长度不确定导致吞吐崩塌的问题，提出一种无损加速框架。方法包括：仅微调末层 attention projector，实现高质量 block diffusion drafting；用 bonus-guided 校准缓解验证错配；并通过可随 batch 自适应的机制稳定吞吐。实验表明，FlexDraft 在不同 batch 尺度下都能保持目标分布与生成质量，同时显著提升推理吞吐，优于现有并行投机解码方法。

评分细项：rel 9.5 / nov 8.5 / prac 8.5 / author 5.0

2. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.19932· PDF

💡 提出 PEEK 上下文地图缓存，用 Distiller、Cartographer 与优先级 Evictor 压缩长期外部上下文，提升长上下文 agent 检索与推理。

长上下文Agent缓存推理优化

摘要：PEEK 面向需反复访问长上下文的 LLM agent，主张缓存的不应只是历史轨迹或原始材料，而是关于上下文本身的“定位知识”。其核心是一个常量大小的 context map，持续记录内容结构、关键实体与有用模式，并由 Distiller、Cartographer 和基于优先级的 Evictor 三模块维护。在长上下文推理、信息聚合和 context learning 任务中，PEEK 相比强基线提升 6.3%–34.0%，迭代次数更少，成本也明显低于 ACE，且可泛化到不同模型与 agent 架构。

评分细项：rel 8.8 / nov 7.8 / prac 8.5 / author 7.5

3. Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

评分8.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20164· PDF

💡 提出 POW3R，在 RLVR 中依据 rollout-level contrast 动态重加权 rubric 各准则，提升 GRPO 的奖励信息量。

LLM后训练RLVRGRPO奖励建模

摘要：论文指出，RLVR 中常见的 rubric reward 若用静态加权聚合，会混淆“人类认为重要”和“当前对优化有信号”这两件事：有些高权重标准已饱和或暂不可达，真正能区分 rollout 的标准反而被低估。为此提出 POW3R，在保持原有人类权重与类别平衡作为评测目标不变的前提下，训练时根据策略输出间的对比动态调整 criterion 级奖励权重，使 GRPO 获得更有信息量的学习信号。跨 3 个基座策略和 2 个数据集，POW3R 在大多数指标上优于 vanilla GRPO，并以 2.5–4 倍更少步数达到相近平台。

评分细项：rel 9.2 / nov 8.1 / prac 8.4 / author 5.2

4. Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents

评分7.9·方向cs.CL · Computation and Language ·arxiv2605.20061· PDF

💡 提出 ReBel，为长程 RLVR agent 显式建模 belief state，并用 belief-consistency supervision 与 belief-aware grouping 做信用分配。

RLVR长程Agent信用分配Belief State

摘要：ReBel 面向部分可观测环境中的长时程 LLM agent，认为困难不只在动作选择，更在于信念状态会随不完整观测逐步漂移，导致延迟奖励下的 credit assignment 更难。该方法显式建模结构化 belief state 来概括交互历史，并通过 belief-consistency supervision 将预测信念与后续观测的不一致转为稠密自监督信号，无需逐步标注或外部 verifier；同时用 belief-aware grouping 在相似信念下比较轨迹，降低 advantage 估计方差。在 ALFWorld 和 WebShop 上，ReBel 相比 episode-level GRPO 最高提升 20.4 个百分点，样本效率提高 2.1 倍。

评分细项：rel 8.6 / nov 7.8 / prac 7.4 / author 5.5

5. A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents

评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2605.20173· PDF

💡 提出 stochastic-deterministic boundary 架构原语，并用 proposer/verifier/commit/reject 组合六类生产级 LLM agent 运行时模式。

多智能体Agent系统运行时架构工作流

摘要：本文从生产系统视角讨论 LLM agent 运行时架构，提出将随机模型输出与确定性软件系统之间的接口定义为 stochastic-deterministic boundary（SDB），并将其视为 agent runtime 的核心原语。围绕 SDB，作者整理出 Coordination、State、Control 三类设计关注点，以及 6 种可组合的运行时模式，覆盖对话式、自主式和长时程 agent。论文进一步给出一套 5 步模式选择方法、将线上故障映射到模式弱点的诊断流程，并提出 replay divergence 等新失效模式，为生产级 LLM agent 的可靠性设计提供系统化框架。

评分细项：rel 8.4 / nov 6.9 / prac 8.6 / author 5.0

6. From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

评分7.4·方向cs.CL · Computation and Language ·arxiv2605.20177· PDF

💡 将 VLM 后训练拆成视觉感知、视觉推理、文本推理三阶段，并用 RL 强化感知以提升准确率并缩短 CoT。

VLM后训练RLSFT多阶段训练

摘要：这篇论文认为，VLM 后训练的瓶颈常不在长链推理，而在视觉感知不足。作者将能力拆分为 visual perception、visual reasoning 和 textual reasoning 三阶段，使用专门数据进行分阶段训练。结果表明：视觉感知需要针对性优化，应先巩固再提升视觉推理，且用 RL 学感知比基于 caption 的 SFT 更有效。跨多个 VLM，分阶段训练优于混合训练，最终在推理准确率上提升 1.5%，同时推理链缩短 20.8%。结合传统难度课程后还能继续增益，并在多个开放权重 VLM 基准上取得领先。

评分细项：rel 7.8 / nov 7.2 / prac 7.4 / author 6.5

7. What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code

评分7.2·方向cs.AI · Artificial Intelligence ·arxiv2605.19762· PDF

💡 在10T语料受控预训练中拆分 code、code-text 与 math-text，证明结构化推理轨迹而非纯代码提升数学推理。

预训练数学推理数据配比

摘要：作者通过 10T token、细粒度域分离的预训练实验，重新检验“code 能提升通用推理”的常见说法。结果发现，纯可执行代码主要提升编程能力，并不会自然增强一般推理，甚至会挤占知识密集任务，尤其是不利于复杂数学推理。真正带来推理收益的，更像是 code-text、math-text 这类跨域的结构化推理痕迹，而非代码本身。进一步地，在固定数学预算下提高结构化数学样本密度，可显著提升高难数学推理且基本不损害编程能力；路由分析也为这种跨域竞争与协同机制提供了证据。

评分细项：rel 7.5 / nov 7.5 / prac 6.5 / author 6.5

8. AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees

评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.19260· PDF

💡 提出训练时无改动的 AQuaUI，自适应四叉树压缩 GUI 截图视觉 token，并保持多步交互时序一致性。

GUI Agent视觉token压缩推理优化

摘要：AQuaUI 针对 GUI agent 每步都需处理高分辨率截图、视觉 token 开销高的问题，提出一种无需训练的推理期 token 压缩方法。其核心是基于截图信息密度构建自适应 quadtree，对低信息区域合并、仅保留叶节点代表 token，同时保持空间位置一致，避免破坏位置编码。为增强多步交互中的时间一致性，作者还设计 conditional quadtree，利用前一帧结构帮助当前帧保留关键细粒度区域。该方法可直接接入现有 GUI agent，在降低视觉 token 数和推理成本的同时，尽量保持任务性能。

评分细项：rel 7.5 / nov 7.0 / prac 8.0 / author 5.0

9. CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

评分7.1·方向cs.CL · Computation and Language ·arxiv2605.20075· PDF

💡 提出 CopT，先生成 draft answer 再做 on-policy thinking，并用连续嵌入对比验证器估计 reverse KL 判断答案可靠性。

推理范式Agentic ReasoningCoT对比验证

摘要：本文提出 CopT，一种先答后想的推理框架，用于缓解传统 Chain-of-Thought 必须先长推理、再作答带来的时延与 token 开销，并减少“表演式推理”。CopT 先生成草稿答案，再围绕该答案进行 on-policy thinking 反思与修正；同时将连续 embedding 重写为推理时的对比式验证器，通过比较离散 token 输入与连续 embedding 输入下模型对同一输出的支持度，构造序列级 reverse KL 估计答案可靠性。若置信不足，系统再触发进一步思考，并用第二个 KL 估计器动态控制草稿可见性。实验表明，CopT 在通用推理与 agentic reasoning 中都能以更低成本获得更强或更稳健的表现。

评分细项：rel 7.4 / nov 8.2 / prac 5.8 / author 5.0

10. STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision

评分6.9·方向cs.MA · Multiagent Systems ·arxiv2605.19338· PDF

💡 提出 STAR-PólyaMath 多 agent 推理框架，用 Meta-Strategist、Reasoner-Verifier 与 challenge-step-replan 状态机做长程数学求解。

多智能体数学推理工作流

摘要：本文提出面向长程数学推理的多智能体框架 STAR-PólyaMath，旨在解决现有系统易出现的幻觉累积、记忆碎片化以及推理与工具使用失衡等问题。该方法采用由 Python orchestrator 驱动的状态机，将控制与推理解耦，通过 challenge-step-replan 循环、回溯与重规划限制错误传播；核心创新是持续存在的 Meta-Strategist，可跨尝试维护记忆，并提供高层策略或强制指令，帮助系统跳出低效循环。STAR-PólyaMath 在 8 个顶级竞赛基准上取得 SOTA，在 AIME、Putnam 和 HMMT 上满分，在 Apex 2025 上以 93.75% 显著超过 GPT-5.5 的 80.21%。

评分细项：rel 7.0 / nov 7.5 / prac 6.5 / author 6.0

📚 速览 · 其他通过评估的工作（8 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CV6.6A Nash Equilibrium Framework For Training-Free Multimodal Step Verification· 💡 把多模态逐步验证建模为多评审者的 Nash equilibrium 博弈，用闭式均衡分数做 step verification 与排序。
cs.CL7.1Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory· 💡 提出 TriMem，用原始对话片段、原子事实、综合画像三层记忆表示，并以 TextGrad 优化抽取与画像提示。
cs.CL7.1Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning· 💡 提出 AutoTool，在强化学习中以双模式推理和 mode-specific reward 学习何时调用工具、何时仅做文本推理。
cs.AI6.9Probabilistic Tiny Recursive Model· 💡 提出 PTRM，在 Tiny Recursive Model 的深递归步骤注入高斯噪声，并用 Q head 选择轨迹以扩展 test-time compute。
cs.CL6.1BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation· 💡 提出 BalanceRAG，用 sequential graphical testing 在 LLM-only 与 RAG 级联中联合校准双阈值，控制系统级风险与检索开销。
cs.CV6.2Probability-Conserving Flow Guidance· 💡 从连续性方程分解 CFG 的散度项与平行分数项，提出 Adaptive Manifold Guidance 在零额外开销下稳定 flow guidance。
cs.CV6.3TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization· 💡 提出 TideGS 的 SSD-CPU-GPU 分层 out-of-core 训练，用块虚拟化与差分流式传输在 24GB 单卡训练十亿级 3DGS。
cs.AI6.0Prior Knowledge or Search? A Study of LLM Agents in Hardware-Aware Code Optimization· 💡 通过 propose-evaluate-revise 实验解剖硬件感知代码优化 agent，比较黑盒搜索、零样本 kernel 生成与反馈闭环的行为差异。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考

05-20 · LLM 最新论文速览

🌟 精选

1. FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration

2. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

3. Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

4. Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents

5. A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents

6. From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

7. What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code

8. AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees

9. CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

10. STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision

📚 速览 · 其他通过评估的工作（8 篇）

让OpenSpec和Superpowers无缝配合的实现拆解，skill原文件全面开源

Hanime1Plugin：Android动画观影插件的完整配置指南

yolo11卫星影像与光学遥感图像船舶与飞机等检测

SES调试HPM6750找不到外设寄存器？手把手教你配置RISC-V芯片的.svd文件

N_m3u8DL-CLI-SimpleG实用指南：3分钟快速掌握M3U8视频下载

3大核心功能揭秘：AMD Ryzen SMU调试工具如何解锁CPU隐藏性能