今日候选池94篇,硬过滤 + LLM 打分后通过评估18篇,精选 Top-10,另列 8 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration
评分8.7·方向cs.CL · Computation and Language ·arxiv2605.20022· PDF
💡 提出 FlexDraft 并用 attention tuning 与 bonus-guided calibration 提升并行 speculative decoding 的接受率和大 batch 吞吐。
推理加速speculative decoding并行解码
摘要:FlexDraft 针对并行 speculative decoding 在大 batch 下接受率下降、bonus token 与接受长度不确定导致吞吐崩塌的问题,提出一种无损加速框架。方法包括:仅微调末层 attention projector,实现高质量 block diffusion drafting;用 bonus-guided 校准缓解验证错配;并通过可随 batch 自适应的机制稳定吞吐。实验表明,FlexDraft 在不同 batch 尺度下都能保持目标分布与生成质量,同时显著提升推理吞吐,优于现有并行投机解码方法。
评分细项:rel 9.5 / nov 8.5 / prac 8.5 / author 5.0
2. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents
评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.19932· PDF
💡 提出 PEEK 上下文地图缓存,用 Distiller、Cartographer 与优先级 Evictor 压缩长期外部上下文,提升长上下文 agent 检索与推理。
长上下文Agent缓存推理优化
摘要:PEEK 面向需反复访问长上下文的 LLM agent,主张缓存的不应只是历史轨迹或原始材料,而是关于上下文本身的“定位知识”。其核心是一个常量大小的 context map,持续记录内容结构、关键实体与有用模式,并由 Distiller、Cartographer 和基于优先级的 Evictor 三模块维护。在长上下文推理、信息聚合和 context learning 任务中,PEEK 相比强基线提升 6.3%–34.0%,迭代次数更少,成本也明显低于 ACE,且可泛化到不同模型与 agent 架构。
评分细项:rel 8.8 / nov 7.8 / prac 8.5 / author 7.5
3. Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
评分8.5·方向cs.AI · Artificial Intelligence ·arxiv2605.20164· PDF
💡 提出 POW3R,在 RLVR 中依据 rollout-level contrast 动态重加权 rubric 各准则,提升 GRPO 的奖励信息量。
LLM后训练RLVRGRPO奖励建模
摘要:论文指出,RLVR 中常见的 rubric reward 若用静态加权聚合,会混淆“人类认为重要”和“当前对优化有信号”这两件事:有些高权重标准已饱和或暂不可达,真正能区分 rollout 的标准反而被低估。为此提出 POW3R,在保持原有人类权重与类别平衡作为评测目标不变的前提下,训练时根据策略输出间的对比动态调整 criterion 级奖励权重,使 GRPO 获得更有信息量的学习信号。跨 3 个基座策略和 2 个数据集,POW3R 在大多数指标上优于 vanilla GRPO,并以 2.5–4 倍更少步数达到相近平台。
评分细项:rel 9.2 / nov 8.1 / prac 8.4 / author 5.2
4. Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents
评分7.9·方向cs.CL · Computation and Language ·arxiv2605.20061· PDF
💡 提出 ReBel,为长程 RLVR agent 显式建模 belief state,并用 belief-consistency supervision 与 belief-aware grouping 做信用分配。
RLVR长程Agent信用分配Belief State
摘要:ReBel 面向部分可观测环境中的长时程 LLM agent,认为困难不只在动作选择,更在于信念状态会随不完整观测逐步漂移,导致延迟奖励下的 credit assignment 更难。该方法显式建模结构化 belief state 来概括交互历史,并通过 belief-consistency supervision 将预测信念与后续观测的不一致转为稠密自监督信号,无需逐步标注或外部 verifier;同时用 belief-aware grouping 在相似信念下比较轨迹,降低 advantage 估计方差。在 ALFWorld 和 WebShop 上,ReBel 相比 episode-level GRPO 最高提升 20.4 个百分点,样本效率提高 2.1 倍。
评分细项:rel 8.6 / nov 7.8 / prac 7.4 / author 5.5
5. A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents
评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2605.20173· PDF
💡 提出 stochastic-deterministic boundary 架构原语,并用 proposer/verifier/commit/reject 组合六类生产级 LLM agent 运行时模式。
多智能体Agent系统运行时架构工作流
摘要:本文从生产系统视角讨论 LLM agent 运行时架构,提出将随机模型输出与确定性软件系统之间的接口定义为 stochastic-deterministic boundary(SDB),并将其视为 agent runtime 的核心原语。围绕 SDB,作者整理出 Coordination、State、Control 三类设计关注点,以及 6 种可组合的运行时模式,覆盖对话式、自主式和长时程 agent。论文进一步给出一套 5 步模式选择方法、将线上故障映射到模式弱点的诊断流程,并提出 replay divergence 等新失效模式,为生产级 LLM agent 的可靠性设计提供系统化框架。
评分细项:rel 8.4 / nov 6.9 / prac 8.6 / author 5.0
6. From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models
评分7.4·方向cs.CL · Computation and Language ·arxiv2605.20177· PDF
💡 将 VLM 后训练拆成视觉感知、视觉推理、文本推理三阶段,并用 RL 强化感知以提升准确率并缩短 CoT。
VLM后训练RLSFT多阶段训练
摘要:这篇论文认为,VLM 后训练的瓶颈常不在长链推理,而在视觉感知不足。作者将能力拆分为 visual perception、visual reasoning 和 textual reasoning 三阶段,使用专门数据进行分阶段训练。结果表明:视觉感知需要针对性优化,应先巩固再提升视觉推理,且用 RL 学感知比基于 caption 的 SFT 更有效。跨多个 VLM,分阶段训练优于混合训练,最终在推理准确率上提升 1.5%,同时推理链缩短 20.8%。结合传统难度课程后还能继续增益,并在多个开放权重 VLM 基准上取得领先。
评分细项:rel 7.8 / nov 7.2 / prac 7.4 / author 6.5
7. What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code
评分7.2·方向cs.AI · Artificial Intelligence ·arxiv2605.19762· PDF
💡 在10T语料受控预训练中拆分 code、code-text 与 math-text,证明结构化推理轨迹而非纯代码提升数学推理。
预训练数学推理数据配比
摘要:作者通过 10T token、细粒度域分离的预训练实验,重新检验“code 能提升通用推理”的常见说法。结果发现,纯可执行代码主要提升编程能力,并不会自然增强一般推理,甚至会挤占知识密集任务,尤其是不利于复杂数学推理。真正带来推理收益的,更像是 code-text、math-text 这类跨域的结构化推理痕迹,而非代码本身。进一步地,在固定数学预算下提高结构化数学样本密度,可显著提升高难数学推理且基本不损害编程能力;路由分析也为这种跨域竞争与协同机制提供了证据。
评分细项:rel 7.5 / nov 7.5 / prac 6.5 / author 6.5
8. AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees
评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.19260· PDF
💡 提出训练时无改动的 AQuaUI,自适应四叉树压缩 GUI 截图视觉 token,并保持多步交互时序一致性。
GUI Agent视觉token压缩推理优化
摘要:AQuaUI 针对 GUI agent 每步都需处理高分辨率截图、视觉 token 开销高的问题,提出一种无需训练的推理期 token 压缩方法。其核心是基于截图信息密度构建自适应 quadtree,对低信息区域合并、仅保留叶节点代表 token,同时保持空间位置一致,避免破坏位置编码。为增强多步交互中的时间一致性,作者还设计 conditional quadtree,利用前一帧结构帮助当前帧保留关键细粒度区域。该方法可直接接入现有 GUI agent,在降低视觉 token 数和推理成本的同时,尽量保持任务性能。
评分细项:rel 7.5 / nov 7.0 / prac 8.0 / author 5.0
9. CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning
评分7.1·方向cs.CL · Computation and Language ·arxiv2605.20075· PDF
💡 提出 CopT,先生成 draft answer 再做 on-policy thinking,并用连续嵌入对比验证器估计 reverse KL 判断答案可靠性。
推理范式Agentic ReasoningCoT对比验证
摘要:本文提出 CopT,一种先答后想的推理框架,用于缓解传统 Chain-of-Thought 必须先长推理、再作答带来的时延与 token 开销,并减少“表演式推理”。CopT 先生成草稿答案,再围绕该答案进行 on-policy thinking 反思与修正;同时将连续 embedding 重写为推理时的对比式验证器,通过比较离散 token 输入与连续 embedding 输入下模型对同一输出的支持度,构造序列级 reverse KL 估计答案可靠性。若置信不足,系统再触发进一步思考,并用第二个 KL 估计器动态控制草稿可见性。实验表明,CopT 在通用推理与 agentic reasoning 中都能以更低成本获得更强或更稳健的表现。
评分细项:rel 7.4 / nov 8.2 / prac 5.8 / author 5.0
10. STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision
评分6.9·方向cs.MA · Multiagent Systems ·arxiv2605.19338· PDF
💡 提出 STAR-PólyaMath 多 agent 推理框架,用 Meta-Strategist、Reasoner-Verifier 与 challenge-step-replan 状态机做长程数学求解。
多智能体数学推理工作流
摘要:本文提出面向长程数学推理的多智能体框架 STAR-PólyaMath,旨在解决现有系统易出现的幻觉累积、记忆碎片化以及推理与工具使用失衡等问题。该方法采用由 Python orchestrator 驱动的状态机,将控制与推理解耦,通过 challenge-step-replan 循环、回溯与重规划限制错误传播;核心创新是持续存在的 Meta-Strategist,可跨尝试维护记忆,并提供高层策略或强制指令,帮助系统跳出低效循环。STAR-PólyaMath 在 8 个顶级竞赛基准上取得 SOTA,在 AIME、Putnam 和 HMMT 上满分,在 Apex 2025 上以 93.75% 显著超过 GPT-5.5 的 80.21%。
评分细项:rel 7.0 / nov 7.5 / prac 6.5 / author 6.0
📚 速览 · 其他通过评估的工作(8 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
cs.CV6.6A Nash Equilibrium Framework For Training-Free Multimodal Step Verification· 💡 把多模态逐步验证建模为多评审者的 Nash equilibrium 博弈,用闭式均衡分数做 step verification 与排序。cs.CL7.1Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory· 💡 提出 TriMem,用原始对话片段、原子事实、综合画像三层记忆表示,并以 TextGrad 优化抽取与画像提示。cs.CL7.1Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning· 💡 提出 AutoTool,在强化学习中以双模式推理和 mode-specific reward 学习何时调用工具、何时仅做文本推理。cs.AI6.9Probabilistic Tiny Recursive Model· 💡 提出 PTRM,在 Tiny Recursive Model 的深递归步骤注入高斯噪声,并用 Q head 选择轨迹以扩展 test-time compute。cs.CL6.1BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation· 💡 提出 BalanceRAG,用 sequential graphical testing 在 LLM-only 与 RAG 级联中联合校准双阈值,控制系统级风险与检索开销。cs.CV6.2Probability-Conserving Flow Guidance· 💡 从连续性方程分解 CFG 的散度项与平行分数项,提出 Adaptive Manifold Guidance 在零额外开销下稳定 flow guidance。cs.CV6.3TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization· 💡 提出 TideGS 的 SSD-CPU-GPU 分层 out-of-core 训练,用块虚拟化与差分流式传输在 24GB 单卡训练十亿级 3DGS。cs.AI6.0Prior Knowledge or Search? A Study of LLM Agents in Hardware-Aware Code Optimization· 💡 通过 propose-evaluate-revise 实验解剖硬件感知代码优化 agent,比较黑盒搜索、零样本 kernel 生成与反馈闭环的行为差异。
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考