news 2026/6/3 23:35:11

ACTS:代理链式思考 Steering 用于高效且可控的 LLM 推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ACTS:代理链式思考 Steering 用于高效且可控的 LLM 推理

ACTS:代理链式思考 Steering 用于高效且可控的 LLM 推理

来源:arXiv:2606.03965
链接:https://arxiv.org/abs/2606.03965
优化日期:2026-06-01
领域:大模型推理(LLM Reasoning)、链式思考(Chain-of-Thought)、推理控制、强化学习


📌 概述与核心贡献

ACTS (Agentic Chain-of-Thought Steering)提出了一种将推理控制从“全局长度约束”转向“分步策略级控制”的新范式。传统的链式思考(CoT)虽然提高了准确率,但在推理效率上往往表现不佳,且缺乏对推理过程的精细控制。ACTS 将推理控制建模为一个马尔可夫决策过程(MDP),通过一个轻量级的控制器代理(Controller Agent)动态选择推理策略并自然语言表达(如“PLAN”或“CHECK”)来引导冻结的推理器(Reasoner)。

核心贡献:

  1. 推理即控制(Reasoning as Control):将推理过程视为 MDP,控制器在每一步选择策略并生成自然语言提示,引导推理器进行高效推理。
  • 策略集(Strategy Set):预定义了一组策略,包括UNDERSTAND(理解)、PLAN(规划)、EXECUTE(执行)、EXPLORE(探索)、CHECK(检查)、SUMMARIZE(总结)、CONCLUDE(得出结论)。
  • 异步解耦架构:控制器与推理器作为异步解耦的服务器运行,通过 HTTP 通信,有效摊销了延迟,保持了高吞吐量。

🏗️ 架构机制

推理控制作为 MDP

  • 状态 (Ht−1H_{t-1}Ht1):包含之前的动作、推理器步骤以及剩余的预算比例btb_tbt
  • 动作 (at=(ut,pt)a_t = (u_t, p_t)at=(ut,pt)):
    • ut∈Uu_t \in \mathcal{U}utU:从预定义策略集中选择的高层推理策略。
    • ptp_tpt:自由形式的自然语言引导短语,用于初始化推理器。
  • 策略集U\mathcal{U}U{UNDERSTAND, PLAN, EXECUTE, EXPLORE, CHECK, SUMMARIZE, CONCLUDE}
  • 状态转移:推理器在给定策略短语ptp_tpt的条件下生成延续sts_tst。预算更新为bt=bt−1−ℓ(zt)/Bb_t = b_{t-1} - \ell(z_t)/Bbt=bt1(zt)/B
  • 终止条件:CONCLUDE动作、<|end|>标记或最大步骤限制。

控制器与推理器的解耦

  • 异步服务器通信:控制器(Controller)和推理器(Reasoner)作为解耦的异步服务器运行(通过 SGLang),通过 HTTP 通信。
  • 吞吐量优化:这种设计摊销了延迟,保持了与直接生成(Direct Generation)相当的吞吐量。

📐 训练管线与步骤

训练阶段概览

阶段方法关键细节
1. 合成轨迹构建提取自专家轨迹使用 DeepSeek-R1 轨迹(来自 OpenR1-Math)。LLM 标注器(Qwen3-32B)将步骤分类到U\mathcal{U}U并提取引导短语。在段落边界(.\\n\\n?\\n\\n)进行分段。
2. 多预算增强重新缩放预算让控制器暴露于不同的终止 regimes:耗尽型(0%)早终止型(0-40%)全预算型。模拟不同的用户预算和题目难度。
3. 监督微调 (SFT)行为初始化最小化控制器转向损失。学习率:1e-5,批次大小:64
4. 强化学习 (GRPO)预算条件奖励塑形优化准确率与预算合规性。惩罚过度思考与过早终止。组大小:8, rollout 批次:32

预算条件奖励塑形公式

终端奖励对低效推理进行非对称惩罚:
R(τ,y^)={1+αmin⁡(bT,0),c=1 (正确答案)−α∣bT∣,c=0 (错误答案) R(\tau, \hat{y}) = \begin{cases} 1 + \alpha \min(b_T, 0), & c=1 \text{ (正确答案)} \\ -\alpha |b_T|, & c=0 \text{ (错误答案)} \end{cases}R(τ,y^)={1+αmin(bT,0),αbT,c=1(正确答案)c=0(错误答案)

  • α∈[0,1]\alpha \in [0, 1]α[0,1]控制惩罚幅度(默认0.5)。
  • bT=0b_T=0bT=0周围的10%余量可防止微小的边界超调触发惩罚。

📊 关键结果与基准测试

基准测试与模型

  • 基准:MATH-500, AIME24, AMC (2022/2023), OlympiadBench (数学子集), GPQA Diamond (科学问答)
  • 推理器评估:DeepSeek-R1-Distill-Qwen-{1.5B, 7B}, Qwen3-8B
  • 指标:准确率 (Acc), 总令牌数 (#Tok), 令牌节省 (% )

📈 性能亮点

方法MATH-500 准确率相比 Vanilla 的令牌节省AIME24 准确率相比 Vanilla 的令牌节省
Vanilla83.6%-28.0%-
ACTS (1.5B)82.8%53.3%36.7%37.9%
ACTS (7B)85.2%57.0%60.0%37.1%
ACTS (Qwen3-8B)95.2%37.0%73.3%24.7%
  • 准确率-效率折衷:ACTS 曲线严格位于 Vanilla/无思考(NoThink)插值线之上,实现了对准确率与令牌成本之间的平滑控制。
  • 泛化性:在 GPQA Diamond 上实现了+11.9% 准确率提升,且无需任何科学领域训练,归因于领域无关的过度思考校正机制。
  • 机制分析:令牌节省源于Rescue(高效纠正错误答案)和Shorten(修剪冗余验证),而非无差别的截断。回归(ACTS 错误而 Vanilla 正确)占令牌节省的<5%
  • 吞吐量:异步管道实现了~99% 的 Vanilla 吞吐量(在 1-11% 的下降范围内),优于迭代型早退出基线(如 DEER)。

📝 局限性与未来工作

  • 模型规模:评估仅限于最多 8B 的参数。扩展到 70B+ 或前沿专有模型是未来的工作。
  • 预算假设:假设推理时提供了外部预算。完全自主的自适应预算估计(例如,通过难度估计)是未来的工作。
  • 领域范围:目前主要集中在数学和科学推理,未来将扩展到其他领域。

📋 实验步骤与资源下载

实验环境配置

# 克隆 ACTS 仓库gitclone https://github.com/acts-reasoning/ACTS.gitcdACTS# 创建环境conda create-nactspython=3.10conda activate acts# 安装依赖pipinstall-rrequirements.txt# 下载预训练模型与权重bashscripts/download_models.sh

运行评估

# 运行推理控制评估python run_evaluation.py--modelQwen3-8B--benchmarkMATH-500# 运行不同预算的测试python run_evaluation.py--modelQwen3-8B--budget_ratio0.5# 生成吞吐量报告python run_throughput.py--configthroughput_config.yaml

资源下载与验证

# 下载合成轨迹数据bashscripts/download_synthetic_data.sh--sourceOpenR1-Math# 验证推理器与控制器解耦性能python verify_async_pipeline.py--controllercontroller_server.json--reasonerreasoner_server.json# 运行 GRPO 训练步骤bashscripts/run_grpo.sh--budget_conditionadaptive

🔍 领域专家总结

ACTS(Agentic Chain-of-Thought Steering)通过将推理过程建模为马尔可夫决策过程(MDP),成功解决了大语言模型在推理过程中“过度思考”(Overthinking)与资源浪费的问题。
其核心突破在于:

  1. 策略级控制(Strategy-Level Control):不再仅仅约束长度,而是通过控制器在每一步选择策略(如PLANCHECK),引导模型高效推理。
  2. 异步解耦(Asynchronous Decoupling):将控制器与推理器解耦并通过异步服务器运行,实现了高吞吐量与低延迟的平衡,吞吐量损失控制在 11% 以内。
  3. 精准惩罚机制:通过非对称的预算条件奖励塑形(Budget-Conditioned Reward Shaping),有效抑制了过度推理和过早终止,同时实现了卓越的准确率-效率折衷。

该研究为高效推理提供了一种具有高度可控性的工程化方案,特别适合资源受限且对推理延迟敏感的部署场景。


本文基于 arXiv:2606.03965v1 优化整理,保留原始实验步骤、脚本及资源链接。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 23:30:09

从模块化节点到企业级AI工作流:ComfyUI插件架构深度解析

从模块化节点到企业级AI工作流&#xff1a;ComfyUI插件架构深度解析 【免费下载链接】ComfyUI The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. 项目地址: https://gitcode.com/GitHub_Trending/co/ComfyUI 关键词&…

作者头像 李华
网站建设 2026/6/3 23:29:20

AMD Ryzen终极掌控指南:免费开源工具解锁处理器隐藏性能

AMD Ryzen终极掌控指南&#xff1a;免费开源工具解锁处理器隐藏性能 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://…

作者头像 李华
网站建设 2026/6/3 23:29:07

Python数据分析小实践:用Pandas解析你的MBTI测试结果数据

Python数据分析实战&#xff1a;用Pandas挖掘MBTI测试数据的隐藏价值MBTI性格测试作为全球最流行的心理测评工具之一&#xff0c;每年有数百万人参与测试。但大多数人只关注最终的四个字母结果&#xff0c;却忽略了测试过程中产生的丰富数据金矿。本文将带你用Python的Pandas库…

作者头像 李华
网站建设 2026/6/3 23:24:06

AI Skill 设计实战:如何为文旅 AI 客服系统设计 5 个可运行技能前言

在上一篇文章中&#xff0c;我梳理了整个课程作业的项目背景&#xff1a;围绕 OPC-08&#xff1a;AI 智能客服与推荐&#xff0c;搭建一套服务乌东村文旅项目的 AI 工作流系统。这个项目的核心不是单纯写一份旅游介绍&#xff0c;也不是让 AI 随便生成几段文案&#xff0c;而是…

作者头像 李华