news 2026/5/30 5:01:57

让模型“多想一会儿“:推理时计算扩展(Inference-Time Compute Scaling)的原理与前沿

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
让模型“多想一会儿“:推理时计算扩展(Inference-Time Compute Scaling)的原理与前沿

推理时计算扩展(Inference-Time Compute Scaling)是 2024-2026 年间 LLM 领域最重要的研究方向之一:它证明了在模型参数固定的前提下,通过增加推理时的计算量(如多次采样、自我验证、搜索策略),模型表现可以持续提升。本文拆解其核心机制——从 Best-of-N、自我一致性到过程奖励模型(PRM)引导的搜索,并讨论它如何重塑我们对"模型能力"的理解。

1. 背景:从"训练更大"到"想得更深"

过去几年,大语言模型(LLM)的能力提升主要依赖一条路径:扩大模型参数和训练数据规模——也就是所谓的"训练时计算扩展"(Training-Time Compute Scaling),以 Kaplan et al. (2020) 和 Hoffmann et al. (2022) 的 Scaling Laws 为代表。

但到了 2024 年中,一个新的范式开始浮现:如果模型已经训练好了,参数固定不动,我们还能让它的表现变得更好吗?答案出人意料地简单——可以。让模型在推理时"多想一想",用更多的计算量来换取更高质量的答案。

这背后的直觉并不新鲜。人类面对难题时也会"多想一会儿":列出几种可能的解法,逐一尝试,验证结果,必要时回头修正。但将这种"思考过程"系统化为可扩展的计算策略,则是 2024-2025 年一系列论文的贡献。OpenAI 的 o1/o3 系列模型和 Anthropic 的 extended thinking 功能,本质上都是这个方向的产品化。

2. 核心机制:三种推理时扩展策略

2.1 Best-of-N 采样:最简单的扩展

Best-of-N 是最直接的方法:对同一个 prompt 独立采样 N 个回答,然后用验证器(verifier)选出最好的。给定 prompt x,从模型 p(y|x) 中采样 N 个候选,用奖励模型 r(x, y) 打分,输出最高分的那个。

问题在于:计算成本随 N 线性增长,但边际收益递减。更重要的是,Best-of-N 隐含假设"好的回答"已存在于采样分布中——对于多步推理的复杂问题,这个假设往往不成立。

2.2 自我一致性(Self-Consistency)与多数投票

自我一致性(Wang et al., 2023)是 Best-of-N 的一个变体:不是用奖励模型来选,而是让模型生成多条推理链,然后对最终答案进行多数投票。

核心假设是:对于一个推理问题,正确的推理过程可能有多条路径,但它们会收敛到同一个正确答案;而错误的推理则会发散到不同的错误答案。因此,多数投票天然地偏向正确答案。

这个方法在数学推理和常识推理任务上效果显著,但它的局限在于"多数投票"只在答案空间是离散且有限时有效。对于开放式生成任务(如写作、代码生成),多数投票不适用。

2.3 过程奖励模型 + 树搜索:最前沿的方向

2024 年最引人注目的进展来自过程奖励模型(Process Reward Model, PRM)引导的搜索策略。

与结果奖励模型(Outcome Reward Model, ORM)只给最终答案打分不同,PRM 对推理链中的每一步都进行评分。有了 PRM,我们就可以在推理时构建搜索树:模型每生成一个推理步骤,PRM 就评估这一步的质量,然后搜索算法(如 beam search、MCTS)决定下一步应该扩展哪个节点。

这就是 OpenAI o1 和 DeepSeek-R1 等"推理模型"背后的核心技术。它们本质上是在推理时执行了一个自动的、由 PRM 引导的树搜索过程。

但这里有一个关键细节:PRM 的训练数据从哪来?标注每一步推理是否正确,成本远高于标注最终答案。一种有效的策略是用模型自身来生成训练数据——让模型产生大量推理链,用最终答案的正确性来自动标注每一步的质量(这个过程有时被称为"结果监督的过程奖励")。

3. 推理时扩展的 Scaling Laws

2024 年 8 月,Google DeepMind 的 Snell et al. 系统研究了推理时计算的 scaling behavior,核心发现:推理时计算和模型参数间存在"可替代性"——一个 1B 参数的模型配合最优推理时计算策略,在 MATH 基准上可以达到 8B 模型不增加推理计算的水平。最优策略取决于问题难度:简单问题用 Best-of-N 最优,困难问题用 PRM 引导的束搜索(beam search)显著优于 Best-of-N。同时推理时计算也有边际收益递减——每翻倍一次推理计算量,性能提升约为训练时翻倍参数的 50%-80%。

4. 这意味着什么?

首先,模型评估方式需要重新思考。如果增加推理时计算能显著提升表现,“单次回答"基准测试就不再公平——我们需要区分"模型原生能力"和"模型+推理时计算的总能力”。其次,"小模型 + 多思考"可能改变部署经济学:在批处理或离线评估场景中,小模型加大量推理计算可能比直接部署大模型更划算。最后,PRM 引导的树搜索的计算成本仍然很高——复杂问题可能需要数千次模型调用,如何降低成本(如验证器蒸馏)是活跃的研究方向。

5. 总结

推理时计算扩展正在从根本上改变我们对 LLM 能力的理解。“模型能力"不再是一个静态属性——它取决于你愿意给它多少"思考时间”。这个认识既有理论上的深刻性,也有工程上的实用性。在未来几年,"如何最优地分配推理时计算"可能会成为和"如何训练更大的模型"同等重要的问题。

6. 参考资料

  • Snell et al., “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”, arXiv 2408.03314, Aug 2024
  • Wang et al., “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, ICLR 2023
  • Lightman et al., “Let’s Verify Step by Step”, arXiv 2305.20050, May 2023
  • OpenAI, “Learning to Reason with LLMs”, Sep 2024
  • DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, arXiv 2501.12948, Jan 2025
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 4:58:08

2026顶流!5款AI写作辅助软件亲测,告别推倒重来,初稿一气呵成

对于学生、科研工作者而言,论文写作往往面临多重挑战:文献资料查找效率低、格式排版反复调整、重复率居高不下、逻辑结构不够清晰,这些痛点严重制约了写作进度与研究成果的呈现质量。随着2026年AI技术的持续突破,各类AI论文写作工…

作者头像 李华
网站建设 2026/5/30 4:54:59

机器人基础模型:从通用智能到物理执行的挑战与机遇

1. 机器人基础模型:从通用智能到物理执行的挑战与机遇如果你在过去几年里关注过机器人或者人工智能,那么“基础模型”这个词一定不会陌生。从ChatGPT到Stable Diffusion,这些在互联网海量数据上训练出来的庞然大物,正在以前所未有…

作者头像 李华
网站建设 2026/5/30 4:54:58

AI如何解释连环杀手动机:XAI、NLP与伦理框架下的犯罪心理探索

1. 项目概述:当AI试图解读“深渊” “Could AI Explain The Motivations of a Serial Killer?”——这个标题本身就像一把钥匙,试图打开一扇通往人类心理最幽暗、最复杂领域的大门。作为一名长期关注技术与人文交叉领域的从业者,我最初看到这…

作者头像 李华
网站建设 2026/5/30 4:52:57

紧急通知:2024Q2起监管新规要求AI财报标注置信度——Claude报告自动打标方案已上线(仅剩最后217个企业授权名额)

更多请点击: https://codechina.net 第一章:监管新规下AI财报标注的合规性总述 随着《人工智能生成内容管理暂行办法》《上市公司信息披露管理办法(2023修订)》及证监会《关于加强大模型在财务报告辅助应用中数据治理与算法审计的…

作者头像 李华
网站建设 2026/5/30 4:51:57

从RAG到智能体:构建可解释、可验证的生产级复杂问答系统

1. 项目概述:当语义RAG遇到复杂问题时在构建基于检索增强生成(RAG)的应用时,我们常常从一个美好的假设开始:用户问题的向量嵌入,会神奇地落在包含答案的文本片段的向量嵌入附近。对于“这份文档关于X说了什…

作者头像 李华
网站建设 2026/5/30 4:40:58

大模型技术全景:从架构到应用,小白也能轻松入门收藏!

大模型技术已演化为涵盖模型架构、数据工程、训练后训练、推理服务、推理能力、应用系统、安全评测与基础设施的复杂系统工程。文章从模型架构、数据工程、训练与后训练、推理与服务优化、Reasoning与Test-time Compute、应用系统技术以及评测、安全与基础设施七大板块&#xf…

作者头像 李华