推理时计算扩展(Inference-Time Compute Scaling)是 2024-2026 年间 LLM 领域最重要的研究方向之一:它证明了在模型参数固定的前提下,通过增加推理时的计算量(如多次采样、自我验证、搜索策略),模型表现可以持续提升。本文拆解其核心机制——从 Best-of-N、自我一致性到过程奖励模型(PRM)引导的搜索,并讨论它如何重塑我们对"模型能力"的理解。
1. 背景:从"训练更大"到"想得更深"
过去几年,大语言模型(LLM)的能力提升主要依赖一条路径:扩大模型参数和训练数据规模——也就是所谓的"训练时计算扩展"(Training-Time Compute Scaling),以 Kaplan et al. (2020) 和 Hoffmann et al. (2022) 的 Scaling Laws 为代表。
但到了 2024 年中,一个新的范式开始浮现:如果模型已经训练好了,参数固定不动,我们还能让它的表现变得更好吗?答案出人意料地简单——可以。让模型在推理时"多想一想",用更多的计算量来换取更高质量的答案。
这背后的直觉并不新鲜。人类面对难题时也会"多想一会儿":列出几种可能的解法,逐一尝试,验证结果,必要时回头修正。但将这种"思考过程"系统化为可扩展的计算策略,则是 2024-2025 年一系列论文的贡献。OpenAI 的 o1/o3 系列模型和 Anthropic 的 extended thinking 功能,本质上都是这个方向的产品化。
2. 核心机制:三种推理时扩展策略
2.1 Best-of-N 采样:最简单的扩展
Best-of-N 是最直接的方法:对同一个 prompt 独立采样 N 个回答,然后用验证器(verifier)选出最好的。给定 prompt x,从模型 p(y|x) 中采样 N 个候选,用奖励模型 r(x, y) 打分,输出最高分的那个。
问题在于:计算成本随 N 线性增长,但边际收益递减。更重要的是,Best-of-N 隐含假设"好的回答"已存在于采样分布中——对于多步推理的复杂问题,这个假设往往不成立。
2.2 自我一致性(Self-Consistency)与多数投票
自我一致性(Wang et al., 2023)是 Best-of-N 的一个变体:不是用奖励模型来选,而是让模型生成多条推理链,然后对最终答案进行多数投票。
核心假设是:对于一个推理问题,正确的推理过程可能有多条路径,但它们会收敛到同一个正确答案;而错误的推理则会发散到不同的错误答案。因此,多数投票天然地偏向正确答案。
这个方法在数学推理和常识推理任务上效果显著,但它的局限在于"多数投票"只在答案空间是离散且有限时有效。对于开放式生成任务(如写作、代码生成),多数投票不适用。
2.3 过程奖励模型 + 树搜索:最前沿的方向
2024 年最引人注目的进展来自过程奖励模型(Process Reward Model, PRM)引导的搜索策略。
与结果奖励模型(Outcome Reward Model, ORM)只给最终答案打分不同,PRM 对推理链中的每一步都进行评分。有了 PRM,我们就可以在推理时构建搜索树:模型每生成一个推理步骤,PRM 就评估这一步的质量,然后搜索算法(如 beam search、MCTS)决定下一步应该扩展哪个节点。
这就是 OpenAI o1 和 DeepSeek-R1 等"推理模型"背后的核心技术。它们本质上是在推理时执行了一个自动的、由 PRM 引导的树搜索过程。
但这里有一个关键细节:PRM 的训练数据从哪来?标注每一步推理是否正确,成本远高于标注最终答案。一种有效的策略是用模型自身来生成训练数据——让模型产生大量推理链,用最终答案的正确性来自动标注每一步的质量(这个过程有时被称为"结果监督的过程奖励")。
3. 推理时扩展的 Scaling Laws
2024 年 8 月,Google DeepMind 的 Snell et al. 系统研究了推理时计算的 scaling behavior,核心发现:推理时计算和模型参数间存在"可替代性"——一个 1B 参数的模型配合最优推理时计算策略,在 MATH 基准上可以达到 8B 模型不增加推理计算的水平。最优策略取决于问题难度:简单问题用 Best-of-N 最优,困难问题用 PRM 引导的束搜索(beam search)显著优于 Best-of-N。同时推理时计算也有边际收益递减——每翻倍一次推理计算量,性能提升约为训练时翻倍参数的 50%-80%。
4. 这意味着什么?
首先,模型评估方式需要重新思考。如果增加推理时计算能显著提升表现,“单次回答"基准测试就不再公平——我们需要区分"模型原生能力"和"模型+推理时计算的总能力”。其次,"小模型 + 多思考"可能改变部署经济学:在批处理或离线评估场景中,小模型加大量推理计算可能比直接部署大模型更划算。最后,PRM 引导的树搜索的计算成本仍然很高——复杂问题可能需要数千次模型调用,如何降低成本(如验证器蒸馏)是活跃的研究方向。
5. 总结
推理时计算扩展正在从根本上改变我们对 LLM 能力的理解。“模型能力"不再是一个静态属性——它取决于你愿意给它多少"思考时间”。这个认识既有理论上的深刻性,也有工程上的实用性。在未来几年,"如何最优地分配推理时计算"可能会成为和"如何训练更大的模型"同等重要的问题。
6. 参考资料
- Snell et al., “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”, arXiv 2408.03314, Aug 2024
- Wang et al., “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, ICLR 2023
- Lightman et al., “Let’s Verify Step by Step”, arXiv 2305.20050, May 2023
- OpenAI, “Learning to Reason with LLMs”, Sep 2024
- DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, arXiv 2501.12948, Jan 2025