让模型“多想一会儿“：推理时计算扩展（Inference-Time Compute Scaling）的原理与前沿-编程实验室

推理时计算扩展（Inference-Time Compute Scaling）是 2024-2026 年间 LLM 领域最重要的研究方向之一：它证明了在模型参数固定的前提下，通过增加推理时的计算量（如多次采样、自我验证、搜索策略），模型表现可以持续提升。本文拆解其核心机制——从 Best-of-N、自我一致性到过程奖励模型（PRM）引导的搜索，并讨论它如何重塑我们对"模型能力"的理解。

1. 背景：从"训练更大"到"想得更深"

过去几年，大语言模型（LLM）的能力提升主要依赖一条路径：扩大模型参数和训练数据规模——也就是所谓的"训练时计算扩展"（Training-Time Compute Scaling），以 Kaplan et al. (2020) 和 Hoffmann et al. (2022) 的 Scaling Laws 为代表。

但到了 2024 年中，一个新的范式开始浮现：如果模型已经训练好了，参数固定不动，我们还能让它的表现变得更好吗？答案出人意料地简单——可以。让模型在推理时"多想一想"，用更多的计算量来换取更高质量的答案。

这背后的直觉并不新鲜。人类面对难题时也会"多想一会儿"：列出几种可能的解法，逐一尝试，验证结果，必要时回头修正。但将这种"思考过程"系统化为可扩展的计算策略，则是 2024-2025 年一系列论文的贡献。OpenAI 的 o1/o3 系列模型和 Anthropic 的 extended thinking 功能，本质上都是这个方向的产品化。

2. 核心机制：三种推理时扩展策略

2.1 Best-of-N 采样：最简单的扩展

Best-of-N 是最直接的方法：对同一个 prompt 独立采样 N 个回答，然后用验证器（verifier）选出最好的。给定 prompt x，从模型 p(y|x) 中采样 N 个候选，用奖励模型 r(x, y) 打分，输出最高分的那个。

问题在于：计算成本随 N 线性增长，但边际收益递减。更重要的是，Best-of-N 隐含假设"好的回答"已存在于采样分布中——对于多步推理的复杂问题，这个假设往往不成立。

2.2 自我一致性（Self-Consistency）与多数投票

自我一致性（Wang et al., 2023）是 Best-of-N 的一个变体：不是用奖励模型来选，而是让模型生成多条推理链，然后对最终答案进行多数投票。

核心假设是：对于一个推理问题，正确的推理过程可能有多条路径，但它们会收敛到同一个正确答案；而错误的推理则会发散到不同的错误答案。因此，多数投票天然地偏向正确答案。

这个方法在数学推理和常识推理任务上效果显著，但它的局限在于"多数投票"只在答案空间是离散且有限时有效。对于开放式生成任务（如写作、代码生成），多数投票不适用。

2.3 过程奖励模型 + 树搜索：最前沿的方向

2024 年最引人注目的进展来自过程奖励模型（Process Reward Model, PRM）引导的搜索策略。

与结果奖励模型（Outcome Reward Model, ORM）只给最终答案打分不同，PRM 对推理链中的每一步都进行评分。有了 PRM，我们就可以在推理时构建搜索树：模型每生成一个推理步骤，PRM 就评估这一步的质量，然后搜索算法（如 beam search、MCTS）决定下一步应该扩展哪个节点。

这就是 OpenAI o1 和 DeepSeek-R1 等"推理模型"背后的核心技术。它们本质上是在推理时执行了一个自动的、由 PRM 引导的树搜索过程。

但这里有一个关键细节：PRM 的训练数据从哪来？标注每一步推理是否正确，成本远高于标注最终答案。一种有效的策略是用模型自身来生成训练数据——让模型产生大量推理链，用最终答案的正确性来自动标注每一步的质量（这个过程有时被称为"结果监督的过程奖励"）。

3. 推理时扩展的 Scaling Laws

2024 年 8 月，Google DeepMind 的 Snell et al. 系统研究了推理时计算的 scaling behavior，核心发现：推理时计算和模型参数间存在"可替代性"——一个 1B 参数的模型配合最优推理时计算策略，在 MATH 基准上可以达到 8B 模型不增加推理计算的水平。最优策略取决于问题难度：简单问题用 Best-of-N 最优，困难问题用 PRM 引导的束搜索（beam search）显著优于 Best-of-N。同时推理时计算也有边际收益递减——每翻倍一次推理计算量，性能提升约为训练时翻倍参数的 50%-80%。

4. 这意味着什么？

首先，模型评估方式需要重新思考。如果增加推理时计算能显著提升表现，“单次回答"基准测试就不再公平——我们需要区分"模型原生能力"和"模型+推理时计算的总能力”。其次，"小模型 + 多思考"可能改变部署经济学：在批处理或离线评估场景中，小模型加大量推理计算可能比直接部署大模型更划算。最后，PRM 引导的树搜索的计算成本仍然很高——复杂问题可能需要数千次模型调用，如何降低成本（如验证器蒸馏）是活跃的研究方向。

5. 总结

推理时计算扩展正在从根本上改变我们对 LLM 能力的理解。“模型能力"不再是一个静态属性——它取决于你愿意给它多少"思考时间”。这个认识既有理论上的深刻性，也有工程上的实用性。在未来几年，"如何最优地分配推理时计算"可能会成为和"如何训练更大的模型"同等重要的问题。

6. 参考资料

Snell et al., “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”, arXiv 2408.03314, Aug 2024
Wang et al., “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, ICLR 2023
Lightman et al., “Let’s Verify Step by Step”, arXiv 2305.20050, May 2023
OpenAI, “Learning to Reason with LLMs”, Sep 2024
DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, arXiv 2501.12948, Jan 2025