NeurIPS 2025 | 拒绝死记硬背！真正的高手模型，都在偷偷记“错题本”-编程实验室

我们小时候成绩提升最快的时候，往往不是刷最多题的时候，而是——开始认真整理“错题本”的那一刻。

真正厉害的学习者，并不是只把错题记下来，而是会反复追问：我当时是怎么想的？为什么会这样错？这是偶然，还是一种“常见思维陷阱”？

通过这种反思式学习（Reflective Learning），人类可以逐步识别自己的“错误模式”，在不确定问题前变得越来越谨慎、越来越稳。

大模型训练的“错题本”是什么？

先看现在的大模型是怎么学习的。（1）现有训练方式：大模型不断根据问题预测答案，一旦预测结果与标准答案不一致，就通过 loss 的反向传播不断修正参数，本质上是— “记住正确答案”。

但问题来了。那现在大模型训练真正缺少的是什么？不是数据，不是算力，而是像人一样的“深度反思”的能力：记错题 → 复盘当时怎么想错的 → 识别错误模式 → 下次更警惕。

这正是这篇 NeurIPS Spotlight 的核心思想。作者提出了一个非常“人类化”的概念：Mistake Log（错题本）。

论文标题：

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

论文链接：

https://arxiv.org/abs/2505.16270

代码链接：

https://github.com/jiaruzouu/TransformerCopilot

Mistake Log 到底在“记”什么？——不是记答案，而是记“我是怎么想错的”

在大模型的传统微调（SFT）中，我们通常只关心一件事：模型最后输出对不对，loss 大不大。

但这篇工作提出了一个更“像人学习”的核心思想：仅仅知道“错了”是不够的，真正有价值的是：模型是在“什么样的内部思考状态下”犯了这个错。

这正是 Mistake Log（错题本）的核心：它不是一个“对错记录本”，而是一个完整的“错误发生现场回放系统”。

第一步：记录“这道题是什么” —— Question

在每一轮训练中，模型先接收到输入序列：

在论文中用表示，表示对该问题的抽象的一个表征。即我当时在做哪一题？

第二步（最关键）：记录“模型当时是怎么想的” —— Rationale（内部推理状态）

真正拉开这项工作与普通 SFT 的差距的，就是这里。我们不仅只看最终输出，而是直接读取 Transformer 每一层、每一个 token 位置的隐藏状态：

i：第 i 个 token；
l：第 l 层 Transformer；
h：模型在这一刻真实的内部向量表达，它不是“文字解释”，而是真实神经网络的思考轨迹。

论文中将所有 token、所有层的隐藏状态整体收集为：

✅ Rationale = 模型当时完整的“内部认知状态快照”。这一步就像人类不是只记“这道题错了”，而是会回想：“我当时是按哪个公式想的？”“我那一步是为什么会选这个分支？”

第三步：逐 token 量化“错在了哪里” —— Mistakes

接着，论文不是用一个整体 loss 来模糊衡量错误，而是在 token 级别精确定位错误来源。对每个 token，计算：

模型预测分布：；
真实正确分布：；
两者之间的 discrepancy（差距）：

得到的不是一句话“你错了”。这一步，本质上是在构建：逐 token 的“精细错误热力图”。也就是说，Mistake 不再是：“这道题错了”，而变成了：“你是从第几个 token 开始走歪的，是怎么一步步歪下去的。”

所以，一条真正的 Mistake Log 不是一条 Q-A 对，而是一个三元组：

Question：我在做什么题。
Rationale：我当时整个大脑（神经状态）是怎么运转的。
Mistakes：我是从哪一步、哪个 token 开始偏离正确轨道的。

假设在大模型训练中一共 T 步，则我们“错题本”一共有 T 条 Mistake Log，表示为：

如何利用大模型训练中“错题本”？

这项工作的核心思路非常直接：引入一个辅助模型（Copilot），专门用于学习主模型（Pilot）在训练过程中累积下来的 “错题本（Mistake Log）”。具体来说：

辅助模型的输入：由原始问题表征（Question）与主模型在推理过程中的隐状态表示（Rationale）共同构成；
辅助模型的学习目标：预测主模型在每一个 token 上的错误幅度（token-level mistake），即哪里容易出错、错得多大；
推理阶段的作用方式：将辅助模型输出的纠错 logits 与主模型原始 logits 融合，从而在生成时对主模型的预测进行实时校正。

最终，这个集成模型不再只是“靠参数记住答案”，而是具备了基于历史错误进行动态纠错的能力。

理论保证：只要 Copilot 能够较好地预测主模型的错误趋势，并且纠错权重 λ 取在合理范围内，那么在每一个 token 维度上，经过 Copilot 纠正后的预测，其期望误差一定严格小于原始主模型的预测误差。

实验结果

实验结果表明，T-Copilot 在多个主流大模型（LLaMA-3、Qwen2.5、T5 等）上均带来了较大性能提升，覆盖常识推理与算术推理共 10 个基准任务。

特别值得注意的是，小规模 Copilot 与大规模主模型的组合，往往可以“以小博大”：例如，LLaMA-3.2-3B 在引入 3B 规模的 T-Copilot 后，以 6B 总参数规模超越了原本 8B 的 LLaMA-3.1-8B；

讨论

这项工作对大模型训练中潜在的“错题本（Mistake Log）”机制进行了初步定义和探索，但这一方向仍然存在大量值得进一步研究的问题。

当前大模型的“自我反思”方法已经较为丰富，多数依赖于显式思维链（Chain-of-Thought）或多 Agent 协作纠错的方式，但这些方法大多侧重于“结果层面的反思”，而尚未真正深入到模型自身“犯错时的内部认知状态”层面。

因此，一个值得深入探讨的核心问题是：基于模型自身内部思考状态的“自我反思”，是否比依赖外部智能体的“他人纠错”更加本质、更加有效？

此外，错误日志（Mistake Log）本身的结构化建模与利用方式仍有很大拓展空间，例如是否存在更高效的错误表示方式、更稳健的错误模式抽象机制，以及更合理的辅助模型（Copilot）架构设计。

目前的辅助模型在稳定性与泛化性方面仍存在一定局限，也有待在未来工作中持续改进与完善。

感谢 UIUC 与普林斯顿大学作者所做出的重要贡献。

参考文献

Zou, Jiaru, et al. "Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning." arXiv preprint arXiv:2505.16270 (2025).

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

NeurIPS 2025 | 拒绝死记硬背！真正的高手模型，都在偷偷记“错题本”

清华大佬强推！全网第一本中文大语言模型教程来了，391页全开源！

雷科电力-REKE-5A大地网接地电阻测试仪

Qwen3-VL-8B本地部署与多模态应用指南

vLLM-Omni发布：全模态模型高效服务新框架

从Workflow到ReAct，AI Agent智能化升级全攻略，看懂这篇就够了！