逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%-编程实验室

逆天！

用13个参数，26字节，还没有一条短信长，就教大模型提升数学推理能力。

一个80亿参数的庞大语言模型，就像一座储存了海量知识的宏伟图书馆。

现在，你需要教会它一项新技能——解数学应用题。

传统方法需要对整个图书馆进行大规模的重新编目和装修，耗费巨大。

现在，一种近乎魔法的方法，只需调整区区13个参数，给这座图书馆的大门换一把小小的、仅26字节的新锁，就能让它解题的正确率从76%飙升至91%。

这听起来不可思议，却是Meta FAIR等机构研究人员刚刚发布的最新成果。

他们提出了一种名为TinyLoRA的极致微调技术，配合强化学习，能够在几乎不改变大模型原有身体的情况下，仅用极少数参数甚至单个参数，就显著激发其推理能力。

这不仅挑战了我们对模型训练所需数据量的认知，更揭示了大型模型内部蕴藏的、等待被点亮的潜在知识结构。

从百万到个位数的参数革命

为了让大模型学会思考和推理，主流方法是在大量示例上进行监督微调（SFT），或者通过强化学习（RL）让模型在试错中优化。

即便是为了节省计算资源而广泛使用的参数高效微调方法，如低秩适配（LoRA），也需要更新数百万乃至数千万的参数。

举个例子，对于一个拥有80亿参数的模型，使用最小的LoRA设置（秩为1），也需要训练大约300万个适配器参数。

这已经是巨大的节省了，但研究人员提出了更极致的追问：真的需要这么多吗？

这就像要给一台精密的机器校准一个新功能。

传统LoRA是更换了机器内部成百上千个关联的齿轮组（尽管是低秩的）。

而新的思路是，也许只需要拧紧或松开几个最关键的核心螺丝，就能实现相同的功能调整。

TinyLoRA就是这把可以精准调节到单个螺丝的螺丝刀。

它的核心思想是在LoRA-XS等方法的基础上进一步压缩。

LoRA-XS已经尝试只学习如何重新组合模型权重中最重要的几个主方向。

TinyLoRA则更进一层，它不再为模型中每一个需要调整的线性层都配备独立的可训练矩阵，而是引入一个极小的可训练向量，并通过一个固定的随机投影，将这个向量的影响力分配到所有目标层上。

通过跨层、跨模块共享这个微小向量，可训练参数的数量可以急剧减少。

在极端情况下，整个模型的所有适配层都共享同一个可训练标量值。

也就是说，只用一个参数，就能对百亿规模的模型进行定向微调。

TinyLoRA 数学推理上的表现

如此微小的参数更新为何能奏效？

关键在于训练方法。

研究发现，这种螺丝刀式的微调，只有在强化学习（RL）的框架下才能发挥奇效；如果使用传统的监督微调（SFT），效果会大打折扣。

论文通过理论分析指出，SFT需要模型吸收训练数据中大量的比特信息，其中只有一小部分与提升任务性能真正相关。

而RL提供的奖励信号虽然数据量看起来更大（因为要采样多个模型输出），但其有效信息高度浓缩在简单的奖励值里。

这种高密度的、干净的信号，使得模型能够用极小的参数更新容量，就捕捉到行为模式需要调整的关键方向。

使用强化学习（GRPO算法），Qwen2.5-7B模型仅用13个参数微调，准确率就从76%提升到了91%。

而使用SFT，同样的13个参数带来的提升微乎其微，准确率仅达到83%。

RL模型用120个参数就能达到95%的准度，而SFT模型在同等参数规模下远不能及。

研究人员在多个数学推理基准上测试了TinyLoRA。

在更复杂的数学数据集，如MATH、AIME（美国数学邀请赛）、AMC（美国数学竞赛）上，这种极简微调依然保持了强大的性能。

例如，使用Qwen-2.5-7B模型，仅针对196个参数进行TinyLoRA+GRPO微调，就能在六个高难度数学基准上平均保留其完整微调所带来的87%的性能增益。

研究还观察到了一个重要趋势：模型越大，对这种螺丝刀微调越敏感。

更大的预训练模型似乎内部已经编码了解决问题所需的大部分知识，微调要做的更像是调整它的输出风格或解题习惯，比如学习生成更长、更循序渐进的推理步骤。

这项工作恰好只需要极小的参数干预就能实现。

在字节约束下的巧妙设计

在比较不同模型家族时，出现了有趣的差异。

Qwen2.5系列模型在极小参数更新规模下表现出了比LLaMA-3系列更高的可塑性和效率。

例如，在GSM8K任务上，Qwen2.5-7B仅用1个参数微调就能获得约5%的绝对提升（从基线77%到82%左右）。

而LLaMA-3在参数少于5个时，性能提升几乎可以忽略。要达到相近的性能水平，Qwen所需更新的参数数量大约是LLaMA的十分之一。

这种差异可能源于两者在模型架构、预训练数据或对齐过程上的不同。

当参数少到几十上百个时，另一个实际问题浮出水面：如何优化这有限比特的存储和通信效率？毕竟在分布式训练中，更新参数的通信开销可能是瓶颈。

研究人员探索了不同的参数共享策略：按模块类型结构化共享，或者不分类型、仅按网络深度平铺式共享。

结果出人意料，平铺式共享（让相邻层的所有模块共享参数）的效果更好。

强迫同一类型的投影矩阵共享参数并没有带来额外好处。

另一个反直觉的发现是，在总字节数固定的情况下，使用fp32精度存储这极少的参数，其性能竟然优于使用bf16或fp16精度，尽管fp32占用双倍字节。

这或许说明，对于如此精细和关键的超小型参数，更高的数值精度至关重要。

对未来的启示与局限

这项研究打开了一扇新窗口，让我们重新思考大模型微调的本质。

一种合理的解释是，对于许多任务（尤其是数学推理），解决能力所需的核心知识已经存在于大规模预训练模型的参数之中。

后续的微调，特别是基于奖励的强化学习微调，主要作用不是注入新知识，而是激活和引导模型以正确的方式运用已有知识，调整其输出模式和解题风格。

这个过程对参数变化的分辨率要求可以非常低。

随着模型规模继续向万亿乃至更大级别迈进，用极其参数高效的方法来定制和控制它们将成为必然趋势。

未来，为特定任务部署一个高度专业化的大模型，可能真的只需要传输和加载一个几KB大小的适配器钥匙。

当然，目前的发现主要局限在数学推理领域。

数学问题具有相对明确的答案和验证方式，奖励信号清晰。

这种极简微调方法在需要更多创造性、开放性或者模糊评价标准的领域（如创意写作、复杂科学研究）是否依然有效，还有待探索。

TinyLoRA向我们展示了一个激动人心的前景：大语言模型的推理能力可以通过调整少得惊人的参数被有效激发。

它像一把精巧的钥匙，用几十字节的成本就能打开模型内部潜藏的宝库。

这项技术不仅大幅降低了模型定制化的存储和计算门槛，更深化了我们对模型如何学习、知识如何被表征的理解。

它清晰地表明，对于这些庞然大物般的AI，有时最优雅的引导方式并非大刀阔斧的重建，而是精准而克制的点拨。

当模型的知识已经就位，我们所要做的，或许只是给它一个正确的提示音。

参考资料：

https://arxiv.org/pdf/2602.04118

逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%

从百万到个位数的参数革命

TinyLoRA 数学推理上的表现

在字节约束下的巧妙设计

对未来的启示与局限

【计算机毕业设计案例】基于SpringBoot和MySQL的社区服务系统设计与基于springboot的智慧社区服务系统的设计与开发社区活动组织、人口管理、政策宣传、矛盾调解(程序+文档+讲解+定制)

基于单片机的家居语音控制系统的设计与实现

删除三星手机中的照片

Windows socket api 与 LSP 分层服务提供者

直接上结论：自考降重神器！千笔·专业降AI率智能体 VS 学术猹

小程序毕设选题推荐：基于springboot+小程序的在线文创产品订购平台小程序文物故事；博物馆管理文创库存、发布新品与文化活动【附源码、mysql、文档、调试+代码讲解+全bao等】