news 2026/5/12 18:29:04

逆天!Mata用13个参数26字节让模型正确率从76%飙升至91%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
逆天!Mata用13个参数26字节让模型正确率从76%飙升至91%

逆天!

用13个参数,26字节,还没有一条短信长,就教大模型提升数学推理能力。

一个80亿参数的庞大语言模型,就像一座储存了海量知识的宏伟图书馆。

现在,你需要教会它一项新技能——解数学应用题。

传统方法需要对整个图书馆进行大规模的重新编目和装修,耗费巨大。

现在,一种近乎魔法的方法,只需调整区区13个参数,给这座图书馆的大门换一把小小的、仅26字节的新锁,就能让它解题的正确率从76%飙升至91%。

这听起来不可思议,却是Meta FAIR等机构研究人员刚刚发布的最新成果。

他们提出了一种名为TinyLoRA的极致微调技术,配合强化学习,能够在几乎不改变大模型原有身体的情况下,仅用极少数参数甚至单个参数,就显著激发其推理能力。

这不仅挑战了我们对模型训练所需数据量的认知,更揭示了大型模型内部蕴藏的、等待被点亮的潜在知识结构。

从百万到个位数的参数革命

为了让大模型学会思考和推理,主流方法是在大量示例上进行监督微调(SFT),或者通过强化学习(RL)让模型在试错中优化。

即便是为了节省计算资源而广泛使用的参数高效微调方法,如低秩适配(LoRA),也需要更新数百万乃至数千万的参数。

举个例子,对于一个拥有80亿参数的模型,使用最小的LoRA设置(秩为1),也需要训练大约300万个适配器参数。

这已经是巨大的节省了,但研究人员提出了更极致的追问:真的需要这么多吗?

这就像要给一台精密的机器校准一个新功能。

传统LoRA是更换了机器内部成百上千个关联的齿轮组(尽管是低秩的)。

而新的思路是,也许只需要拧紧或松开几个最关键的核心螺丝,就能实现相同的功能调整。

TinyLoRA就是这把可以精准调节到单个螺丝的螺丝刀。

它的核心思想是在LoRA-XS等方法的基础上进一步压缩。

LoRA-XS已经尝试只学习如何重新组合模型权重中最重要的几个主方向。

TinyLoRA则更进一层,它不再为模型中每一个需要调整的线性层都配备独立的可训练矩阵,而是引入一个极小的可训练向量,并通过一个固定的随机投影,将这个向量的影响力分配到所有目标层上。

通过跨层、跨模块共享这个微小向量,可训练参数的数量可以急剧减少。

在极端情况下,整个模型的所有适配层都共享同一个可训练标量值。

也就是说,只用一个参数,就能对百亿规模的模型进行定向微调。

TinyLoRA 数学推理上的表现

如此微小的参数更新为何能奏效?

关键在于训练方法。

研究发现,这种螺丝刀式的微调,只有在强化学习(RL)的框架下才能发挥奇效;如果使用传统的监督微调(SFT),效果会大打折扣。

论文通过理论分析指出,SFT需要模型吸收训练数据中大量的比特信息,其中只有一小部分与提升任务性能真正相关。

而RL提供的奖励信号虽然数据量看起来更大(因为要采样多个模型输出),但其有效信息高度浓缩在简单的奖励值里。

这种高密度的、干净的信号,使得模型能够用极小的参数更新容量,就捕捉到行为模式需要调整的关键方向。

使用强化学习(GRPO算法),Qwen2.5-7B模型仅用13个参数微调,准确率就从76%提升到了91%。

而使用SFT,同样的13个参数带来的提升微乎其微,准确率仅达到83%。

RL模型用120个参数就能达到95%的准度,而SFT模型在同等参数规模下远不能及。

研究人员在多个数学推理基准上测试了TinyLoRA。

在更复杂的数学数据集,如MATH、AIME(美国数学邀请赛)、AMC(美国数学竞赛)上,这种极简微调依然保持了强大的性能。

例如,使用Qwen-2.5-7B模型,仅针对196个参数进行TinyLoRA+GRPO微调,就能在六个高难度数学基准上平均保留其完整微调所带来的87%的性能增益。

研究还观察到了一个重要趋势:模型越大,对这种螺丝刀微调越敏感。

更大的预训练模型似乎内部已经编码了解决问题所需的大部分知识,微调要做的更像是调整它的输出风格或解题习惯,比如学习生成更长、更循序渐进的推理步骤。

这项工作恰好只需要极小的参数干预就能实现。

在字节约束下的巧妙设计

在比较不同模型家族时,出现了有趣的差异。

Qwen2.5系列模型在极小参数更新规模下表现出了比LLaMA-3系列更高的可塑性和效率。

例如,在GSM8K任务上,Qwen2.5-7B仅用1个参数微调就能获得约5%的绝对提升(从基线77%到82%左右)。

而LLaMA-3在参数少于5个时,性能提升几乎可以忽略。要达到相近的性能水平,Qwen所需更新的参数数量大约是LLaMA的十分之一。

这种差异可能源于两者在模型架构、预训练数据或对齐过程上的不同。

当参数少到几十上百个时,另一个实际问题浮出水面:如何优化这有限比特的存储和通信效率?毕竟在分布式训练中,更新参数的通信开销可能是瓶颈。

研究人员探索了不同的参数共享策略:按模块类型结构化共享,或者不分类型、仅按网络深度平铺式共享。

结果出人意料,平铺式共享(让相邻层的所有模块共享参数)的效果更好。

强迫同一类型的投影矩阵共享参数并没有带来额外好处。

另一个反直觉的发现是,在总字节数固定的情况下,使用fp32精度存储这极少的参数,其性能竟然优于使用bf16或fp16精度,尽管fp32占用双倍字节。

这或许说明,对于如此精细和关键的超小型参数,更高的数值精度至关重要。

对未来的启示与局限

这项研究打开了一扇新窗口,让我们重新思考大模型微调的本质。

一种合理的解释是,对于许多任务(尤其是数学推理),解决能力所需的核心知识已经存在于大规模预训练模型的参数之中。

后续的微调,特别是基于奖励的强化学习微调,主要作用不是注入新知识,而是激活和引导模型以正确的方式运用已有知识,调整其输出模式和解题风格。

这个过程对参数变化的分辨率要求可以非常低。

随着模型规模继续向万亿乃至更大级别迈进,用极其参数高效的方法来定制和控制它们将成为必然趋势。

未来,为特定任务部署一个高度专业化的大模型,可能真的只需要传输和加载一个几KB大小的适配器钥匙。

当然,目前的发现主要局限在数学推理领域。

数学问题具有相对明确的答案和验证方式,奖励信号清晰。

这种极简微调方法在需要更多创造性、开放性或者模糊评价标准的领域(如创意写作、复杂科学研究)是否依然有效,还有待探索。

TinyLoRA向我们展示了一个激动人心的前景:大语言模型的推理能力可以通过调整少得惊人的参数被有效激发。

它像一把精巧的钥匙,用几十字节的成本就能打开模型内部潜藏的宝库。

这项技术不仅大幅降低了模型定制化的存储和计算门槛,更深化了我们对模型如何学习、知识如何被表征的理解。

它清晰地表明,对于这些庞然大物般的AI,有时最优雅的引导方式并非大刀阔斧的重建,而是精准而克制的点拨。

当模型的知识已经就位,我们所要做的,或许只是给它一个正确的提示音。

参考资料:

https://arxiv.org/pdf/2602.04118

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 7:32:15

【计算机毕业设计案例】基于SpringBoot和MySQL的社区服务系统设计与基于springboot的智慧社区服务系统的设计与开发社区活动组织、人口管理、政策宣传、矛盾调解(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/9 12:36:07

基于单片机的家居语音控制系统的设计与实现

基于单片机的家居语音控制系统的设计与实现 第一章 绪论 在智能家居交互方式迭代过程中,语音控制因无需手动操作、贴合自然交互习惯的特点,成为提升家居便捷性的核心方向。传统家居语音控制多依赖云端语音识别方案,存在网络依赖、响应延迟、隐…

作者头像 李华
网站建设 2026/5/10 3:51:23

删除三星手机中的照片

如果您打算出售三星手机或想 为手机腾出更多空间,您需要删除手机上的数据,例如照片。此时,您可能会问:“如何从我的三星Galaxy手机中永久删除照片?”别担心,本文将为您介绍五种从三星手机中删除照片的详细方…

作者头像 李华
网站建设 2026/5/10 16:58:17

Windows socket api 与 LSP 分层服务提供者

摘要 Windows Socket API(Winsock)是现代网络编程的基础架构,而分层服务提供者(Layered Service Provider, LSP)则是Winsock体系中的高级特性。本文详细探讨了Winsock API的核心概念、架构特征,以及LSP在网…

作者头像 李华
网站建设 2026/5/1 8:43:44

直接上结论:自考降重神器!千笔·专业降AI率智能体 VS 学术猹

在AI技术迅速发展的今天,越来越多的学生和研究者开始借助AI工具提升论文写作效率。然而,随着各大查重系统对AI生成内容的识别能力不断提升,论文中的“AI率”问题逐渐成为影响学术成果的重要隐患。许多学生在使用AI辅助写作后,发现…

作者头像 李华
网站建设 2026/5/3 11:38:50

小程序毕设选题推荐:基于springboot+小程序的在线文创产品订购平台小程序文物故事;博物馆管理文创库存、发布新品与文化活动【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华