news 2026/5/26 4:53:29

华为:LLM宽度与深度的适应性重用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为:LLM宽度与深度的适应性重用

📖标题:VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
🌐来源:arXiv, 2512.14531

🌟摘要

大型语言模型 (LLM) 的快速扩展取得了显着的性能,但它也会导致高昂的内存成本。现有的参数高效方法,如剪枝和量化,主要压缩预训练模型,而不增强架构容量,从而达到基础模型的表示上限。在这项工作中,我们提出了 VersatileFFN,一种新颖的前馈网络 (FFN),它可以在固定参数预算内灵活地重用宽度和深度维度上的参数。受认知双重过程理论的启发,VersatileFFN 包括两个自适应路径:一个宽度变换器路径,从单个共享 FFN 生成子专家的混合,在不增加参数的情况下模仿稀疏专家路由,以及一个深度通用路径,递归地应用相同的 FFN 来模拟复杂标记的更深层次的处理。一个难度感知门控通过高效的宽度方向动态平衡两条路径,通过高效的宽度方向转向“简单”标记,并将更深的迭代细化分配给“硬”标记。至关重要的是,两条路径重用相同的参数,因此所有额外的容量都来自计算而不是内存。跨不同基准和模型尺度的实验证明了该方法的有效性。该代码可在 https://github.com/huawei-noah/noah-research/ tree/master/VersatileFFN。

🛎️文章简介

🔸研究问题:如何在大语言模型(LLM)中实现参数效率,同时保持高性能?
🔸主要贡献:论文提出VersatileFFN架构,通过宽度与深度的适应性重用,显著提升了模型的参数效率和计算能力。

📝重点思路

🔸设计了一个VersatileFFN架构,集成了宽度可变通道(宽路径)和深度可变通道(深路径),这两条路径共享基础权重。
🔸宽路径模拟虚拟Mixture-of-Experts(MoE)模块,快速响应领域特定的任务而不增加参数量。
🔸深路径实现递归计算能力,通过重用相同的FFN计算单元,动态分配更深的计算层次给复杂的token。
🔸引入Gumbel-Softmax控制器,根据token复杂度动态预测迭代次数,从而灵活分配计算资源。

🔎分析总结

🔸VersatileFFN在多个基准测试中表现优于其他方法,展示了其在相同参数预算内的强大性能。
🔸相比Mixture-of-Experts架构和传统的k-Loop方法,VersatileFFN在保持较低的参数增加的同时,显著提升了准确率。
🔸该方法有效地将宽度与深度计算结合,实现了在参数效率和推理能力之间的最佳平衡。

💡个人观点

论文的创新点在于通过深度和宽度的适应性组合,开创了一种不需显著增加参数量即可提升模型能力的新范式,适用于资源受限环境中的推理任务。

🧩附录

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 10:01:21

Docker 容器实现按顺序启动

在日常开发和运维中,我们会遇到这样的需求:多个 Docker 容器需要按特定顺序启动。例如,应用依赖数据库,消息队列依赖服务初始化等,如果顺序启动不当,可能导致容器无法正常运行或出现错误。 问题背景 假设有…

作者头像 李华
网站建设 2026/5/22 15:00:10

【零失误备份方案】:基于AZ-500认证标准构建高可用云Agent体系

第一章:基于AZ-500标准的云Agent备份体系概述在现代混合云架构中,保障工作负载数据的完整性与可恢复性是安全运维的核心任务之一。Azure Backup服务遵循AZ-500认证所定义的安全基线,提供了一套标准化的云Agent备份体系,用于保护部…

作者头像 李华
网站建设 2026/5/25 12:57:58

Netflix观影体验全面升级:画质与音效优化实战指南

Netflix观影体验全面升级:画质与音效优化实战指南 【免费下载链接】netflix-4K-DDplus MicrosoftEdge(Chromium core) extension to play Netflix in 4K(Restricted)and DDplus audio 项目地址: https://gitcode.com/gh_mirrors/ne/netflix…

作者头像 李华
网站建设 2026/5/1 5:11:08

MCP AI-102模型部署实战:5步实现高效稳定上线,99%的人都忽略了第3步

第一章:MCP AI-102模型部署概述在现代人工智能系统架构中,MCP AI-102作为一种高性能推理模型,广泛应用于自然语言处理、图像识别与智能决策场景。其部署过程涉及环境配置、模型加载、服务封装及性能调优等多个关键环节,需依托标准…

作者头像 李华
网站建设 2026/5/22 17:46:47

大众点评数据采集工具终极指南:从零掌握高效自动化方案

大众点评数据采集工具终极指南:从零掌握高效自动化方案 【免费下载链接】dianping_spider 大众点评爬虫(全站可爬,解决动态字体加密,非OCR)。持续更新 项目地址: https://gitcode.com/gh_mirrors/di/dianping_spider…

作者头像 李华
网站建设 2026/5/23 15:10:27

突破音乐枷锁:ncmdumpGUI让你的加密音乐重获自由

突破音乐枷锁:ncmdumpGUI让你的加密音乐重获自由 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 在数字音乐版权保护日益严格的今天,你…

作者头像 李华