news 2026/6/15 19:16:50

模型量化完全指南:从原理到实战加速大模型推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
模型量化完全指南:从原理到实战加速大模型推理

模型量化是将高位宽参数(如Float32)转换为低位宽(如INT8、INT4)的技术,旨在压缩模型、提升推理速度并降低内存占用。主要分为PTQ(后训练量化)和QAT(量化感知训练)两种方式,可通过均匀/非均匀量化和不同粒度实现。针对大模型,权重量化、激活值量化和梯度量化能有效减少存储占用和计算复杂度,静态和动态量化策略可平衡精度与效率,是部署大模型的关键优化技术。


🔹 量化的定义及背景

量化就是把高位宽(Float32)表示的权值或者激活值用较低位宽来近似表示(INT8,INT4,……),在数值上的体现就是将连续的值离散化。


🔹 卷积神经网络特点
  • 参数量大

  • 计算量大

  • 内存占用多

  • 精度高


🔹 模型量化
  • 压缩参数

    ↗️

  • 提升速度

  • 降低内存占用

    💾

  • 精度损失

    📉

减少模型的大小,降低访存,加快速度,

量化的分类:均匀量化(线性量化),非均匀量化(非线性量化

非对称量化,对称量化

量化的分类

🔹 量化的参数粒度

  • Per-axis/per-channel

    :权重的每个通道使用单独的量化参数。

  • Per-tensor/per-layer

    :对于卷积或全连接层这类层,意味着每层使用独立的量化参数。


🔹 量化方式

  • PTQ(post training quantization,后训练量化)

    :将已经训练完成的模型直接量化,然后进行推理。

  • QAT(quantization aware training,量化感知训练)

    :常将训练完成的模型参数加载到量化后的模型,然后再进行训练微调,训练完成后再用于推理。


🔹 量化位宽

  • 全部采用统一位宽
  • 混合精度

每一层的Output受到量化的weight和input从而产生误差。

这个output作为下一层的input也被量化从浮点域转换成为顶底阿玉,如此下去导致整个网络的输出

part2-量化理论

将激活函数的阶段参数作为训练参数的自适应调整

离群的点去掉的,

LSQ+

基于压缩的方法(替换四舍五入)

无偏估计,聚类量化,权重通过网络随机共享量化值。qat量化训练不可微分近似逼近,梯度量化,使得模型更容易量化(稀疏权重值),混合精度量化(强化学习,nas,超低精度量化,二值网络,

量化应用

编码器和解码器对视频,超线性网络,编码和解码,自回归效果串行解码速度很慢的,nis,

FPX-NIC

视频神经网络编码系统

量化对齐和量化感知训练,部署在上面,

BIPointNet

二值化点云处理网络(Int1)

二值化特征存在同质化的问题,提出了熵最大化聚合函数解决

全连接层变成正负1的狮虎的,浮点数要快的多,DABM的推理框架,量化应用,量化和其他的领域结合,

量化和部署,

数据传输,访存成为瓶颈来了,量化,降低访存,gemm算子

总结

广义的量化涵盖了上层的算法涉及,高性能计算和体系结构等领域

框架层的算子融合调优,编译优化,矩阵乘内存共享等技术回避上层算法涉及所带来的压缩和加速效果更加客观的

ollama,,量化后的模型,显卡比较差,体验私有模型,量化模型,大部分人不需要了解代码,代码和参数的事情,减少资源占用并且加速推理,高精度数值表示转换成为低精度表示的技术

量化可以针对模型的不同部分进行:

权重量化:模型的参数(比如Transfomer的注意力曾,ffn层的权重)这是存储占用的大头,数值特点以0为均值围绕0两侧对称分布(有正数也有负数),激活值量化,推理的时候每一层的中间计算结果(比如神经网络层的输出),影响计算速度,这些激活值通过会经过relu函数的处理,数值特点是都是0或者正数

INT8:原始的浮点数转换到新的取值空间,根据是否有符号,有符号量化-128,127,无符号量化,s缩放因子,直接决定量化效果的好坏,原始的浮点值除以缩放因子

缩放最小最大值发,

标准差法:

对异常值不敏感,熟悉异常值处理的人都知道,3被标准拆是常见的异常值处理方法,

基于误差最小化的方法

定义一个描述误差的方法,将s作为一个参数,寻找使得吾侪最小的时候的取值,描述误差的方法(和逆量化后的值做比较)

均方误差最小化MSE:优化目标是逆量化的浮点数和原始浮点,两者的数值差异尽量小的

KL散度最小化:逆量化的浮点是和原始浮点数,两者的概率啊分布的差异尽量小

kl散度最小化:优化目标是逆量化的浮点数和原始浮点数,两者的概率分布的差异尽量小

描述误差的方法(和当前层的输出比较):

分别使用原始浮点数和逆量化后的浮点数,算的当前层的输出值,比较输出值之间的数据差异,

0值,需要量化的浮点数,量化微调得到最小值和最大值的,

逆量化回去的

整数逆量化回去再进行计算的,这段误差和舍入误差的总和,缩放因子越大,

截断误差:计算出量化结果后,数值可能会超出范围的,被clamp函数舍弃的,直接丢弃超出目标额格式表示范围(也就是量化区间)或者精度的部分,缩放因子越大,越不需要舍弃,截断误差越小

舍入误差:将高精度数值四舍五入(或者随机舍入,向上舍入,向下设置)到目标格式能表示的最近之,

如何计算量化的时候的激活值的大小的

大模型

大模型的参数量巨大,量化,浮点数矩阵,全部是整数的矩阵,整形占用的,计算加速,

权重量化,激活值量化,梯度量化,

权重量化:模型的参数(比如transformer的注意力曾,ffn层的权重),这是存储的占用的大头,数值的特点是以0为均值围绕0两侧对称均匀分布(有正数也有负数)

激活值量化:就是推理的时候每层中间计算结果,比如神经网络层的输出,影响计算速度,这些激活值通常会经过relu函数处理,数值特点是是都是0或者正数。

量化的步骤和技巧:

1.确定量化位宽,

选择目标低精度格式,int(8位),混合量化,对模型性能影响较大的一层,

确定量化对象和符号性

有正数有负数还是

确定是否需要零点,一般先不用,效果不好再用上

计算量化参数(缩放因子和零点)

计算方法,计算时机,推理前预先计算,静态量化,推理前先计算参数,东涛量化推理的时候根据输入的数据实时计算参数,

激活值:推理的时候才直到,推理的时候实时计算参数。

动态量化:由于激活强制只有再推理的时候才直到,可以在推理的时候根据实际激活值实时计算参数

静态量化(有校准数据“):通过输入的一份样本进行推理,(称为校准数据),根据这份样本运行模型得到的激活值,按照这份激活值提前计算参数,后续实际推理的时候就使用这份参数。

准备校准数据集:选择少量代表性的样本

动态量化比较麻烦的操作,

静态量化(有校准数据的),通过输入一份样本进行推理(称为校准数据),得到了激活值的分布进行参数的计算,运行模型,激活值的数据,计算量化的参数,量化参数的准备,足够的典型,不需要校准数据库的方法,激活值的数据特征,训练的时候

静态量化(没有校准数据)BatchNorm层的作用是将数据标准化的,训练过程当中会计算输入的数据的均值和方差并且记录一下推理的时候也会用到的,这些信息可以用来近似估计激活值的分布,从而估计量化参数,

量化粒度:

逐层量化:基于所在层的所有的权重计算量化参数

驻通道量化:一个层有多个通道,每个通道单独计算量化参数,复杂但是误差小,一行就是一个快,将权重矩阵分为多个快

验证合约欧化:验证量化模型的性能(如精度,推理速度),并优化量化参数或者策略。

均匀量化和非均匀量化。

非均匀量化根据数据分布的特性调整量化就ibie,再数据密集区域使用更细致的量化,

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线


03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 5:50:25

【腾讯实习AI大模型岗位已Offer】大模型面试宝典:高频问题+答案解析,助你轻松通关,建议收藏!

本文分享了作者在大模型岗位的完整面试经历,涵盖一面至三面的面试过程和问题,包括Transformer结构、BERT与GPT区别、LoRA原理等大模型核心知识点,以及算法题和职业规划问题。作者拥有图神经网络背景,成功通过面试并分享了实战经验…

作者头像 李华
网站建设 2026/6/15 14:13:43

华为MetaERP作为华为自主研发的新一代企业资源计划系统,其成功部署和高效运行依赖于多个核心技术组件和生态合作伙伴的协同支持

华为MetaERP作为华为自主研发的新一代企业资源计划系统,其成功部署和高效运行依赖于多个核心技术组件和生态合作伙伴的协同支持。尽管搜索结果中未直接提及“ERP伴侣”这一术语,但结合上下文分析,可以理解为MetaERP的核心技术支撑、关键模块及…

作者头像 李华
网站建设 2026/6/15 6:31:41

人工智能之核心技术 深度学习 第一章 神经网络基础

人工智能之核心技术 深度学习 第一章 神经网络基础—公式关注公众号 文章目录 人工智能之核心技术 深度学习一、感知器模型1.1 线性感知器(Perceptron)1.2 多层感知器(MLP, Multi-Layer Perceptron) 二、激活函数常见激活函数对比…

作者头像 李华
网站建设 2026/6/15 14:16:54

单北斗GNSS在桥梁和地质灾害变形监测中的应用与发展

本文将阐述单北斗GNSS在桥梁和地质灾害变形监测中的多重应用,深入解析其工作原理及系统安装过程。同时,文章还将探讨如何选择合适的单北斗变形监测厂家与设备,以保证项目的成功实施。此外,针对GNSS与单北斗在变形监测中的性能对比…

作者头像 李华
网站建设 2026/6/6 1:44:52

强烈安利8个一键生成论文工具,继续教育学生论文写作必备!

强烈安利8个一键生成论文工具,继续教育学生论文写作必备! AI 工具如何助力论文写作,提升效率与质量 在当前的学术环境中,AI 工具已经成为越来越多继续教育学生的重要助手。尤其是在论文写作过程中,这些工具不仅能够显…

作者头像 李华