news 2026/6/10 6:51:08

INT4 量化技术(INT4 Quantization)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
INT4 量化技术(INT4 Quantization)

INT4 量化技术(INT4 Quantization)是当前大语言模型(LLM)和前沿 AI 算力领域最火热的“瘦身”技术之一。

在模型部署和推理(Inference)阶段,传统的深度学习模型通常使用FP16(16位浮点数)BF16来存储权重(Weights)和激活值(Activations)。每个参数需要占用 2 个字节的显存。而INT4 量化,就是将这些高精度的浮点数,压缩映射为只需 4 个位(Bit)存储的整数

通过这种技术,一个原本需要占用2 字节的参数,现在只需要0.5 字节显存占用直接暴砍 75%


1. 核心数学原理:低比特映射

量化的本质是寻找一个映射函数,把一个连续的、很大范围的浮点数空间(FP16),投射到一个离散的、只有 16 个格子的整数空间(INT4 的范围是[−8,7][-8, 7][8,7][0,15][0, 15][0,15])。

最经典的线性量化(Linear Quantization)公式如下:

Xint4=clip(round(Xfp16S)+Z, −8, 7)X_{int4} = \text{clip}\left(\text{round}\left(\frac{X_{fp16}}{S}\right) + Z, \, -8, \, 7\right)Xint4=clip(round(SXfp16)+Z,8,7)

Xfp16≈S×(Xint4−Z)X_{fp16} \approx S \times (X_{int4} - Z)Xfp16S×(Xint4Z)

  • SSS(Scale):缩放因子,负责把浮点数的范围等比例缩小。
  • ZZZ(Zero-point):零点偏移,负责将非对称的浮点数中心对齐到整数。

由于 INT4 的表达能力极度有限(总共只有 16 个可选值),如果对整张权重矩阵只用一个SSSZZZ(Per-tensor 量化),会带来灾难性的精度坍塌。因此,工业界通常采用Per-group(分组量化):比如每 128 个连续的权重通道(Group Size = 128)共享一组SSSZZZ,从而在压缩率和精度之间取得完美平衡。


2. 为什么 INT4 是大模型时代的“刚需”?

在 LLM 推理工程中,存在两个核心瓶颈:显存容量瓶颈带宽访存瓶颈(Memory-Bound)。INT4 完美地击中了这两个痛点:

① 解锁低端硬件跑大模型的可能

以 Llama-3-70B 模型为例:

  • FP16 原生状态:仅权重本身就需要70B×2 Bytes=140 GB70\text{B} \times 2\text{ Bytes} = 140\text{ GB}70B×2Bytes=140GB显存。你必须至少使用 2 张 A100 (80GB) 或者多张消费级显卡才能把它加载起来。
  • INT4 量化状态:权重缩减到70B×0.5 Bytes=35 GB70\text{B} \times 0.5\text{ Bytes} = 35\text{ GB}70B×0.5Bytes=35GB显存。这意味着单张主流消费级显卡(如拥有 48GB 显存的 RTX 8000 或轻微裁剪后的 24GB/32GB 环境)或单台高性能 Mac就能直接本地流畅运行 70B 级别的神级大模型。

② 突破带宽瓶颈,大幅提升 Token 生成速度(Prefill / Decode)

在 LLM 的 Decode 阶段,生成每一个 Token 都需要把整个模型的权重从显存(HBM)中读取一遍。这时候 GPU 的算力往往是过剩的,时间全浪费在“把数据从显存搬运到计算核心”的过程中(即访存受限)。

  • 使用了 INT4 后,网络传输的数据量减少了 75%,极大地缓解了总线带宽压力。主控芯片能以接近 4 倍的吞吐量把权重送进核心,从而让模型的单用户 Token 输出速度(Tokens per Second)获得飙升

3. 工业界主流的 INT4 量化算法流派

直接把 FP16 暴力四舍五入到 INT4 会导致模型瞬间变“智障”。为了保住模型的“智商”,业界在 2024 至 2026 年间演进出了几种经典的 PTQ(训练后量化)硬核算法:

流派一:AWQ(Activation-aware Weight-only Quantization)

由麻省理工学院(MIT)提出,是目前 vLLM、Triton 等高性能推理引擎非常青睐的方案。

  • 核心发现:模型权重里的所有参数并不是平等的。只有1% 的显著权重(Salient Weights)对大模型的推理准确率起到了决定性作用(这些显著权重通常与激活值中的异常值大通道对应)。
  • 做法:AWQ 并不单独对权重动刀,而是通过观察一小段测试文本(Calibration set)在模型中的激活走势,找出那 1% 的关键权重,保持它们不被无情量化,或者通过缩放保护它们,只对剩下 99% 的普通权重进行 INT4 量化。这成功让模型在 4-bit 下保留了极其完美的逻辑推理能力。

流派二:GPTQ(Generalized Post-Training Quantization)

一种基于高阶数学近似(Hessian 矩阵)的逐层校准算法。

  • 做法:它在量化某一层权重时,会计算量化带来的误差,并动态地去补偿和修正这一层中尚未被量化的其它权重。GPTQ 的量化速度极快,且在极端压缩(4-bit 甚至 3-bit)下展现出了非常强悍的精度鲁棒性。

流派三:Bitsandbytes (NF4)

Hugging Face 官方深度集成的开箱即用方案(常用于load_in_4bit=True的低配显卡微调/QLoRA)。

  • NF4(NormalFloat 4)是一种专门针对正态分布数据设计的非线性量化数据类型。因为深度学习的权重天生呈正态分布,NF4 划分的 16 个离散点在中间密集、两端稀疏,使得它在 4-bit 空间下对量化误差的捕捉能力显著超越了传统的线性 INT4。

4. 混合量化范式:W4A16 vs W4A4

在看技术文档(如 NVIDIA TensorRT-LLM 或 vLLM)时,你会经常看到这两组缩写,它们代表了不同的硬件加速策略:

  • W4A16(Weight-Only 4-bit)当前工程落地最主流的形态。权重(Weight)在显存里以 4-bit 存储(极省显存)。但在 GPU 核心(Tensor Core)准备计算矩阵乘法(GEMM)的前一刻,硬件内部的解码器会实时、动态地将 INT4 权重还原回 FP16,然后与高精度的 FP16 激活值(Activation)进行常规计算。

  • 优点:完全不破坏激活值的精度,模型几乎不掉点,完美解决了带宽和显存瓶颈。

  • W4A4(纯整数计算):权重和激活值全部被量化为 4-bit,直接在 GPU 内部调用 INT4 原生 Tensor Core 进行矩阵乘法。

  • 优点:计算速度获得物理级突破(INT4 算力吞吐远高于 FP16)。

  • 难点:由于 LLM 的激活值中存在无法预测的超大异常值(Outliers),把激活值强行压到 4-bit 极易引发模型前言不搭后语。这通常需要配合极其复杂的平滑技术(如 SmoothQuant 的变体)才能在特定模型上落地。

5. 总结

在当前的 LLM 落地大潮中,INT4 量化技术是推动大模型走向私有化部署、边缘端(PC/手机)以及降低企业算力成本的无冕之王。它让开源社区的研发人员能够用极低的硬件门槛,玩转千亿参数级别的顶级大模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 6:43:30

Java标准IO流全解|标准输入、Scanner封装、格式化输出实战案例

前言 在Java输入输出处理体系中,8.3小节标准输入输出流是入门最常用的IO模块,程序和控制台的交互全部依托Java预设的全局标准流实现。 我们日常写测试代码、接收键盘录入、打印运算结果,都离不开System.in标准输入、System.out标准输出。很多…

作者头像 李华
网站建设 2026/6/10 6:43:28

【JVM】类加载全过程双亲委派机制深度解析

大家好,我是程序员二叉。简介 本文梳理后端面试必考的类加载五大步骤、双亲委派机制原理、机制优缺点、打破方案、自定义类加载器完整实现逻辑,附带可运行代码示例。欢迎点赞关注收藏。一、JVM类加载的五个步骤 类从磁盘.class文件到内存实例化对象&…

作者头像 李华
网站建设 2026/6/10 6:42:21

Go学习第3天:变量+常量+运算符

Go 语言变量、常量、运算符)一、Go 变量1.1 变量命名规则说明合法/非法示例1.2 变量声明四大方式方式1:标准声明(var 变量名 类型)语法说明零值规则(重点)示例运行结果踩坑方式2:声明并初始化…

作者头像 李华
网站建设 2026/6/10 6:38:42

IDEA新手必看:保姆级教程教你从Gitee拉取团队项目(附常见错误解决)

IDEA新手必看:从Gitee拉取团队项目的完整指南与深度解析刚加入开发团队时,第一次接触版本控制系统总是让人既兴奋又紧张。作为团队协作的核心工具,Git和Gitee的正确使用直接关系到开发效率。本文将带你从零开始,不仅学会如何在IDE…

作者头像 李华