INT4 量化技术（INT4 Quantization）-编程实验室

INT4 量化技术（INT4 Quantization）是当前大语言模型（LLM）和前沿 AI 算力领域最火热的“瘦身”技术之一。

在模型部署和推理（Inference）阶段，传统的深度学习模型通常使用FP16（16位浮点数）或BF16来存储权重（Weights）和激活值（Activations）。每个参数需要占用 2 个字节的显存。而INT4 量化，就是将这些高精度的浮点数，压缩映射为只需 4 个位（Bit）存储的整数。

通过这种技术，一个原本需要占用2 字节的参数，现在只需要0.5 字节，显存占用直接暴砍 75%。

1. 核心数学原理：低比特映射

量化的本质是寻找一个映射函数，把一个连续的、很大范围的浮点数空间（FP16），投射到一个离散的、只有 16 个格子的整数空间（INT4 的范围是[−8,7][-8, 7][−8,7]或[0,15][0, 15][0,15]）。

最经典的线性量化（Linear Quantization）公式如下：

Xint4=clip(round(Xfp16S)+Z, −8, 7)X_{int4} = \text{clip}\left(\text{round}\left(\frac{X_{fp16}}{S}\right) + Z, \, -8, \, 7\right)Xint4=clip(round(SXfp16)+Z,−8,7)

Xfp16≈S×(Xint4−Z)X_{fp16} \approx S \times (X_{int4} - Z)Xfp16≈S×(Xint4−Z)

SSS（Scale）：缩放因子，负责把浮点数的范围等比例缩小。
ZZZ（Zero-point）：零点偏移，负责将非对称的浮点数中心对齐到整数。

由于 INT4 的表达能力极度有限（总共只有 16 个可选值），如果对整张权重矩阵只用一个SSS和ZZZ（Per-tensor 量化），会带来灾难性的精度坍塌。因此，工业界通常采用Per-group（分组量化）：比如每 128 个连续的权重通道（Group Size = 128）共享一组SSS和ZZZ，从而在压缩率和精度之间取得完美平衡。

2. 为什么 INT4 是大模型时代的“刚需”？

在 LLM 推理工程中，存在两个核心瓶颈：显存容量瓶颈和带宽访存瓶颈（Memory-Bound）。INT4 完美地击中了这两个痛点：

① 解锁低端硬件跑大模型的可能

以 Llama-3-70B 模型为例：

FP16 原生状态：仅权重本身就需要70B×2 Bytes=140 GB70\text{B} \times 2\text{ Bytes} = 140\text{ GB}70B×2Bytes=140GB显存。你必须至少使用 2 张 A100 (80GB) 或者多张消费级显卡才能把它加载起来。
INT4 量化状态：权重缩减到70B×0.5 Bytes=35 GB70\text{B} \times 0.5\text{ Bytes} = 35\text{ GB}70B×0.5Bytes=35GB显存。这意味着单张主流消费级显卡（如拥有 48GB 显存的 RTX 8000 或轻微裁剪后的 24GB/32GB 环境）或单台高性能 Mac就能直接本地流畅运行 70B 级别的神级大模型。

② 突破带宽瓶颈，大幅提升 Token 生成速度（Prefill / Decode）

在 LLM 的 Decode 阶段，生成每一个 Token 都需要把整个模型的权重从显存（HBM）中读取一遍。这时候 GPU 的算力往往是过剩的，时间全浪费在“把数据从显存搬运到计算核心”的过程中（即访存受限）。

使用了 INT4 后，网络传输的数据量减少了 75%，极大地缓解了总线带宽压力。主控芯片能以接近 4 倍的吞吐量把权重送进核心，从而让模型的单用户 Token 输出速度（Tokens per Second）获得飙升。

3. 工业界主流的 INT4 量化算法流派

直接把 FP16 暴力四舍五入到 INT4 会导致模型瞬间变“智障”。为了保住模型的“智商”，业界在 2024 至 2026 年间演进出了几种经典的 PTQ（训练后量化）硬核算法：

流派一：AWQ（Activation-aware Weight-only Quantization）

由麻省理工学院（MIT）提出，是目前 vLLM、Triton 等高性能推理引擎非常青睐的方案。

核心发现：模型权重里的所有参数并不是平等的。只有1% 的显著权重（Salient Weights）对大模型的推理准确率起到了决定性作用（这些显著权重通常与激活值中的异常值大通道对应）。
做法：AWQ 并不单独对权重动刀，而是通过观察一小段测试文本（Calibration set）在模型中的激活走势，找出那 1% 的关键权重，保持它们不被无情量化，或者通过缩放保护它们，只对剩下 99% 的普通权重进行 INT4 量化。这成功让模型在 4-bit 下保留了极其完美的逻辑推理能力。

流派二：GPTQ（Generalized Post-Training Quantization）

一种基于高阶数学近似（Hessian 矩阵）的逐层校准算法。

做法：它在量化某一层权重时，会计算量化带来的误差，并动态地去补偿和修正这一层中尚未被量化的其它权重。GPTQ 的量化速度极快，且在极端压缩（4-bit 甚至 3-bit）下展现出了非常强悍的精度鲁棒性。

流派三：Bitsandbytes (NF4)

Hugging Face 官方深度集成的开箱即用方案（常用于load_in_4bit=True的低配显卡微调/QLoRA）。

NF4（NormalFloat 4）是一种专门针对正态分布数据设计的非线性量化数据类型。因为深度学习的权重天生呈正态分布，NF4 划分的 16 个离散点在中间密集、两端稀疏，使得它在 4-bit 空间下对量化误差的捕捉能力显著超越了传统的线性 INT4。

4. 混合量化范式：W4A16 vs W4A4

在看技术文档（如 NVIDIA TensorRT-LLM 或 vLLM）时，你会经常看到这两组缩写，它们代表了不同的硬件加速策略：

W4A16（Weight-Only 4-bit）：当前工程落地最主流的形态。权重（Weight）在显存里以 4-bit 存储（极省显存）。但在 GPU 核心（Tensor Core）准备计算矩阵乘法（GEMM）的前一刻，硬件内部的解码器会实时、动态地将 INT4 权重还原回 FP16，然后与高精度的 FP16 激活值（Activation）进行常规计算。
优点：完全不破坏激活值的精度，模型几乎不掉点，完美解决了带宽和显存瓶颈。
W4A4（纯整数计算）：权重和激活值全部被量化为 4-bit，直接在 GPU 内部调用 INT4 原生 Tensor Core 进行矩阵乘法。
优点：计算速度获得物理级突破（INT4 算力吞吐远高于 FP16）。
难点：由于 LLM 的激活值中存在无法预测的超大异常值（Outliers），把激活值强行压到 4-bit 极易引发模型前言不搭后语。这通常需要配合极其复杂的平滑技术（如 SmoothQuant 的变体）才能在特定模型上落地。