vLLM--量化技术-编程实验室

量化的核心思想：大模型默认用 FP16（16 位浮点数）存储权重和 KV 数据，每个元素占 2 字节。量化就是把这些高精度的数据，转换成更低精度的数据（比如 INT8、INT4、FP8），每个元素只占 1 字节甚至 0.5 字节。

核心价值：

显存占用减半：INT8 量化后，权重和 KV-Cache 的显存占用直接减半
吞吐量翻倍：更小的数据意味着更快的内存读写

量化分为两大类，vLLM 都支持：

权重量化：对模型的权重参数进行量化，降低权重的显存占用
KV-Cache 量化：对 KV-Cache 进行量化，降低 KV-Cache 的显存占用

（这两个可以独立开启，也可以同时开启）

vLLM 支持的主流量化方式

FP8 量化原理（目前工业界首选）：用 8 位浮点数（FP8）来存储权重和 KV-Cache，是 NVIDIA Hopper 架构（H100、H200）的原生支持。

精度损失极小，几乎和 FP16 无差异；不需要校准，直接转换；支持硬件加速，计算速度比 FP16 更快显存占用减半

适用场景：

有 H100/H200 GPU 的生产环境；对精度要求高的场景；高吞吐量的服务场景

vLLM 配置：bash运行

vllm serve model_name --quantization fp8 --kv-cache-dtype fp8

AWQ 量化（最成熟的 INT4 量化）原理：Activation-aware Weight Quantization，激活感知权重量化。

针对权重进行 INT4 量化，每个权重只占 0.5 字节；会根据激活值的分布，对权重进行分组量化；精度损失非常小，几乎可以忽略；是目前 INT4 量化中精度最高、最稳定的方案

适用场景：

消费级 GPU 部署大模型；显存不足的场景；对精度要求较高的场景

vLLM 配置：bash运行

vllm serve model_name --quantization awq --kv-cache-dtype int8

GPTQ 量化（经典 INT4 量化）原理：GPT Post-training Quantization，后训练量化。

也是 INT4 权重量化，和 AWQ 类似；是最早的 INT4 量化方案，生态最成熟；精度比 AWQ 略低一点，但差距很小；支持的模型非常多

适用场景：

已经有 GPTQ 量化好的模型；老版本的 vLLM 部署；对精度要求不是特别高的场景

vLLM 配置：bash运行

vllm serve model_name --quantization gptq --kv-cache-dtype int8

纯 KV-Cache 量化

如果你不想量化权重，只想量化 KV-Cache，也可以单独开启：bash运行

vllm serve model_name --kv-cache-dtype int8

权重还是 FP16，保证精度；KV-Cache 用 INT8 存储，显存占用减半；吞吐量提升 30% 左右；适合对精度要求极高，但又想提升吞吐量的场景

vLLM 量化参数调优核心参数

参数	作用	推荐值
`--quantization`	权重量化方式	`fp8`/`awq`/`gptq`
`--kv-cache-dtype`	KV-Cache 的数据类型	`fp8`/`int8`/`fp16`
`--max-lora-rank`	多 LoRA 时的 rank	64
`--max-loras`	最大同时加载的 LoRA 数量	128

告别投影偏差！BEVFusion实战：用Python在nuScenes数据集上复现LiDAR-Camera融合感知

BEVFusion实战指南：从零构建LiDAR-Camera融合感知系统在自动驾驶感知领域，多模态传感器融合已成为提升环境理解能力的关键技术。本文将带您深入BEVFusion算法的工程实现细节，通过Python代码在nuScenes数据集上完整复现这一前沿的LiDAR-Camera…

李华

从Stata/R代码实操出发：手把手教你用双重差分法（DID）评估一个‘政策’的真实效果

从Stata/R代码实操出发：手把手教你用双重差分法（DID）评估一个‘政策’的真实效果评估政策效果是实证研究中的常见需求，而双重差分法（DID）因其直观性和有效性成为广泛使用的工具。本文将以某城市"人才引…

李华

接入内网工具删除

鼠鼠之前在一个公司实习，公司有点抠门，要实习生拿自己的电脑进行开发，我就使用了自己的电脑。想要连接公司的内网需要下载一个加入内网的工具，在我离职的时候当时没有删，觉得这个就只是删除一个软件而已。结果回了学校…

李华

常用 ANC DSP 芯片及算法大全

一、主流 ANC DSP 芯片厂商及产品1. 集成蓝牙音频 SoC（TWS 耳机 / 头戴式耳机主流）这类芯片将蓝牙控制器、音频编解码器和 ANC DSP 集成在单一芯片中，是消费级音频设备的首选方案。厂商代表芯片核心特点典型应用高通 (Qualcomm)QCC5181/QCC51…

李华

别再手动算卡路里了！用Python+OpenCV做个AI食物热量估算器（附完整代码）

用PythonOpenCV打造智能食物热量估算系统：从拍照到卡路里计算的全流程指南每次面对一盘美食时，你是否好奇它究竟含有多少卡路里？传统的手动计算方式既繁琐又不准确。本文将带你用Python和OpenCV构建一个完整的AI食物热量估算系统，…

李华

量化的核心思想：大模型默认用 FP16（16 位浮点数）存储权重和 KV 数据，每个元素占 2 字节。量化就是把这些高精度的数据，转换成更低精度的数据（比如 INT8、INT4、FP8），每个元素只占 1 字节甚至 0.5 字节。

量化分为两大类，vLLM 都支持：

vLLM 支持的主流量化方式

FP8 量化原理（目前工业界首选）：用 8 位浮点数（FP8）来存储权重和 KV-Cache，是 NVIDIA Hopper 架构（H100、H200）的原生支持。

AWQ 量化（最成熟的 INT4 量化）原理：Activation-aware Weight Quantization，激活感知权重量化。

GPTQ 量化（经典 INT4 量化）原理：GPT Post-training Quantization，后训练量化。

纯 KV-Cache 量化

vLLM 量化参数调优核心参数

告别投影偏差！BEVFusion实战：用Python在nuScenes数据集上复现LiDAR-Camera融合感知

从Stata/R代码实操出发：手把手教你用双重差分法（DID）评估一个‘政策’的真实效果

接入内网工具删除

常用 ANC DSP 芯片及算法大全

别再手动算卡路里了！用Python+OpenCV做个AI食物热量估算器（附完整代码）

第一次的博客