news 2026/5/25 1:35:33

vLLM--量化技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vLLM--量化技术

量化的核心思想:大模型默认用 FP16(16 位浮点数)存储权重和 KV 数据,每个元素占 2 字节。量化就是把这些高精度的数据,转换成更低精度的数据(比如 INT8、INT4、FP8),每个元素只占 1 字节甚至 0.5 字节。

核心价值

  • 显存占用减半:INT8 量化后,权重和 KV-Cache 的显存占用直接减半
  • 吞吐量翻倍:更小的数据意味着更快的内存读写

量化分为两大类,vLLM 都支持:

  1. 权重量化:对模型的权重参数进行量化,降低权重的显存占用
  2. KV-Cache 量化:对 KV-Cache 进行量化,降低 KV-Cache 的显存占用

(这两个可以独立开启,也可以同时开启)

vLLM 支持的主流量化方式

FP8 量化原理(目前工业界首选):用 8 位浮点数(FP8)来存储权重和 KV-Cache,是 NVIDIA Hopper 架构(H100、H200)的原生支持。

  • 精度损失极小,几乎和 FP16 无差异;不需要校准,直接转换;支持硬件加速,计算速度比 FP16 更快显存占用减半

适用场景

  • 有 H100/H200 GPU 的生产环境;对精度要求高的场景;高吞吐量的服务场景

vLLM 配置:bash运行

vllm serve model_name --quantization fp8 --kv-cache-dtype fp8

AWQ 量化(最成熟的 INT4 量化)原理:Activation-aware Weight Quantization,激活感知权重量化。

  • 针对权重进行 INT4 量化,每个权重只占 0.5 字节;会根据激活值的分布,对权重进行分组量化;精度损失非常小,几乎可以忽略;是目前 INT4 量化中精度最高、最稳定的方案

适用场景

  • 消费级 GPU 部署大模型;显存不足的场景;对精度要求较高的场景

vLLM 配置:bash运行

vllm serve model_name --quantization awq --kv-cache-dtype int8

GPTQ 量化(经典 INT4 量化)原理:GPT Post-training Quantization,后训练量化。

  • 也是 INT4 权重量化,和 AWQ 类似;是最早的 INT4 量化方案,生态最成熟;精度比 AWQ 略低一点,但差距很小;支持的模型非常多

适用场景

  • 已经有 GPTQ 量化好的模型;老版本的 vLLM 部署;对精度要求不是特别高的场景

vLLM 配置:bash运行

vllm serve model_name --quantization gptq --kv-cache-dtype int8

纯 KV-Cache 量化

如果你不想量化权重,只想量化 KV-Cache,也可以单独开启:bash运行

vllm serve model_name --kv-cache-dtype int8
  • 权重还是 FP16,保证精度;KV-Cache 用 INT8 存储,显存占用减半;吞吐量提升 30% 左右;适合对精度要求极高,但又想提升吞吐量的场景

vLLM 量化参数调优核心参数

参数

作用

推荐值

--quantization

权重量化方式

fp8/awq/gptq

--kv-cache-dtype

KV-Cache 的数据类型

fp8/int8/fp16

--max-lora-rank

多 LoRA 时的 rank

64

--max-loras

最大同时加载的 LoRA 数量

128

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/25 1:31:00

接入内网工具删除

鼠鼠之前在一个公司实习,公司有点抠门,要实习生拿自己的电脑进行开发,我就使用了自己的电脑。想要连接公司的内网需要下载一个加入内网的工具,在我离职的时候当时没有删,觉得这个就只是删除一个软件而已。结果回了学校…

作者头像 李华
网站建设 2026/5/25 1:27:30

常用 ANC DSP 芯片及算法大全

一、主流 ANC DSP 芯片厂商及产品1. 集成蓝牙音频 SoC(TWS 耳机 / 头戴式耳机主流)这类芯片将蓝牙控制器、音频编解码器和 ANC DSP 集成在单一芯片中,是消费级音频设备的首选方案。厂商代表芯片核心特点典型应用高通 (Qualcomm)QCC5181/QCC51…

作者头像 李华
网站建设 2026/5/25 1:23:58

第一次的博客

我是???计划考研由于是跨考,计划从0开始,先打c语言基础,再学习数据结构每天二~三小时暂无

作者头像 李华