LLM 推理性能深潜：为什么 L20 跑不过 A800？——从带宽瓶颈到多并发调优-编程实验室

核心观点：LLM 的 Decode（生成）阶段是典型的Memory Bandwidth Bound（显存带宽密集型）任务。GPU 大部分时间不是在“计算”，而是在“搬运数据”。带宽决定了上限，Batch Size 决定了并发效率。

1. 核心矛盾：计算极快 vs 搬运极慢

要理解 LLM 推理的性能瓶颈，必须将过程拆解为两个阶段：

1.1 Prefill（预填充/提示词处理）

特征：并行处理所有输入 Token。
瓶颈类型：Compute Bound（计算密集型）。
表现：GPU 算力满载，速度取决于 TFLOPS。此时增加 Batch Size 能显著提升 GPU 利用率。

1.2 Decode（解码/生成阶段）

特征：自回归生成，每次只产生1 个Token，然后将其加入上下文，再生成下一个。
瓶颈类型：Memory Bandwidth Bound（显存带宽密集型）。
微观流程：
1. Load Weights：从显存（HBM/GDDR）读取整个模型的权重参数到计算单元。
2. Compute：执行矩阵-向量乘法（Matrix-Vector Multiplication）。由于输入仅为 1 个 Token，计算量极小（O(N)O(N)）。
3. Store KV Cache：将新生成的 Key-Value 缓存写回显存。

关键洞察：现代 GPU 的计算能力极强，完成一次单 Token 的前向传播计算仅需几微秒。然而，为了这几微秒的计算，GPU 必须从显存中搬运整个模型权重（例如 Qwen2.5-7B BF16 约 14GB）。

比喻：你请了一位世界顶级数学家（GPU Core）做一道简单的加法题（生成 1 Token）。算题只需 1 秒，但去图书馆深处把参考书（权重）搬过来需要 10 分钟。瓶颈不在于算得慢，而在于路（带宽）太窄，书搬得慢。

2. 理论速度上限推导

在 Decode 阶段，忽略微小的计算时间和 KV Cache 写入开销，单个 Token 的生成时间主要由权重搬运时间决定。

2.1 基础公式

因此，理论上的最大生成速度（TPS, Tokens Per Second）为：

(注：此公式适用于 Batch Size = 1 的理想情况)

2.2 引入 Batch Size 的影响

当 Batch Size > 1 时，GPU 一次性加载权重，服务于 NN 个请求。

单次迭代耗时 (Step Time)：依然近似等于搬运权重的时间（因为计算开销占比极低）。

结论：在纯带宽瓶颈下，增加并发用户数（Batch Size）几乎不会降低单个用户的生成速度，而是线性提升服务器的总吞吐量。只要显存装得下，Batch=10 时每个用户感受到的速度和 Batch=1 时几乎一样。

3. 实战量化分析：L20 vs A800

让我们代入真实数据，看看为什么 L20 在并发场景下显得“慢”。

3.1 硬件参数对比

指标	NVIDIA L20 (48GB)	NVIDIA A800 (80GB)	备注
显存类型	GDDR6	HBM2e	HBM 带宽远高于 GDDR
显存带宽	~864 GB/s	~2039 GB/s	A800 是 L20 的 2.36 倍
模型大小	Qwen2.5-7B (BF16) ≈ 14 GB	同左	假设未量化

3.2 理论极限计算 (Batch=1)

初步结论：仅从带宽看，A800 的单用户生成速度理论上是 L20 的2.36 倍。

3.3 现实世界的工程损耗 (Overhead)

理论值是理想状态，实际工程中需考虑以下损耗，通常引入效率系数 ηη (0.7 ~ 0.85)：

KV Cache 读写：随着序列变长，KV Cache 的读写带宽占用增加。
框架开销：vLLM/TensorRT 的调度、Python/C++ 交互、CUDA Kernel 启动延迟。
内存碎片与对齐：实际带宽利用率很难达到 100%。
变长序列 Padding：Batch 中请求长度不一导致的计算浪费。

修正后的实际预估 (η≈0.75η≈0.75)：

L20 实际单用户速度：61.7×0.75≈46∼50 Tokens/s61.7×0.75≈46∼50 Tokens/s
A800 实际单用户速度：145.6×0.75≈109∼115 Tokens/s145.6×0.75≈109∼115 Tokens/s

3.4 并发场景下的表现 (Batch=10)

假设我们在 L20 上运行 10 个并发请求：

单次迭代耗时 (Step Time)：
- 权重搬运：14 GB/864 GB/s≈0.0162 s14 GB/864 GB/s≈0.0162 s
- KV Cache 额外开销：假设平均序列 2k，10 个请求的 KV 读写约增加 10%-20% 耗时。
- 估算 Step Time ≈0.018 s≈0.018 s。

验证你的测试数据：你之前测得 L20 单卡 10 并发下，生成 ~60 tokens 耗时 ~1.1s - 1.3s。

推算速度：60/1.2≈50 Tokens/s60/1.2≈50 Tokens/s。
这与我们的理论估算 (46-55 Tokens/s) 高度吻合！

为什么你觉得慢？因为 A800 在同样条件下，单用户速度可达 ~110 Tokens/s。生成 60 tokens 仅需 ~0.55s。L20 的 1.2s vs A800 的 0.55s，差距正是由 2.36 倍的带宽差异决定的。

4. 为什么 GDDR6 (L20) 比 HBM2e (A800) 慢这么多？

特性	HBM (High Bandwidth Memory)	GDDR6 (Graphics DDR)
设计初衷	专为 AI/HPC 设计	专为图形渲染设计
总线位宽	极宽 (A800: 5120-bit+)	较窄 (L20: 384-bit)
堆叠技术	TSV (硅通孔) 垂直堆叠，距离短	平面布局，距离相对长
优势	超高带宽，低延迟	成本低，容量易做大 (48GB+)
劣势	昂贵，功耗高，制造复杂	带宽受限，不适合极致低延迟推理

Infra 选型建议：

追求低延迟 (Low Latency)：选 A800/H100/A100。带宽高，Token 生成快。
追求高性价比/大显存 (Cost/VRAM)：选 L20/4090。能跑起大模型，但生成速度慢，适合对实时性要求不极高的场景，或配合量化使用。

5. 如何突破带宽瓶颈？（优化手段）

既然带宽是物理天花板，我们无法改变硬件，但可以通过软件手段提升有效带宽利用率或减少数据搬运量。

5.1 模型量化 (Quantization) —— 最有效的手段

将 FP16/BF16 (2 Bytes/param) 转为 INT8 (1 Byte) 或 INT4 (0.5 Byte)。

效果：模型体积减半或减至 1/4，需要搬运的数据量相应减少。
收益：TPS 直接翻倍或翻四倍。
案例：Qwen2.5-7B INT4 在 L20 上，理论 TPS 可从 ~50 提升至~100+ Tokens/s，接近 A800 BF16 的水平。

5.2 连续批处理 (Continuous Batching)

利用 vLLM 的 PagedAttention 技术，动态管理 KV Cache。

效果：消除静态 Batching 中的 Padding 浪费，确保 GPU 始终处于高吞吐状态。
注意：这提升的是总吞吐量，对单用户延迟改善有限，但能支撑更高并发。

5.3 限制输出长度 (Max Tokens)

效果：直接减少 Decode 阶段的迭代次数。
策略：对于聊天机器人，设置max_tokens=64或128，可显著降低 E2E 延迟，避免长尾效应。

5.4 硬件扩展 (Tensor Parallelism)

策略：使用 2 张 L20 组成 TP=2。
效果：总带宽翻倍 (~1700 GB/s)，接近单张 A800。
代价：引入跨卡通信开销 (All-Reduce)。对于 7B 小模型，TP=2 的收益可能不如量化明显，但对于更大模型是必经之路。

6. 总结

LLM 推理 (Decode) 是“搬砖”工作：瓶颈在于显存带宽，而非计算算力。
带宽决定单用户速度：L20 (864 GB/s) 的理论单用户速度约为 A800 (2039 GB/s) 的 42%。实测数据 (50 TPS vs 110 TPS) 完美印证了这一比例。
并发不降速：在带宽瓶颈下，增加 Batch Size 会线性提升总吞吐量，但不会显著提升单用户的生成速度（除非 Batch 太小导致 GPU 闲置）。
破局之道：
- 短期：限制max_tokens，优化 Prompt。
- 中期：量化模型 (INT4/AWQ)，这是在不换硬件情况下提升 L20 性能的最强手段。
- 长期：升级至高带宽硬件 (A800/H100) 或采用多卡 TP 架构。