手把手教你用Ubuntu 22.04搭建L20 GPU服务器集群（含RoCE v2配置避坑指南）-编程实验室

从零构建L20 GPU集群：Ubuntu 22.04下的RoCE v2实战指南

当企业需要部署高性能AI推理服务时，单台服务器往往难以满足吞吐量和延迟要求。本文将详细介绍如何利用两台配备L20 GPU的服务器，通过RoCE v2网络技术构建一个高性能分布式推理集群。不同于常见的教程，我们特别关注网络配置中的实际痛点，尤其是当多个25GbE端口通过链路聚合组成逻辑100GbE接口时，如何确保RDMA通信的稳定性和性能。

1. 硬件准备与基础环境搭建

在开始之前，确保您已准备好以下硬件配置：

两台服务器，每台配备：
- 8块NVIDIA L20 GPU
- 两张Mellanox CX4网卡（共4个25GbE端口）
- 至少64核CPU和512GB内存
四对DAC直连线缆（用于背靠背连接）

操作系统安装注意事项：

# 安装Ubuntu 22.04 LTS时建议选择最小化安装 sudo apt update && sudo apt full-upgrade -y # 安装必要工具包 sudo apt install -y rdma-core libibverbs-dev ibutils infiniband-diags \ perftest iputils-ping net-tools ethtool ifenslave \ ntp htop tmux

提示：禁用防火墙或确保以下端口开放：
RoCE v2通信端口（4791）
管理网络SSH端口（22）
集群管理工具所需端口

主机网络配置示例：

# /etc/netplan/01-netcfg.yaml network: version: 2 ethernets: eno1: # 管理网口 dhcp4: false addresses: [10.0.0.1/24] gateway4: 10.0.0.254 nameservers: addresses: [8.8.8.8, 8.8.4.4]

2. 深度优化RoCE v2网络配置

2.1 Mellanox驱动安装与验证

使用官方提供的OFED驱动包而非Ubuntu默认驱动，以获得最佳性能：

wget https://content.mellanox.com/ofed/MLNX_OFED-23.10-1.1.8.0/MLNX_OFED_LINUX-23.10-1.1.8.0-ubuntu22.04-x86_64.tgz tar xzf MLNX_OFED_LINUX-*.tgz cd MLNX_OFED_LINUX-23.10-1.1.8.0-ubuntu22.04-x86_64 sudo ./mlnxofedinstall --with-neohost-backend --with-nvmf --enable-gds --add-kernel-support

验证驱动安装：

ibstat # 应显示两个设备(mlx5_0, mlx5_1) ibv_devices # 检查设备列表

2.2 链路聚合与RoCE v2的完美配合

创建bond0接口聚合所有四个25GbE端口时，关键配置如下：

参数	推荐值	作用说明
mode	balance-xor	实现多链路负载均衡
mii-monitor-interval	100	链路检测间隔(毫秒)
lacp-rate	fast	快速LACP协议模式
mtu	9000	巨型帧提升吞吐量
transmit-hash-policy	layer3+4	基于IP和端口的流量分发

实际配置示例：

# /etc/netplan/02-bond-roce.yaml network: version: 2 ethernets: ens1f0: { mtu: 9000 } ens1f1: { mtu: 9000 } ens2f0: { mtu: 9000 } ens2f1: { mtu: 9000 } bonds: bond0: interfaces: [ens1f0, ens1f1, ens2f0, ens2f1] parameters: mode: balance-xor mii-monitor-interval: 100 transmit-hash-policy: layer3+4 lacp-rate: fast mtu: 9000 addresses: [192.168.100.1/24] # 另一台用192.168.100.2

2.3 避免PFC配置的常见陷阱

优先级流控制(PFC)对RoCE v2至关重要，但错误配置会导致性能下降：

# 为所有物理接口配置PFC（优先级3对应RoCE流量） for iface in ens1f0 ens1f1 ens2f0 ens2f1; do sudo mlnx_qos -i $iface --trust dscp sudo mlnx_qos -i $iface --pfc 0,0,0,1,0,0,0,0 done # 同样为bond0接口配置PFC sudo mlnx_qos -i bond0 --trust dscp sudo mlnx_qos -i bond0 --pfc 0,0,0,1,0,0,0,0

注意：必须确保两端服务器的PFC配置完全一致，否则会出现单向流控失效

3. GPU环境与NCCL调优

3.1 安装NVIDIA驱动与CUDA

针对L20 GPU，推荐使用535系列驱动和CUDA 12.3：

sudo apt install -y nvidia-driver-535 wget https://developer.download.nvidia.com/compute/cuda/12.3.2/local_installers/cuda_12.3.2_545.23.08_linux.run sudo sh cuda_12.3.2_545.23.08_linux.run --silent --driver --toolkit

验证安装：

nvidia-smi # 应显示8块L20 GPU nvcc --version # 检查CUDA版本

3.2 GPU Direct RDMA配置

启用GPU直接访问RDMA网络的能力：

# 加载内核模块 sudo modprobe nvidia-peermem # 持久化配置 echo "nvidia-peermem" | sudo tee -a /etc/modules # 验证GPU拓扑 nvidia-smi topo -m

3.3 NCCL高级参数调优

创建/etc/nccl.conf文件实现集群级优化：

# 基础调试设置 NCCL_DEBUG=INFO NCCL_DEBUG_SUBSYS=INIT,ENV,GRAPH,COLL # 网络配置 NCCL_SOCKET_IFNAME=bond0 NCCL_IB_HCA=mlx5_0:1,mlx5_0:2,mlx5_1:1,mlx5_1:2 # RoCE v2特定参数 NCCL_IB_GID_INDEX=3 NCCL_IB_TC=106 NCCL_IB_SL=3 # GPU Direct RDMA NCCL_IB_CUDA_SUPPORT=1 NCCL_NET_GDR_LEVEL=5 # 性能优化 NCCL_ALGO=COLLNET_CHAIN NCCL_BUFFSIZE=4194304

4. 分布式推理平台部署

4.1 使用Ray构建计算集群

在两台服务器上部署Ray集群：

# 主节点(server1) ray start --head --port=6379 --num-gpus=8 --dashboard-host=0.0.0.0 # 工作节点(server2) ray start --address=192.168.100.1:6379 --num-gpus=8

验证集群状态：

ray status # 应显示2个节点，共16个GPU

4.2 vLLM服务部署与优化

配置高性能推理服务：

pip install vllm transformers sentencepiece # 启动脚本示例(start_vllm.sh) #!/bin/bash source /etc/nccl.conf python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/deepseek-v3-8b \ --tensor-parallel-size 16 \ --quantization fp8 \ --gpu-memory-utilization 0.9 \ --host 0.0.0.0 \ --engine-use-ray \ --ray-address auto

性能关键参数对比：

参数	单机8卡	双机16卡	提升幅度
吞吐量(tokens/s)	1,200	2,300	91%
首token延迟(ms)	85	92	+8%
最大并发请求	32	64	100%

4.3 实际性能测试与监控

创建测试脚本评估集群性能：

# inference_test.py import ray from vllm import LLM, SamplingParams ray.init(address="auto") llm = LLM(model="deepseek-ai/deepseek-v3-8b", tensor_parallel_size=16) prompts = ["AI将如何改变医疗行业?"] * 64 sampling_params = SamplingParams(temperature=0.7, max_tokens=1024) outputs = llm.generate(prompts, sampling_params) for output in outputs: print(f"Generated {len(output.outputs[0].token_ids)} tokens")

监控工具推荐：