Alluxio AI 3.9 发布:POSIX 写缓存与 RDMA 读加速,破解分布式训练 checkpoint 写入瓶颈!
如今,分布式训练大量时间消耗在 checkpoint 写入与等待上,主流框架通过 POSIX 文件系统接口执行 checkpoint 操作,受网络带宽限制,会导致训练任务停滞。下游场景也会面临高延迟问题。
针对这一挑战,Alluxio AI 3.9 引入两个新特性:
1.POSIX 写缓存:扩展 Alluxio 写入缓存架构,从 3.8 版本针对 S3 工作负载延伸至 POSIX 文件系统接口,几乎所有分布式训练框架都使用该接口。
2.RDMA 读加速:为读路径增加 RDMA 传输支持,在具备 RDMA 能力的训练集群上实现接近线速的吞吐量。
POSIX 写缓存:全面加速训练技术栈写入能力
回顾:AI 3.8 版本推出 S3 写缓存
Alluxio AI 3.8 推出 S3 写缓存,应用写入先落到 Alluxio Worker 层所在的本地 NVMe 上,再异步刷到 S3,大幅降低 S3 场景下 AI 工作流的 PUT 延迟和写后即读延迟。
痛点:训练场景依赖 POSIX 接口
分布式训练统一使用 POSIX 接口,此前训练团队可通过 Alluxio 的 POSIX FUSE 接口加速读取,但写入端缺乏同等加速,checkpoint 写入仍需同步跨越网络传输到后端存储。
AI 3.9 持续升级:POSIX 写缓存填补空白
Alluxio AI 3.9 新增 POSIX 写缓存特性,将 3.8 版本的写回缓存架构延伸到 POSIX 路径:训练任务把 checkpoint 写入通过 POSIX 挂载的 Alluxio 文件系统;写入数据落在 Alluxio worker 基于计算侧 NVMe 盘组建的缓存池上;数据异步持久化至后端底层存储,不阻塞训练进程。对训练框架而言,文件系统挂载方式不变,写入速度质的飞跃。
为何 checkpoint 会拖慢 GPU 训练?
GPU 训练中,checkpoint 延迟代价高昂:一个 70B 参数的模型,checkpoint 文件超 250GB,同步写入时训练步骤会阻塞在最慢节点上,成百上千张 H100 GPU 空转,I/O 等待时间吞噬训练收益。这是贯穿训练过程的持续性问题,缓慢的 checkpoint 会拖慢故障恢复时间,拉低有效训练吞吐量。
POSIX 写缓存从两方面解决问题:
1.写入速度:从受限于网络传输速度提升至接近本地 NVMe 盘的写入速度。
2.写后即读:故障/错误重启、断点续训、下游数据消费等任务能以本地 NVMe 的速度高速执行。
性能实测:单节点 7.6 GiB/s,三节点线性扩展至 20 GiB/s
为验证 POSIX 写缓存在类似 checkpoint 工作负载下的性能,采用 256KB 块大小,通过 FIO 工具对 Alluxio POSIX 接口进行基准测试。
关键测试结论:
1.吞吐量接近线性扩展:worker 数量增至 3 倍,总吞吐量提升约 2.6 倍,性能可随计算层同步增长,不受后端存储限制。
2.P99 延迟稳定可控:两种集群规模下,P99 延迟均稳定低于 2ms,对 checkpoint 工作负载而言,尾部延迟决定同步 checkpoint 步骤耗时。
为 AI 团队带来的核心收益
对分布式训练团队,POSIX 写缓存带来四大核心收益:
1.更快 checkpoint 周期:无需牺牲训练吞吐量,提高 checkpoint 频率,降低任务故障损失。
2.更快的任务恢复与续训:遭遇节点抢占、硬件故障或计划内重启后,能快速恢复与断点续训。
3.更高的 GPU 实际利用率:消除同步 checkpoint 写入期间的 GPU 闲置时间,提升 GPU 有效算力利用率。
4.突发 I/O 下的稳定性能表现:高并发写入被 Alluxio 缓存层吸收,不在后端存储排队积压,确保性能可预测性与稳定性。
Alluxio 提供对 RDMA 读加速支持
Alluxio AI 3.9 为读 I/O 加速引入 RDMA 传输能力,适配搭载 InfiniBand 或 RoCE v2 网络的 GPU 集群。通过绕过内核网络协议栈,RDMA 消除数据路径上的 CPU 开销与内存拷贝,让 GPU 始终满载。该版本将 RDMA 加速应用到客户端与 Alluxio worker 之间所有的 FUSE 客户端读取 I/O 及元数据操作。
基准测试结果强劲:在配备 Mellanox ConnectX - 6 和 ConnectX - 7 网卡的 Azure 虚拟机上,200 Gbps InfiniBand 网络下 RDMA 吞吐量达 23.2 GB/s,占链路容量 92.8%;400 Gbps NDR 网络下达 49.5 GB/s,占链路容量 99.0%。4KB 小文件读取中,P99 延迟在 100 微秒以内(200G 网络下为 64µs,400G 网络下为 59µs),对 checkpoint 元数据访问和小文件训练数据集至关重要。
RDMA 与 TCP 对比优势明显:峰值带宽利用率下,RDMA 达 92.8%,TCP 仅 76.8%,效率优势 16 个百分点;生产级并发规模下,差距扩大到 24 到 29 个百分点。并发数超 16 后,TCP 性能劣化,RDMA 能继续线性扩展。
RDMA 传输采用附加式设计,可与标准 TCP 传输共存。RDMA 硬件不可用时,系统自动回退到 TCP 模式,无需数据迁移或 API 变更,现有 FUSE 挂载和兼容 S3 的访问路径正常工作。写入侧的 RDMA 支持将在后续版本推出,3.9 版本写入 I/O 仍用 TCP 传输。
总结
Alluxio AI 3.9 承接 3.8 版本演进路线:
1.3.8 版本:S3 写缓存,解决云原生工作流中的对象存储写入瓶颈。
2.3.9 版本:POSIX 写缓存,直击分布式训练核心痛点——阻塞 GPU 训练的同步 checkpoint 写入瓶颈。
凭借单个工作节点 7.6 GiB/s 的吞吐量、跨三个工作节点线性扩展至 20 GiB/s、P99 延迟稳定低于 2ms 的优异表现,Alluxio 让 checkpoint 写入不再成为训练步骤中的短板!可[申请演示](https://www.alluxio.com.cn/product/download/)观看 Alluxio AI 3.9 实际运行效果,或在《[Alluxio S3 写缓存介绍](https://www.alluxio.com.cn/alluxio-s3-write-cache/)》中阅读写缓存架构的技术深度解析。