Alluxio AI 3.9 发布：POSIX 写缓存与 RDMA 读加速，破解分布式训练 checkpoint 写入瓶颈！-编程实验室

Alluxio AI 3.9 发布：POSIX 写缓存与 RDMA 读加速，破解分布式训练 checkpoint 写入瓶颈！

如今，分布式训练大量时间消耗在 checkpoint 写入与等待上，主流框架通过 POSIX 文件系统接口执行 checkpoint 操作，受网络带宽限制，会导致训练任务停滞。下游场景也会面临高延迟问题。

针对这一挑战，Alluxio AI 3.9 引入两个新特性：

1.POSIX 写缓存：扩展 Alluxio 写入缓存架构，从 3.8 版本针对 S3 工作负载延伸至 POSIX 文件系统接口，几乎所有分布式训练框架都使用该接口。

2.RDMA 读加速：为读路径增加 RDMA 传输支持，在具备 RDMA 能力的训练集群上实现接近线速的吞吐量。

POSIX 写缓存：全面加速训练技术栈写入能力

回顾：AI 3.8 版本推出 S3 写缓存

Alluxio AI 3.8 推出 S3 写缓存，应用写入先落到 Alluxio Worker 层所在的本地 NVMe 上，再异步刷到 S3，大幅降低 S3 场景下 AI 工作流的 PUT 延迟和写后即读延迟。

痛点：训练场景依赖 POSIX 接口

分布式训练统一使用 POSIX 接口，此前训练团队可通过 Alluxio 的 POSIX FUSE 接口加速读取，但写入端缺乏同等加速，checkpoint 写入仍需同步跨越网络传输到后端存储。

AI 3.9 持续升级：POSIX 写缓存填补空白

Alluxio AI 3.9 新增 POSIX 写缓存特性，将 3.8 版本的写回缓存架构延伸到 POSIX 路径：训练任务把 checkpoint 写入通过 POSIX 挂载的 Alluxio 文件系统；写入数据落在 Alluxio worker 基于计算侧 NVMe 盘组建的缓存池上；数据异步持久化至后端底层存储，不阻塞训练进程。对训练框架而言，文件系统挂载方式不变，写入速度质的飞跃。

为何 checkpoint 会拖慢 GPU 训练？

GPU 训练中，checkpoint 延迟代价高昂：一个 70B 参数的模型，checkpoint 文件超 250GB，同步写入时训练步骤会阻塞在最慢节点上，成百上千张 H100 GPU 空转，I/O 等待时间吞噬训练收益。这是贯穿训练过程的持续性问题，缓慢的 checkpoint 会拖慢故障恢复时间，拉低有效训练吞吐量。

POSIX 写缓存从两方面解决问题：

1.写入速度：从受限于网络传输速度提升至接近本地 NVMe 盘的写入速度。

2.写后即读：故障/错误重启、断点续训、下游数据消费等任务能以本地 NVMe 的速度高速执行。

性能实测：单节点 7.6 GiB/s，三节点线性扩展至 20 GiB/s

为验证 POSIX 写缓存在类似 checkpoint 工作负载下的性能，采用 256KB 块大小，通过 FIO 工具对 Alluxio POSIX 接口进行基准测试。

关键测试结论：

1.吞吐量接近线性扩展：worker 数量增至 3 倍，总吞吐量提升约 2.6 倍，性能可随计算层同步增长，不受后端存储限制。

2.P99 延迟稳定可控：两种集群规模下，P99 延迟均稳定低于 2ms，对 checkpoint 工作负载而言，尾部延迟决定同步 checkpoint 步骤耗时。

为 AI 团队带来的核心收益

对分布式训练团队，POSIX 写缓存带来四大核心收益：

1.更快 checkpoint 周期：无需牺牲训练吞吐量，提高 checkpoint 频率，降低任务故障损失。

2.更快的任务恢复与续训：遭遇节点抢占、硬件故障或计划内重启后，能快速恢复与断点续训。

3.更高的 GPU 实际利用率：消除同步 checkpoint 写入期间的 GPU 闲置时间，提升 GPU 有效算力利用率。

4.突发 I/O 下的稳定性能表现：高并发写入被 Alluxio 缓存层吸收，不在后端存储排队积压，确保性能可预测性与稳定性。

Alluxio 提供对 RDMA 读加速支持

Alluxio AI 3.9 为读 I/O 加速引入 RDMA 传输能力，适配搭载 InfiniBand 或 RoCE v2 网络的 GPU 集群。通过绕过内核网络协议栈，RDMA 消除数据路径上的 CPU 开销与内存拷贝，让 GPU 始终满载。该版本将 RDMA 加速应用到客户端与 Alluxio worker 之间所有的 FUSE 客户端读取 I/O 及元数据操作。

基准测试结果强劲：在配备 Mellanox ConnectX - 6 和 ConnectX - 7 网卡的 Azure 虚拟机上，200 Gbps InfiniBand 网络下 RDMA 吞吐量达 23.2 GB/s，占链路容量 92.8%；400 Gbps NDR 网络下达 49.5 GB/s，占链路容量 99.0%。4KB 小文件读取中，P99 延迟在 100 微秒以内（200G 网络下为 64µs，400G 网络下为 59µs），对 checkpoint 元数据访问和小文件训练数据集至关重要。

RDMA 与 TCP 对比优势明显：峰值带宽利用率下，RDMA 达 92.8%，TCP 仅 76.8%，效率优势 16 个百分点；生产级并发规模下，差距扩大到 24 到 29 个百分点。并发数超 16 后，TCP 性能劣化，RDMA 能继续线性扩展。

RDMA 传输采用附加式设计，可与标准 TCP 传输共存。RDMA 硬件不可用时，系统自动回退到 TCP 模式，无需数据迁移或 API 变更，现有 FUSE 挂载和兼容 S3 的访问路径正常工作。写入侧的 RDMA 支持将在后续版本推出，3.9 版本写入 I/O 仍用 TCP 传输。

总结

Alluxio AI 3.9 承接 3.8 版本演进路线：

1.3.8 版本：S3 写缓存，解决云原生工作流中的对象存储写入瓶颈。

2.3.9 版本：POSIX 写缓存，直击分布式训练核心痛点——阻塞 GPU 训练的同步 checkpoint 写入瓶颈。

凭借单个工作节点 7.6 GiB/s 的吞吐量、跨三个工作节点线性扩展至 20 GiB/s、P99 延迟稳定低于 2ms 的优异表现，Alluxio 让 checkpoint 写入不再成为训练步骤中的短板！可[申请演示](https://www.alluxio.com.cn/product/download/)观看 Alluxio AI 3.9 实际运行效果，或在《[Alluxio S3 写缓存介绍](https://www.alluxio.com.cn/alluxio-s3-write-cache/)》中阅读写缓存架构的技术深度解析。