AI 超节点服务器开始疯狂爆发，128卡正在成为新标杆？从阿里云磐久到新华三 UniPoD，看懂 AI 数据中心为什么正在“巨型化”-编程实验室

前言

如果你这两年一直在关注 AI、大模型、GPU 服务器、数据中心、云计算这些行业，你一定会发现一个非常明显的变化：整个 AI 基础设施行业，正在进入一种前所未有的“堆算力时代”。尤其从 2024 下半年开始，到现在 2026 年，全球云厂商、服务器厂商、IDC 厂商、GPU 集群厂商几乎全部都在疯狂往一个方向卷——超节点（Super Node）。很多以前只存在于顶级 AI 实验室里的东西，现在已经开始慢慢变成行业新标准。尤其最近阿里云和新华三接连发布的新一代 AI 超节点服务器，更是直接把整个行业推向了“128卡时代”。

很多新人第一次看到“128卡超节点”这种东西的时候，第一反应通常都是：“不就是 GPU 更多吗？”但真正做过 AI 训练、分布式推理、大模型集群的人都知道，AI 超节点真正可怕的地方，从来都不是“卡多”，而是：

“高密度 + 超高速互联 + Scale-up 架构”。

尤其最近阿里云发布的磐久 AL128 超节点服务器，直接把行业关注度拉满。因为它不仅仅是单机柜 128 卡，更关键的是它开始强调：

“单节点运行万亿参数模型”。

这个事情其实意义非常大，因为它意味着整个 AI 基础设施逻辑正在发生变化。

以前很多 AI 训练集群，本质上还是：

“多服务器拼接”。

例如：

8卡服务器
16卡服务器
多节点 RDMA
InfiniBand 网络

通过横向扩展（Scale-out）来做大模型训练。

但问题是，当模型越来越大之后，传统 Scale-out 开始出现越来越严重的问题：

卡间通信瓶颈
网络延迟
同步开销
带宽不够
GPU 利用率下降

真正做过大模型训练的人都知道，现在 AI 行业最大的问题，其实早就不是：

“有没有 GPU”。

而是：

“GPU 之间怎么通信”。

而超节点，本质上其实就是整个行业开始从：

“分散式 GPU 集群”

转向：

“超高密度统一 GPU 池”。

这也是为什么最近：

阿里云。
新华三。
NVIDIA。
超聚变。
浪潮。
华为。

全部都在疯狂推进超节点。

因为未来 AI 拼的已经不只是：

GPU 数量。

而是：

“GPU 互联效率”。

一、为什么 AI 行业突然开始疯狂卷“超节点”？

很多新人第一次接触 AI 集群的时候，会觉得：

“GPU 越多越强”。

但真正做过 AI 训练的人都知道，这句话其实只对了一半。

因为 GPU 多不代表效率高。

真正影响 AI 训练速度的，其实是：

通信。

尤其大模型时代之后，这个问题越来越严重。

例如：

GPT。
多模态模型。
视频模型。
Agent 模型。

这些东西参数规模越来越恐怖。

从几十亿参数。

到千亿。

再到万亿。

这意味着什么？

意味着：

GPU 之间需要疯狂同步数据。

而传统服务器架构很容易出现：

“GPU 等 GPU”。

真正做过 CUDA、NCCL、分布式训练的人都知道，现在很多时候 GPU 利用率上不去，并不是算力不够，而是：

互联带宽不够。

下面这个表，其实就能直观看懂传统 AI 集群的问题：

问题	传统集群表现
GPU通信	延迟高
网络同步	开销大
Scale-out	越大越难调度
GPU利用率	容易下降
训练效率	后期衰减明显
功耗	急剧增加

所以现在整个行业开始越来越强调：

Scale-up。

什么意思？

简单来说：

不是继续疯狂加服务器。

而是：

把更多 GPU 放进“一个超节点”。

二、阿里云磐久 AL128 为什么会引发行业震动？

这个其实是最近国内 AI 基础设施行业最大的热点之一。

因为阿里云这次发布的：

磐久 AL128 超节点。

核心意义其实并不只是：

“128 卡”。

真正重要的是：

“单节点”。

很多新人第一次看这个新闻，可能只会觉得：

GPU 更多了。

但真正懂 AI 基础设施的人都知道，单节点支持 128 卡意味着：

整个 GPU 池开始真正高度融合。

而且阿里云这次还搭载了：

真武 M890。

也就是阿里自研训推一体 AI 芯片。

这个事情其实非常关键。

因为现在全球 AI 行业有个特别明显的问题：

太依赖 NVIDIA。

无论：

训练。
推理。
CUDA。
GPU生态。

几乎全都绕不开 NVIDIA。

所以现在全球云厂商都在想办法：

做自己的 AI 芯片。

例如：

AWS Trainium
Google TPU
华为昇腾
阿里真武

本质上其实都是同一个逻辑：

“降低 AI 基础设施依赖”。

而阿里云 AL128 最大亮点之一，就是：

超高密度 GPU 互联。

真正做过 AI 集群的人都知道，现在 AI 行业真正值钱的已经不是：

“单卡性能”。

而是：

“卡间带宽”。

三、新华三 UniPoD S80000 为什么开始强调“16384卡扩展”？

这个其实特别有意思。

因为新华三这次发布的 UniPoD S80000，本质上已经不只是服务器了，而是在往：

“AI 超算底座”

方向走。

尤其：

16384 卡扩展。

这个数字其实非常恐怖。

真正做过 AI 集群的人都知道，当 GPU 数量超过一定规模之后，最大问题已经不再是：

算力。

而是：

调度。

因为：

网络拓扑
RDMA
IB交换机
GPU同步
显存通信

这些东西复杂度会指数级上升。

所以现在很多 AI 超节点，其实已经越来越像：

“超级计算机”。

下面这个表，其实能直观看懂 AI 超节点演进方向：

阶段	特点
单机8卡	传统AI服务器
单机16卡	高密度GPU
单机32卡	超融合开始
单机128卡	超节点时代
万卡集群	AI超算中心

真正做过 AI Infra 的人都知道，未来 AI 数据中心一定会越来越：

“超算化”。

四、为什么行业突然开始强调“Scale-up”？

这个其实是 AI 基础设施最近最大的变化之一。

以前整个互联网行业特别喜欢：

Scale-out。

也就是：

横向扩容。

服务器不够？

继续加机器。

但 AI 不一样。

因为 AI 特别依赖：

低延迟互联。

尤其：

Transformer。

MoE。

超大模型。

这些东西会导致 GPU 之间通信量极其夸张。

所以现在越来越多人开始意识到：

继续横向扩容并不是最优解。

于是整个行业开始转向：

Scale-up。

也就是：

“单节点尽可能大”。

因为这样能显著提升：

GPU带宽
通信效率
推理性能
训练速度

真正做过大模型的人都知道，未来 AI 集群真正拼的已经不是：

“有多少 GPU”。

而是：

“GPU 之间跑得有多快”。

五、为什么 AI 数据中心开始越来越像“液冷超算”？

很多人现在只关注 GPU，但实际上 AI 行业最近还有个特别大的变化：

散热革命。

因为现在 GPU 功耗已经越来越离谱。

例如：

H100
B200
AI ASIC

很多单卡功耗都非常夸张。

而超节点又会把大量 GPU 高密度堆叠。

这意味着：

传统风冷已经越来越顶不住。

所以最近越来越多 AI 数据中心开始全面推进：

液冷。

尤其：

冷板液冷。

浸没液冷。

这些技术。

新华三这次甚至提到：

PUE 可控制在 1.04 以下。

真正做过 IDC 的人都知道：

PUE 越低。

意味着：

能源效率越高。

而未来 AI 数据中心最大成本之一，其实就是：

电费。

所以未来 AI 数据中心一定会越来越：

液冷化。

六、为什么未来 AI 服务器会越来越“超节点化”？

这个其实已经是行业共识了。

因为 AI 模型还会继续膨胀。

尤其：

多模态
视频生成
Agent
世界模型
AI搜索

这些方向。

都会继续推动：

模型规模增长。

而模型越大。

GPU 通信压力越大。

所以未来 AI 基础设施一定会继续往：

超节点
高速互联
GPU池化
Scale-up
液冷
AI超算中心

这些方向发展。

真正做过 AI 的人都知道，未来 AI 行业真正值钱的，已经不仅仅是：

GPU。

而是：

“整个 AI 基础设施体系”。

AI 超节点服务器开始疯狂爆发，128卡正在成为新标杆？从阿里云磐久到新华三 UniPoD，看懂 AI 数据中心为什么正在“巨型化”

前言

一、为什么 AI 行业突然开始疯狂卷“超节点”？

二、阿里云磐久 AL128 为什么会引发行业震动？

三、新华三 UniPoD S80000 为什么开始强调“16384卡扩展”？

四、为什么行业突然开始强调“Scale-up”？

五、为什么 AI 数据中心开始越来越像“液冷超算”？

六、为什么未来 AI 服务器会越来越“超节点化”？

百考通AI降重/降AIGC：论文合规优化的精准解决方案，轻松输出专业内容

完全掌握Forza Mods AIO：免费解锁《极限竞速》游戏修改工具的全部潜力

AI智能问数怎么实现？从需求到落地的全路径

判断力：AI落地的最后一块拼图——为什么说它与Token、Transformer同等重要

别再用EasyX了！用纯C和Windows API写贪吃蛇，彻底搞懂游戏循环

8051汇编开发中A与ACC寄存器差异解析