传统高性能计算长期依赖物理方程的数值模型进行规模化并行,但在面对日益复杂的模拟需求时,单纯扩展硬件规模已难以突破效率与成本的瓶颈。随着AI for Science的兴起,深度学习与数据驱动的方法被引入到传统高性能计算流程中,计算负载由领域数值算法转向AI算子为中心,计算图驱动,并与传统高性能计算进行动态交互的混合计算模式,针对传统硬件架构的调优方法越来越难获得有效收益。针对这一范式变革,鲲鹏CPU及其配套软件栈通过软硬结合的协同设计,凭借高效的并行架构与深度优化的软件生态,有效应对混合负载挑战,重新定义了高性能计算与AI融合背景下的科研计算开发体验。
鲲鹏CPU采用众核架构,支持向量与矩阵计算扩展,配备高带宽片上内存,具备同时支撑高精度科学计算与高吞吐AI负载的硬件基础。然而,AI4S的高度动态性要求软件栈将硬件特性转化为开发者低感知的性能收益。
鲲鹏通过HPCKit打造了优化体系,将性能调优从高度专业化、定制化的工作重塑为可复制的系统工程。该体系以毕昇编译器为底座,实现硬件特性向应用层的高效映射;辅以鲲鹏数学库(KML),在保持主流接口兼容以支持低感知迁移的同时,大幅强化了基础计算性能。针对深层调优,鲲鹏统一并行加速库(KUPL)与MPI通信库紧密协同,支撑起复杂的调度与并行优化。最终,通过一键集成部署解决了组件适配的痛点,显著降低了开发门槛,提升了整体开发效率。
蛋白质结构预测模型 AlphaFold3(AF3)作为处理生物大分子复合物的核心应用,是验证鲲鹏架构处理极端复杂AI负载能力的典型场景。基于鲲鹏平台的优化实践,AF3 实现了全流程端到端推理性能的显著突破。其优化路径深度贯彻了鲲鹏软硬协同的演进逻辑:
- 第一步,性能瓶颈分析:基于热点分析工具对 AF3 热点算子进行瓶颈分析,确定 GridSelfAttention、TriangleMultiplication 等热点算子,抓取典型算例矩阵形状进行优化方案分析。
- 第二步,算子融合:针对热点复合算子进行算子融合,大幅降低计算过程中的冗余内存访问。具体来说,研发团队使用 FlashAttention 等“计算换空间”的方法,对中间过程中不必要的张量进行切块,保证单次计算过程中,热点数据都保留在缓存中。
- 第三步,指令集加速:充分调用ARM向量/矩阵加速单元对AF3中的高频AI算子进行重构。利用鲲鹏CPU的矩阵处理能力,大幅提升了在处理大规模多聚体数据时的并行效率,使核心张量运算实现跨越式提效。
此外,面对AF3更复杂的并行需求,研发团队基于KUPL重构了通信算子。通过共享内存机制、多线程向量化数据拷贝技术对通信算子进行加速,实现了平台能力对顶尖科研应用性能的二次释放。
鲲鹏的优化逻辑不仅局限于生命科学。在材料与工业仿真领域,上海交通大学利用鲲鹏CPU的向量化能力,完成了百万原子级的高熵合金相变模拟,突破了传统模拟的规模瓶颈。北京大学的DeepFlame燃烧仿真,基于鲲鹏硬件平台实现了高密度网格的模拟。
当前,高性能计算+AI4S正从单一应用的模拟计算向着AI智能体驱动端到端的科研流程打通演进,算力需求愈发多元化。鲲鹏通过HPCKit加速套件,将复杂的并行、通信与异构调度封装为通用能力,降低了科研用户的创新门槛。通过构建这种深度耦合、高效易用的技术体系,鲲鹏软硬协同不仅为全球科研机构提供了高性能且自主创新的算力支撑,更在行业转型中发挥了关键作用,促使高性能计算的开发范式从传统的“硬件堆叠”彻底转向“系统级协同与智能驱动”的新阶段。
基于鲲鹏硬件深度调优的高性能计算与AI4S生态应用即将陆续开源。我们诚挚邀请广大开发者共同参与,探索高性能计算的更多可能。