高性能计算：鲲鹏软硬协同定义AI4S 计算新范式-编程实验室

传统高性能计算长期依赖物理方程的数值模型进行规模化并行，但在面对日益复杂的模拟需求时，单纯扩展硬件规模已难以突破效率与成本的瓶颈。随着AI for Science的兴起，深度学习与数据驱动的方法被引入到传统高性能计算流程中，计算负载由领域数值算法转向AI算子为中心，计算图驱动，并与传统高性能计算进行动态交互的混合计算模式，针对传统硬件架构的调优方法越来越难获得有效收益。针对这一范式变革，鲲鹏CPU及其配套软件栈通过软硬结合的协同设计，凭借高效的并行架构与深度优化的软件生态，有效应对混合负载挑战，重新定义了高性能计算与AI融合背景下的科研计算开发体验。

鲲鹏CPU采用众核架构，支持向量与矩阵计算扩展，配备高带宽片上内存，具备同时支撑高精度科学计算与高吞吐AI负载的硬件基础。然而，AI4S的高度动态性要求软件栈将硬件特性转化为开发者低感知的性能收益。

鲲鹏通过HPCKit打造了优化体系，将性能调优从高度专业化、定制化的工作重塑为可复制的系统工程。该体系以毕昇编译器为底座，实现硬件特性向应用层的高效映射；辅以鲲鹏数学库（KML），在保持主流接口兼容以支持低感知迁移的同时，大幅强化了基础计算性能。针对深层调优，鲲鹏统一并行加速库（KUPL）与MPI通信库紧密协同，支撑起复杂的调度与并行优化。最终，通过一键集成部署解决了组件适配的痛点，显著降低了开发门槛，提升了整体开发效率。

蛋白质结构预测模型 AlphaFold3（AF3）作为处理生物大分子复合物的核心应用，是验证鲲鹏架构处理极端复杂AI负载能力的典型场景。基于鲲鹏平台的优化实践，AF3 实现了全流程端到端推理性能的显著突破。其优化路径深度贯彻了鲲鹏软硬协同的演进逻辑：

第一步，性能瓶颈分析：基于热点分析工具对 AF3 热点算子进行瓶颈分析，确定 GridSelfAttention、TriangleMultiplication 等热点算子，抓取典型算例矩阵形状进行优化方案分析。
第二步，算子融合：针对热点复合算子进行算子融合，大幅降低计算过程中的冗余内存访问。具体来说，研发团队使用 FlashAttention 等“计算换空间”的方法，对中间过程中不必要的张量进行切块，保证单次计算过程中，热点数据都保留在缓存中。
第三步，指令集加速：充分调用ARM向量/矩阵加速单元对AF3中的高频AI算子进行重构。利用鲲鹏CPU的矩阵处理能力，大幅提升了在处理大规模多聚体数据时的并行效率，使核心张量运算实现跨越式提效。

此外，面对AF3更复杂的并行需求，研发团队基于KUPL重构了通信算子。通过共享内存机制、多线程向量化数据拷贝技术对通信算子进行加速，实现了平台能力对顶尖科研应用性能的二次释放。

鲲鹏的优化逻辑不仅局限于生命科学。在材料与工业仿真领域，上海交通大学利用鲲鹏CPU的向量化能力，完成了百万原子级的高熵合金相变模拟，突破了传统模拟的规模瓶颈。北京大学的DeepFlame燃烧仿真，基于鲲鹏硬件平台实现了高密度网格的模拟。

当前，高性能计算+AI4S正从单一应用的模拟计算向着AI智能体驱动端到端的科研流程打通演进，算力需求愈发多元化。鲲鹏通过HPCKit加速套件，将复杂的并行、通信与异构调度封装为通用能力，降低了科研用户的创新门槛。通过构建这种深度耦合、高效易用的技术体系，鲲鹏软硬协同不仅为全球科研机构提供了高性能且自主创新的算力支撑，更在行业转型中发挥了关键作用，促使高性能计算的开发范式从传统的“硬件堆叠”彻底转向“系统级协同与智能驱动”的新阶段。

基于鲲鹏硬件深度调优的高性能计算与AI4S生态应用即将陆续开源。我们诚挚邀请广大开发者共同参与，探索高性能计算的更多可能。

告别繁琐预处理！MindSpeed LLM推出Train_from_HF功能，实现加载即训练

当前大模型研发进入“提速增效”的关键阶段，训练流程的简洁度直接影响模型的迭代频率。传统Megatron训练架构下，开发者需要先离线将HuggingFace转换为Megatron格式，再手动预处理原始数据集，步骤冗余且易出错，不仅增加了…

李华

企业内训场景下利用Taotoken搭建安全可控的AI实验环境

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度企业内训场景下利用Taotoken搭建安全可控的AI实验环境对于企业培训部门而言，引入大模型技术进行员工赋能已成为趋势。…

李华

从开发者视角谈taotoken api调用的整体稳定性体验

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度从开发者视角谈 Taotoken API 调用的整体稳定性体验在构建和运维依赖大模型能力的线上服务时，API 调用的稳定性是核心…

李华

体育实时赔率动态引擎开发全链路，从Kafka流处理到Flink状态管理再到前端毫秒同步

更多请点击： https://codechina.net 第一章：体育实时赔率动态引擎开发全链路，从Kafka流处理到Flink状态管理再到前端毫秒同步构建高并发、低延迟的体育实时赔率系统，需打通数据采集、流式计算、状态一致性与终端同步四大关键环节…

李华

如何扩展web-vmstats：添加自定义指标和集成其他系统监控工具的终极指南

如何扩展web-vmstats：添加自定义指标和集成其他系统监控工具的终极指南【免费下载链接】web-vmstats Prettify vmstats in your browser 项目地址: https://gitcode.com/gh_mirrors/we/web-vmstats web-vmstats是一个强大的Linux系统监控工具，它…

李华

KiCad泪滴插件：提升PCB可靠性的完整指南

KiCad泪滴插件：提升PCB可靠性的完整指南【免费下载链接】kicad_scripts Some kicad scripts 项目地址: https://gitcode.com/gh_mirrors/ki/kicad_scripts 在PCB设计领域，泪滴（Teardrop）功能是提升电路板可靠性的重要技术…

李华