基于华为昇腾AI处理器的CANN生态全景图系列（二）：华为昇腾AI处理器是什么？为什么会跟CANN有关系呢？-编程实验室

昇腾AI基础软硬件平台包含华为Atlas系列硬件及伙伴自有品牌硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX和一站式开发平台ModelArts等。

昇腾AI处理器通过模组、板卡、小站、服务器、集群等产品形态构建面向“云、边、端”的全场景基础设施解决方案。昇腾384超节点采用对等计算架构与智能互联总线协议，突破冯·诺依曼架构限制，实现内存统一编址与集群通信优化，支撑大规模AI集群协作。异构计算架构CANN支持系列化芯片硬件差异，全场景AI框架昇思MindSpore可实现云边端协同部署并原生支持大模型训练。昇腾应用使能MindX包含深度学习、智能边缘与行业开发套件，ModelArts提供云原生一站式AI开发平台。

关于昇腾计算：

基于华为昇腾系列（HUAWEI Ascend）AI处理器和基础软件构建Atlas人工智能计算解决方案，包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态，打造面向“端、边、云”的全场景AI基础设施方案，覆盖深度学习领域推理和训练全流程。

昇腾910 AI 训练处理器（云）：

昇腾910是华为公司研发的人工智能处理器芯片，于2019年8月23日在深圳发布，采用7nm工艺制程和自研达芬奇架构，半精度算力达256 TFLOPS，功耗310W，主要面向数据中心AI训练场景。该芯片与MindSpore开源计算框架协同，支撑大规模模型训练和分布式计算，应用于医疗影像分析、金融风控建模等领域。

昇腾910是华为公司研发的人工智能处理器芯片，于2019年8月23日在深圳发布，采用7nm工艺制程和自研达芬奇架构，半精度算力达256 TFLOPS，功耗310W，主要面向数据中心AI训练场景。

技术性能

该芯片与MindSpore开源计算框架协同，支撑大规模模型训练和分布式计算，应用于医疗影像分析、金融风控建模等领域。昇腾910B在部分场景性能可对标英伟达A100芯片，910C在DeepSeek推理任务中达到H100芯片性能的60%。华鲲振宇推出的HuaKun AT958 B3服务器搭载昇腾910C芯片，实测性能为上代2.2倍。

昇腾910采用台积电7nm EUV工艺制造，基于华为自研的“达芬奇”架构(麒麟990系列中的NPU单元也是此架构)，最多32核心，热设计功耗350W。它的半精度浮点性能高达256TFlops，内核面积182.4平方毫米，运算密度超过NVIDIA V100、Google TPU v3，还有2048个节点组成的AI服务器，整体性能高达512PFlops。

华为曾表示，昇腾910加上全场景AI计算框架MindSpore的推出，标志着华为已完成全栈全场景AI解决方案的构建，也标志着华为AI战略的执行进入了新阶段。

昇腾310 AI 训练处理器（端/边）：

华为昇腾310B（Ascend310B）是一款高性能、低功耗的AI处理器，专为边缘计算和推理应用场景而设计。它基于华为自研的达芬奇架构，具备强大的计算能力和高效的运算效率，能够支持多种深度学习框架和算法，为智能安防、智能交通、工业互联网等领域提供卓越的AI推理解决方案。

昇腾310芯片是华为技术有限公司研发的人工智能芯片，属于昇腾系列首款产品，于2018年11月在第五届世界互联网大会上发布，并被评选为年度15项代表性领先科技成果之一 [3] [6]。该芯片采用自研达芬奇计算架构，单颗算力达16T，支持边缘计算场景，可高效处理图像识别、目标检测等任务。

一颗昇腾310芯片可以实现高达16T的现场算力，支持同时识别包括人、物体、交通标志、障碍物在内的两百个不同目标，一秒钟可处理上千张图片，无论在急速行驶的汽车上还是高速运转的生产线，无论是复杂的科学研究还是日常教育活动，昇腾310可以为各行各业提供触手可及的高效算力。

意义：

现在 AI 浪潮风起云涌，到处都在搞 AI 大模型，还有 AI 应用落地。这些工作涉及到巨量的 AI 训练和推理计算需求，就会用到昇腾这样的 AI 芯片。昇腾的对标对象，毫无疑问就是英伟达的 GPU 系列。

因为众所周知的原因，英伟达的 GPU 对我们禁售（现在连阉割版的 H20 都不卖给我们了），所以，昇腾作为国产 AI 芯片，就发挥了重要的替代作用，也迎来了巨大的市场机遇。

昇腾芯片是一个大系列，主要包括昇腾 310 和昇腾 910 两个子系列。AI Core 是计算核心，采用了华为自研的达芬奇（DaVinci）架构，复杂执行矩阵、向量、标量计算的算子任务。CPU 负责非矩阵类复杂计算。

FaceFusion镜像支持RESTful API调用方式

FaceFusion镜像支持RESTful API调用方式在短视频、虚拟偶像和社交娱乐内容爆发式增长的今天，用户对个性化视觉体验的需求达到了前所未有的高度。人脸替换技术不再只是极客手中的实验玩具，而是成为影视特效、直播互动乃至数字身份构建的核心能力之一。然…

李华

Open-AutoGLM模型轻量化终极对比：5大主流方案性能实测与落地建议

第一章：Open-AutoGLM 模型轻量化行业对比在当前大模型快速发展的背景下，模型轻量化已成为工业落地的关键技术路径。Open-AutoGLM 作为开源自动优化框架，支持对 GLM 系列模型进行剪枝、量化与知识蒸馏，显著降低推理资源消耗的同时…

李华

大模型轻量化谁主沉浮？(Open-AutoGLM行业对标全揭秘)

第一章：大模型轻量化谁主沉浮？随着大模型在自然语言处理、计算机视觉等领域的广泛应用，其庞大的参数量和计算开销成为部署落地的主要瓶颈。如何在不显著损失性能的前提下实现模型压缩与加速，已成为工业界和学术界共同关注的核心议…

李华

(Open-AutoGLM逆袭之路)：挑战Appium统治地位的7个技术突破点

第一章：Open-AutoGLM逆袭之路的背景与意义在人工智能技术迅猛发展的当下，大模型生态正经历从封闭垄断向开放协作的深刻变革。传统闭源模型虽性能强劲，却因高昂的训练成本、黑盒机制和使用限制，阻碍了技术普惠化进程。在此背景下&a…

李华

【独家】仅限内部交流的技术选型报告：Open-AutoGLM与Airtest七大差异点曝光

第一章：Open-AutoGLM 与 Airtest 识别技术路线差异在自动化测试与智能操作领域，Open-AutoGLM 与 Airtest 代表了两种截然不同的图像识别与交互实现路径。前者依托大语言模型与视觉理解能力，通过语义驱动完成界面元素的识别与操作决策&#xf…

李华

模型部署实战指南：FastAPI + ONNX Runtime/TensorRT 应用解析

模型部署实战指南：FastAPI ONNX Runtime/TensorRT 应用解析摘要： 随着人工智能应用的普及，高效、稳定、低延迟的模型部署成为行业的核心需求。本文深入探讨基于 FastAPI 服务框架，结合 ONNX Runtime 和 TensorRT 加速引擎的部署方…

李华