news 2026/5/9 13:50:55

CANN ops-tensor Blaze引擎

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN ops-tensor Blaze引擎

Blaze

【免费下载链接】ops-tensorops-tensor 是 CANN (Compute Architecture for Neural Networks)算子库中提供张量类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor

BlazeBasicLinearAlgebraOptimizedEngine)是一套面向昇腾 NPU 的高性能线性代数加速引擎,为矩阵乘类算子的 Kernel 端实现提供分层、可组合的计算组件,header-only即可接入使用。

定位与边界

  • 聚焦 Kernel 端:Blaze 只负责矩阵乘类算子的 Kernel 端计算组件(数据搬运、MMAD、调度等),不涉及 aclnn 入口与 Host 端逻辑。
  • 职责分工:算子的 Tiling 计算、内存规划、解决方案注册等 Host 端工作由各算子自身的<op>_solution.cpp负责,Blaze 与之配合而非替代。
  • 依赖关系:Blaze 依赖include/tensor_api/提供的张量结构抽象(Layout / Shape / Coord 等),并直接对接 AscendC Kernel 接口。
  • 目标算子:服务于使用到矩阵乘计算的相关算子,包括 Matmul、GroupedMatmul、MC2 等。

设计理念

  • 分层抽象:从 Kernel(完整内核)到 Block(基本块计算)再到 Tile(细粒度搬运/计算指令),逐层下沉,关注点分离。
  • 策略驱动:通过DispatchPolicy将算法变体(如全载 / 非全载、量化模式、是否带 scale 等)作为类型参数派发到不同的 Block 实现,编译期完成最优实现的选择。
  • 类型安全的组合:A/B/C/Bias 的 dtype 与 Layout(NDExt / DNExt / NZ / ZN 等)作为类型参数透传,编译期生成最优代码路径。
  • 充分利用 Cube 架构:直接对接 L1 / L0A / L0B / L0C 的存储层级与 MMAD 指令,结合 double-buffer、ND2NZ 自动补零等机制压榨硬件性能。

模块组成

物理结构如下(各子目录下的具体文件随算法扩展而增减,下面仅给出代表性示例):

blaze/ ├── kernel/ # Kernel 层:完整算子内核入口 (示例:kernel_qbmm_mx.h) ├── block/ # Block 层:Block 级矩阵乘抽象与调度 (示例:block_mmad_mx.h、block_scheduler_qbmm.h) ├── tile/ # Tile 层:细粒度搬运与计算原语 (示例:tile_mmad_mx.h、copy_scale_l1_to_l0a.h) ├── epilogue/ # Epilogue 层:后处理策略 (示例:block_epilogue_empty.h) ├── policy/ # Dispatch Policy:派发策略定义 (示例:dispatch_policy.h) └── utils/ # 通用工具与常量 (示例:common_utils.h、layout_utils.h)

各层职责(自上而下):

子目录命名空间职责
kernel/Blaze::Gemm::Kernel完整算子内核入口,组合 Block + Epilogue + Scheduler 形成可启动的 Kernel
block/Blaze::Gemm::BlockBlock 级 Mmad 抽象及其针对不同 Policy 的实现,以及 Block 调度器
epilogue/Blaze::Gemm::Block后处理策略,可按需扩展 Bias / 激活 / 反量化等
tile/Blaze::Gemm::Tile/AscendC::TeTile 级原语:MMAD trait、L1↔L0 搬运、K 方向补零等
policy/Blaze::Gemm::派发策略定义,控制全载模式、量化模式等行为
utils/Blaze::Gemm::通用工具与常量:CeilDiv、Layout 推导、量化模式常量等

【免费下载链接】ops-tensorops-tensor 是 CANN (Compute Architecture for Neural Networks)算子库中提供张量类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 13:45:35

在多模型间切换时 Taotoken 的路由与容灾能力体验

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 在多模型间切换时 Taotoken 的路由与容灾能力体验 对于依赖大模型 API 进行开发的团队而言&#xff0c;服务的稳定性是保障业务连续…

作者头像 李华
网站建设 2026/5/9 13:45:35

CANN/cannbot-skills:A2三桥核在线Softmax尾部处理

Online Softmax Tail Handling on A2 Triple-Bridge Kernels 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体&#xff0c;本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Read thi…

作者头像 李华
网站建设 2026/5/9 13:44:55

KrkrzExtract终极指南:新一代krkrz引擎资源解包工具完全解析

KrkrzExtract终极指南&#xff1a;新一代krkrz引擎资源解包工具完全解析 【免费下载链接】KrkrzExtract The next generation of KrkrExtract 项目地址: https://gitcode.com/gh_mirrors/kr/KrkrzExtract KrkrzExtract是专门为krkrz引擎设计的下一代资源处理工具&#x…

作者头像 李华
网站建设 2026/5/9 13:35:32

AI赋能无人机通信与导航:端到端智能优化与关键技术解析

1. 项目概述&#xff1a;当无人机遇上AI&#xff0c;通信与导航的范式革命最近几年&#xff0c;无人机&#xff08;UAV&#xff09;的应用场景正以前所未有的速度扩张&#xff0c;从最初的航拍娱乐&#xff0c;到如今的物流配送、农业植保、电力巡检、应急救援&#xff0c;甚至…

作者头像 李华
网站建设 2026/5/9 13:33:01

鸿蒙开源阅读:打造完全自定义的无广告阅读体验终极指南

鸿蒙开源阅读&#xff1a;打造完全自定义的无广告阅读体验终极指南 【免费下载链接】legado-Harmony 开源阅读鸿蒙版仓库 项目地址: https://gitcode.com/gh_mirrors/le/legado-Harmony 开源阅读鸿蒙版是一款专为鸿蒙系统优化的免费开源小说阅读器&#xff0c;通过自定义…

作者头像 李华