news 2026/5/9 12:59:24

CANN SHMEM NotifyWait机制使用说明

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN SHMEM NotifyWait机制使用说明

NotifyWait机制使用说明

【免费下载链接】shmemCANN SHMEM 是面向昇腾平台的多机多卡内存通信库,基于OpenSHMEM 标准协议,实现跨设备的高效内存访问与数据同步。项目地址: https://gitcode.com/cann/shmem

环境要求和准备

SDMA功能在9.0.0及以上版本(尝鲜版)新增支持。需要下载并安装以下cann和ops软件包:

  • toolkit包(x86_64/aarch64)
  • ops-legacy包(根据硬件平台下载对应版本:A2 x86_64/A2 aarch64/A3 x86_64/A3 aarch64)

example执行说明

1.在shmem/目录编译软件包并安装:

bash scripts/build.sh -package ./install/*/SHMEM_1.0.0_linux-*.run --install

2.在shmem/目录下编译examples:

bash scripts/build.sh -examples

3.在shmem/examples/notifywait目录执行demo:

bash run.sh -pes ${PES} -type ${TYPES}
  • 参数说明
    • PES:指定用于运行的设备(NPU)数量,限定单台机器内。
    • TYPES:指定传输数据类型,当前支持:int,uint8,int64,fp32。

NotifyWait用法说明

用法示例

// 步骤1: stream1上的kernel1:调用sdma接口搬运数据+aclshmemx_sdma_notify_record // 步骤2: host:aclrtWaitAndResetNotify(notify_id, stream2, 0) // 步骤3: stream2上的kernel2:使用sdma搬运好的数据

用法说明

aclshmemx_sdma_notify_record中会下发record类型的sqe到stars,后续在host侧等待notify记录完成,再继续执行后续kernel。相比aclshmemx_sdma_quiet使用AIV轮询flag的方式,可及时释放AIV资源。

【免费下载链接】shmemCANN SHMEM 是面向昇腾平台的多机多卡内存通信库,基于OpenSHMEM 标准协议,实现跨设备的高效内存访问与数据同步。项目地址: https://gitcode.com/cann/shmem

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:58:33

CANN/TensorFlow NPUEstimator构造函数

NPUEstimator构造函数 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow 功能说明 NPUEstimator类的构造函数,NPUEstimator类继承了TensorFlow的Estimator类,可以调用基类的原生接口&#…

作者头像 李华
网站建设 2026/5/9 12:58:09

CANN/ops-cv:NMS带掩码算子

NMSWithMask 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 产品支持情况 产品是否支持Atlas A2 训练系列产品/Atlas A2 推理系列产品√ 功能说明 算子…

作者头像 李华
网站建设 2026/5/9 12:57:35

Sunshine游戏串流服务器:15分钟搭建个人云游戏平台的完整指南

Sunshine游戏串流服务器:15分钟搭建个人云游戏平台的完整指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine是一款开源的自托管游戏串流服务器,专…

作者头像 李华
网站建设 2026/5/9 12:57:33

TikTokenizer:解密大语言模型计费的精准令牌计算器

TikTokenizer:解密大语言模型计费的精准令牌计算器 【免费下载链接】tiktokenizer Online playground for OpenAPI tokenizers 项目地址: https://gitcode.com/gh_mirrors/ti/tiktokenizer 在当今AI应用爆发的时代,每个开发者都面临着一个共同的挑…

作者头像 李华
网站建设 2026/5/9 12:56:13

3D UNet、VNet与HighResNet在胎儿fMRI脑区分割中的对比研究

1. 项目概述:当深度学习遇见胎儿大脑在医学影像分析领域,胎儿大脑的精准分割一直是个“老大难”问题。这不仅仅是技术上的挑战,更关乎对生命早期发育的深刻理解。传统的成人脑影像分析技术,在面对胎儿fMRI(功能性磁共振…

作者头像 李华