news 2026/5/9 11:17:30

CANN/hccl AllGatherV接口文档

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/hccl AllGatherV接口文档

HcclAllGatherV

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

产品支持情况

  • Ascend 950PR/Ascend 950DT:支持
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持
  • Atlas 推理系列产品:支持
  • Atlas 训练系列产品:不支持

[!NOTE]说明 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。 针对Atlas 推理系列产品,仅支持Atlas 300I Duo 推理卡。

功能说明

集合通信算子AllGatherV的操作接口,将通信域内所有节点的输入按照rank id重新排序,然后拼接起来,再将结果发送到所有节点的输出。

与AllGather算子不同的是,AllGatherV算子支持通信域内不同节点的输入配置不同大小的数据量。

[!NOTE]说明 针对AllGatherV操作,每个节点都接收按照rank id重新排序后的数据集合,即每个节点的AllGatherV输出都是一样的。

函数原型

HcclResult HcclAllGatherV(void *sendBuf, uint64_t sendCount, void *recvBuf, const void *recvCounts, const void *recvDispls, HcclDataType dataType, HcclComm comm, aclrtStream stream)

参数说明

参数名输入/输出描述
sendBuf输入源数据buffer地址。
sendCount输入参与AllGatherV操作的sendBuf的数据size。
recvBuf输出目的数据buffer地址,集合通信结果输出至此buffer中。
recvCounts输出参与AllGatherV操作的每个rank在recvBuf中的数据size,为uint64类型的数组。
该数组的第i个元素表示需要从rank i接收的数据量,且该数据量需要与rank i的sendCount值相同。
recvDispls输出参与AllGatherV操作的每个rank的数据在recvBuf中的偏移量(单位为dataType),为uint64类型的数组。
该数组的第i个元素表示从rank i接收的数据应该放置在recvBuf中的起始偏移量。
dataType输入AllGatherV操作的数据类型,HcclDataType类型。
针对Ascend 950PR/Ascend 950DT,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float8-e5m2、float8-e4m3、float8-e8m0、hifloat8、float16、float32、float64、bfp16。
针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、float64、bfp16。
针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、float64、bfp16。
针对Atlas 300I Duo 推理卡,支持数据类型:int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、float64。
comm输入集合通信操作所在的通信域。
stream输入本rank所使用的stream。

返回值

HcclResult:接口成功返回HCCL_SUCCESS,其他失败。

约束说明

  • 所有rank的recvCounts、recvDispls、dataType均应相同。
  • 针对Ascend 950PR/Ascend 950DT,仅支持单Server场景,仅支持通信算子展开模式为CCU(Collective Communication Unit,集合通信加速单元)的场景。
  • 针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,仅支持单Server场景。
  • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持多机对称分布场景,不支持非对称分布(即卡数非对称)的场景。
  • 针对Atlas 300I Duo 推理卡,仅支持单Server场景,单Server中最大支持部署2张Atlas 300I Duo 推理卡(即4个NPU)。

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 11:16:41

DS4Windows终极配置指南:深度优化PS4手柄在Windows平台的性能表现

DS4Windows终极配置指南:深度优化PS4手柄在Windows平台的性能表现 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows DS4Windows作为开源控制器映射工具,通过虚拟驱动…

作者头像 李华
网站建设 2026/5/9 11:13:31

Picasso:AI编码助手的设计技能革命,告别千篇一律的“AI味”界面

1. 项目概述:Picasso,一个为AI编码工具设计的深度设计技能如果你和我一样,在过去一年里频繁使用Claude Code、Cursor或者Codex这类AI编码助手,你肯定也经历过那种“一眼AI”的尴尬时刻。你满怀期待地输入一个设计需求,…

作者头像 李华
网站建设 2026/5/9 11:12:33

从 ESP32-S3 到 AI 多模态:一次嵌入式学习与踩坑之旅

序言2026年以来,一直沉寂,主要原因有两个:AI和嵌入式。想做AI相关内容的产品,那么就绕不开嵌入式硬件开发,而嵌入式就是我的短板,几度彷徨,几度放弃,最终还是决定干起来,…

作者头像 李华
网站建设 2026/5/9 10:58:55

终极指南:如何让Figma界面秒变中文,3分钟解决设计语言障碍

终极指南:如何让Figma界面秒变中文,3分钟解决设计语言障碍 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面感到头疼吗?对于中文…

作者头像 李华
网站建设 2026/5/9 10:58:09

cann-recipes-infer 贡献指南

贡献指南 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 本项目欢迎广大开发者体验并参与贡献,在参与社区贡…

作者头像 李华
网站建设 2026/5/9 10:53:29

李辉《曾国藩日记》笔记:能忍,是一个人野心和信息的表现!

李辉《曾国藩日记》笔记:能忍,是一个人野心和信息的表现!原文:同治元年十二月卅日早饭后清理文件。旋见客三次。写沅弟信一件。与程四世兄围棋三局。中饭请赵岵存便饭,坐无他客,与之畅谈,未正散…

作者头像 李华