news 2026/5/21 9:16:29

CANN/Ascend C bfloat16x2比较函数

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/Ascend C bfloat16x2比较函数

__hequx2

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品x
Atlas A2 训练系列产品/Atlas A2 推理系列产品x
Atlas 200I/500 A2 推理产品x
Atlas 推理系列产品AI Corex
Atlas 推理系列产品Vector Corex
Atlas 训练系列产品x

功能说明

比较两个bfloat16x2_t类型数据的两个分量,如果分量相等,则对应比较结果为1.0,否则为0.0。若任一输入的分量为nan,该分量的比较结果为1.0。

函数原型

bfloat16x2_t __hequx2(bfloat16x2_t x, bfloat16x2_t y)

参数说明

表 1参数说明

参数名输入/输出描述
x输入源操作数。
y输入源操作数。

返回值说明

  • 比较输入数据各分量是否相等的结果:满足时对应结果为1.0,不满足时对应结果为0.0。
  • 任一输入的分量为nan时,该分量的比较结果为1.0。

约束说明

需要包含的头文件

使用该接口需要包含"simt_api/asc_bf16.h"头文件。

#include "simt_api/asc_bf16.h"

调用示例

  • SIMT编程场景:

    // 使用短向量可提升数据搬运效率 __global__ __launch_bounds__(1024) void simt_hequx2(bfloat16_t* x, bfloat16_t* y, bfloat16_t* dst, uint32_t input_total_length) { uint32_t idx = blockIdx.x * blockDim.x + threadIdx.x; // 每个线程处理1个bfloat16x2_t类型的数据,即2个bfloat16_t类型的数据,因此idx >= input_total_length / 2的线程不处理数据 if (idx >= input_total_length / 2) { return; } bfloat16x2_t* input1 = (bfloat16x2_t*)x; bfloat16x2_t* input2 = (bfloat16x2_t*)y; bfloat16x2_t* out = (bfloat16x2_t*)dst; out[idx] = __hequx2(input1[idx], input2[idx]); }
  • SIMD与SIMT混合编程场景:

    // 使用短向量可提升数据搬运效率 __simt_vf__ __launch_bounds__(1024) inline void simt_hequx2(__gm__ bfloat16x2_t* x, __gm__ bfloat16x2_t* y, __gm__ bfloat16x2_t* dst, uint32_t input_total_length) { uint32_t idx = blockIdx.x * blockDim.x + threadIdx.x; // 每个线程处理1个bfloat16x2_t类型的数据,即2个bfloat16_t类型的数据,因此idx >= input_total_length / 2的线程不处理数据 if (idx >= input_total_length / 2) { return; } dst[idx] = __hequx2(x[idx], y[idx]); } __global__ __vector__ void compare_kernel(__gm__ bfloat16_t* x, __gm__ bfloat16_t* y, __gm__ bfloat16_t* dst, uint32_t input_total_length) { asc_vf_call<simt_hequx2>(dim3(1024), (__gm__ bfloat16x2_t*)x, (__gm__ bfloat16x2_t*)y, (__gm__ bfloat16x2_t*)dst, input_total_length); }

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 9:15:27

告别/dev/ttyUSB0权限困扰:用udev规则和C++封装类优雅管理你的CH341设备

告别/dev/ttyUSB0权限困扰&#xff1a;用udev规则和C封装类优雅管理你的CH341设备 在嵌入式开发和工业控制领域&#xff0c;CH340/CH341系列USB转串口芯片因其稳定性和低成本而广受欢迎。然而&#xff0c;当开发者在Linux环境下同时连接多个设备时&#xff0c;常常会遇到设备节…

作者头像 李华
网站建设 2026/5/21 9:13:56

cann/asc-devkit hypotf函数文档

hypotf 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言&#xff0c;原生支持C和C标准规范&#xff0c;主要由类库和语言扩展层构成&#xff0c;提供多层级API&#xff0c;满足多维场景算子开发诉求。 项目地址: https://gitcode.com/can…

作者头像 李华
网站建设 2026/5/21 9:10:35

如何用qmc-decoder在5分钟内解锁QQ音乐加密音频文件?

如何用qmc-decoder在5分钟内解锁QQ音乐加密音频文件&#xff1f; 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 还在为QQ音乐下载的加密音频文件无法在其他播放器上播放而…

作者头像 李华
网站建设 2026/5/21 9:10:32

语雀文档离线转换终极指南:3步轻松实现知识库备份

语雀文档离线转换终极指南&#xff1a;3步轻松实现知识库备份 【免费下载链接】yuque2book export yuque repo to a book 将你的语雀文档导出的工具 项目地址: https://gitcode.com/gh_mirrors/yu/yuque2book 想要将语雀文档库完整转换为可离线阅读的HTML格式吗&#xf…

作者头像 李华
网站建设 2026/5/21 9:06:38

RT-Thread进阶实战:从内核机制到物联网应用的全栈开发指南

1. 项目概述&#xff1a;从“会用”到“用好”的RT-Thread进阶之路如果你已经跟着上一篇文章&#xff0c;成功地把RT-Thread跑起来了&#xff0c;恭喜你&#xff0c;你已经迈出了坚实的第一步。但就像刚拿到驾照的新手&#xff0c;知道怎么把车开动&#xff0c;和能在复杂路况下…

作者头像 李华