news 2026/6/5 18:26:27

CANN/asc-devkit:Reg矢量数据搬运接口

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/asc-devkit:Reg矢量数据搬运接口

asc_loadunalign_postupdate

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT

功能说明

数据搬运接口,适用于从UB非32B对齐地址起始连续搬入。

  • asc_loadunalign_postupdate(不带iter_reg入参):配合asc_loadunalign(不带iter_reg入参)接口使用。
  • asc_loadunalign_postupdate(带iter_reg入参):配合asc_loadunalign(带iter_reg入参)接口使用。

函数原型

__simd_callee__ inline void asc_loadunalign_postupdate(vector_int8_t& dst, vector_load_unalign& src0, __ubuf__ int8_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_uint8_t& dst, vector_load_unalign& src0, __ubuf__ uint8_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp4x2_e2m1_t& dst, vector_load_unalign& src0, __ubuf__ fp4x2_e2m1_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp4x2_e1m2_t& dst, vector_load_unalign& src0, __ubuf__ fp4x2_e1m2_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp8_e8m0_t& dst, vector_load_unalign& src0, __ubuf__ fp8_e8m0_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp8_e5m2_t& dst, vector_load_unalign& src0, __ubuf__ fp8_e5m2_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp8_e4m3fn_t& dst, vector_load_unalign& src0, __ubuf__ fp8_e4m3fn_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_hifloat8_t& dst, vector_load_unalign& src0, __ubuf__ hifloat8_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_half& dst, vector_load_unalign& src0, __ubuf__ half *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int16_t& dst, vector_load_unalign& src0, __ubuf__ int16_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_uint16_t& dst, vector_load_unalign& src0, __ubuf__ uint16_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_bfloat16_t& dst, vector_load_unalign& src0, __ubuf__ bfloat16_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int32_t& dst, vector_load_unalign& src0, __ubuf__ int32_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_uint32_t& dst, vector_load_unalign& src0, __ubuf__ uint32_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_float& dst, vector_load_unalign& src0, __ubuf__ float *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int64_t& dst, vector_load_unalign& src0, __ubuf__ int64_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int4x2_t& dst, vector_load_unalign& src0, __ubuf__ int4b_t *src1, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int8_t& dst, vector_load_unalign& src0, __ubuf__ int8_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_uint8_t& dst, vector_load_unalign& src0, __ubuf__ uint8_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp4x2_e2m1_t& dst, vector_load_unalign& src0, __ubuf__ fp4x2_e2m1_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp4x2_e1m2_t& dst, vector_load_unalign& src0, __ubuf__ fp4x2_e1m2_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp8_e8m0_t& dst, vector_load_unalign& src0, __ubuf__ fp8_e8m0_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp8_e5m2_t& dst, vector_load_unalign& src0, __ubuf__ fp8_e5m2_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_fp8_e4m3fn_t& dst, vector_load_unalign& src0, __ubuf__ fp8_e4m3fn_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_hifloat8_t& dst, vector_load_unalign& src0, __ubuf__ hifloat8_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int16_t& dst, vector_load_unalign& src0, __ubuf__ int16_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_uint16_t& dst, vector_load_unalign& src0, __ubuf__ uint16_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_half& dst, vector_load_unalign& src0, __ubuf__ half *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_bfloat16_t& dst, vector_load_unalign& src0, __ubuf__ bfloat16_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int32_t& dst, vector_load_unalign& src0, __ubuf__ int32_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_uint32_t& dst, vector_load_unalign& src0, __ubuf__ uint32_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_float& dst, vector_load_unalign& src0, __ubuf__ float *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int64_t& dst, vector_load_unalign& src0, __ubuf__ int64_t *src1, iter_reg offset, uint32_t count) __simd_callee__ inline void asc_loadunalign_postupdate(vector_int4x2_t& dst, vector_load_unalign& src0, __ubuf__ int4b_t *src1, iter_reg offset, uint32_t count)

参数说明

参数名输入/输出描述
dst输出目的操作数(矢量)。
src0输入源操作数(矢量数据寄存器)。
src1输入源操作数(矢量)的起始地址。
offset输入存储地址的偏移量。实际搬运UB起始地址为src1+offset
count输入搬运完成后offset在自增前被更新为offset+count

矢量数据寄存器和掩码寄存器的详细说明请参见reg数据类型定义.md。

返回值说明

流水类型

PIPE_V

约束说明

  • 接口中的src1不需要32B对齐。

调用示例

vector_int8_t dst; vector_load_unalign src0; __ubuf__ int8_t src1[256]; uint32_t count = 16; asc_loadunalign_postupdate(dst, src0, src1, count);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 18:24:07

ChatGPT插件本质是实时数据接口调度器

1. 项目概述:ChatGPT插件不是“外挂”,而是你工作流里那把被忽略的瑞士军刀“How to Use the Most Essential ChatGPT Plugins”——这个标题乍看像一篇泛泛而谈的入门指南,但在我过去两年深度参与37个企业级AI工作流重构项目、亲手调试过218…

作者头像 李华
网站建设 2026/6/5 18:23:36

AI架构师(AGI时代·高阶版)岗位描述、岗位职责与任职要求

AI架构师(AGI时代高阶版)岗位描述、岗位职责与任职要求一、岗位定位与岗位描述AI架构师是通用人工智能(AGI)时代的顶层稀缺核心战略人才,是企业AI产业化、通用智能化、场景规模化落地的核心掌舵人。区别于传统算法工程…

作者头像 李华
网站建设 2026/6/5 18:23:15

基于ZigBee与4G的光伏逆变器智能监控与PNN故障诊断系统设计

1. 项目概述与核心价值在分布式光伏电站的日常运维中,我们常常面临一个两难困境:一方面,电站设备(尤其是核心的逆变器)分布广泛,环境复杂,人工巡检成本高、效率低,故障发现往往滞后&…

作者头像 李华
网站建设 2026/6/5 18:22:58

告别臃肿!用Pipenv+PyInstaller打包PyTorch应用,文件大小减半实战

轻量化AI应用打包实战:PipenvPyInstaller压缩PyTorch应用体积50%在AI应用开发中,模型部署往往面临"最后一公里"难题——如何将训练好的PyTorch模型高效打包分发?传统打包方式产生的臃肿文件不仅占用存储空间,还会影响终…

作者头像 李华
网站建设 2026/6/5 18:19:36

FPGA数字信号处理中定点数的舍入与饱和硬件实现详解

1. 项目概述:从一次乘法溢出说起在FPGA上做DSP算法实现的朋友,估计都遇到过这个让人头疼的场景:你精心设计的滤波器或者FFT模块,在Matlab里仿真一切正常,定点化模型也跑得挺好,结果一上板子,出来…

作者头像 李华