news 2026/5/9 12:16:29

CANN NPU RMS Norm动态量化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN NPU RMS Norm动态量化

custom-npu_rms_norm_dynamic_quant

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

产品支持情况

产品是否支持
Atlas A3 推理系列产品

功能说明

RmsNormDynamicQuantRmsNorm算子是大模型常用的归一化操作。DynamicQuant算子则是为输入张量进行对称动态量化的算子。RmsNormDynamicQuant算子将RmsNorm归一化输出给到DynamicQuant算子融合起来,减少搬入搬出操作,RmsNormDynamicQuant的具体计算公式如下:

$$ y = \operatorname{RmsNorm}(x)=\frac{x}{\operatorname{Rms}(\mathbf{x})}\cdot gamma+beta, \quad \text { where } \operatorname{Rms}(\mathbf{x})=\sqrt{\frac{1}{n} \sum_{i=1}^n x_i^2+epsilon} $$

$$ input =\begin{cases} y\cdot smoothScaleOptional & \ \ smoothScaleOptional \ y & !\ smoothScaleOptional \end{cases} $$

$$ scaleOut=row_max(abs(input))/127 $$

$$ yOut=round(input1/scaleOut) $$

公式中的row_max代表每行求最大值。

函数原型

custom.npu_rms_norm_dynamic_quant(Tensor x, Tensor gamma, *, Tensor? smooth_scale=None, Tensor? beta=None, float epsilon=1e-6) -> (Tensor, Tensor)

参数说明

  • xTensor):公式中的输入x,必选参数,不支持非连续,数据格式支持ND,数据类型支持float16、bfloat16

  • gammaTensor):公式中的gamma,必选参数,不支持非连续,数据格式支持ND,数据类型支持float16、bfloat16,要求是1D的Tensor,数据类型同x保持一致,shape同x最后一维一致。

  • *:代表其之前的参数是位置相关的,必须按照顺序输入,属于必选参数;其之后的参数是键值对赋值,与位置无关,属于可选参数(不传入会使用默认值)。

  • smooth_scaleTensor):公式中的smoothScaleOptional,可选参数,不支持非连续,数据格式支持ND,数据类型支持float16、bfloat16,要求是1D的Tensor。shape和数据类型同gamma保持一致。

  • betaTensor):公式中的beta,表示标准化过程中的偏置项;可选参数,不支持非连续,数据格式支持ND,数据类型支持float16、bfloat16,要求是1D的Tensor。shape和数据类型同gamma保持一致。。

  • epsilonfloat):公式中的epsilon,表示用于防止除0错误;可选参数,默认值1e-6。

返回值说明

  • yTensor):公式中的输出yOut,表示量化后的输出tensor,数据类型支持int8。数据格式支持ND,shape需要与输入x保持一致。
  • scaleTensor):公式中的输出scaleOut,表示量化scale参数,数据类型支持float32。数据格式支持ND,shape需要与输入x除了最后一维后的shape一致,或者与x除了最后一维的乘积一致。

约束说明

  • 该接口支持推理场景下使用。
  • 该接口支持aclgraph入图。
  • 该接口与PyTorch配合使用时,需要保证CANN相关包与PyTorch相关包的版本匹配。

调用示例

  • 详见test_npu_rms_norm_dynamic_quant.py

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:15:39

CANN/cann-bench MLA算子API文档

MLA 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#xff0…

作者头像 李华
网站建设 2026/5/9 12:14:33

cann/cannbot-skills尾安全约束

Tail-Safety Constraints 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Read this file when a kernel has tile tai…

作者头像 李华
网站建设 2026/5/9 12:01:32

CANN社区Roadmap发布管理指南

使用Gitcode Issue发布和管理Roadmap 【免费下载链接】community 本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息 项目地址: https://gitcode.com/cann/community 概述 CANN社区推荐使用Gitcode Issu…

作者头像 李华
网站建设 2026/5/9 11:57:29

QLoRA量化技术在日语技术文档处理中的应用实践

1. 日本技术语料微调中的QLoRA量化实践在日语技术文档处理领域,大型语言模型(LLM)面临着独特的挑战:专业术语密集、句式结构复杂,且高质量标注数据稀缺。我们团队在建筑标准文档问答任务中,发现直接使用通用日语模型(Qwen2.5-7B)的…

作者头像 李华
网站建设 2026/5/9 11:51:30

CANN/cann-recipes-infer:HunyuanVideo昇腾推理适配

在昇腾Atlas A2环境上适配HunyuanVideo模型的推理 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer HunyuanVideo模型是一…

作者头像 李华
网站建设 2026/5/9 11:46:42

CANN算子库GeGluV3算子

aclnnGeGluV3 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产…

作者头像 李华