CANN NPU RMS Norm动态量化-编程实验室

custom-npu_rms_norm_dynamic_quant

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

产品支持情况

产品	是否支持
Atlas A3 推理系列产品	√

功能说明

RmsNormDynamicQuantRmsNorm算子是大模型常用的归一化操作。DynamicQuant算子则是为输入张量进行对称动态量化的算子。RmsNormDynamicQuant算子将RmsNorm归一化输出给到DynamicQuant算子融合起来，减少搬入搬出操作，RmsNormDynamicQuant的具体计算公式如下：

$$ y = \operatorname{RmsNorm}(x)=\frac{x}{\operatorname{Rms}(\mathbf{x})}\cdot gamma+beta, \quad \text { where } \operatorname{Rms}(\mathbf{x})=\sqrt{\frac{1}{n} \sum_{i=1}^n x_i^2+epsilon} $$

$$ input =\begin{cases} y\cdot smoothScaleOptional & \ \ smoothScaleOptional \ y & !\ smoothScaleOptional \end{cases} $$

$$ scaleOut=row_max(abs(input))/127 $$

$$ yOut=round(input1/scaleOut) $$

公式中的row_max代表每行求最大值。

函数原型

custom.npu_rms_norm_dynamic_quant(Tensor x, Tensor gamma, *, Tensor? smooth_scale=None, Tensor? beta=None, float epsilon=1e-6) -> (Tensor, Tensor)

参数说明

x（Tensor）：公式中的输入x，必选参数，不支持非连续，数据格式支持ND，数据类型支持float16、bfloat16。
gamma（Tensor）：公式中的gamma，必选参数，不支持非连续，数据格式支持ND，数据类型支持float16、bfloat16，要求是1D的Tensor，数据类型同x保持一致，shape同x最后一维一致。
*：代表其之前的参数是位置相关的，必须按照顺序输入，属于必选参数；其之后的参数是键值对赋值，与位置无关，属于可选参数（不传入会使用默认值）。
smooth_scale（Tensor）：公式中的smoothScaleOptional，可选参数，不支持非连续，数据格式支持ND，数据类型支持float16、bfloat16，要求是1D的Tensor。shape和数据类型同gamma保持一致。
beta（Tensor）：公式中的beta，表示标准化过程中的偏置项；可选参数，不支持非连续，数据格式支持ND，数据类型支持float16、bfloat16，要求是1D的Tensor。shape和数据类型同gamma保持一致。。
epsilon（float）：公式中的epsilon，表示用于防止除0错误；可选参数，默认值1e-6。

返回值说明

y（Tensor）：公式中的输出yOut，表示量化后的输出tensor，数据类型支持int8。数据格式支持ND，shape需要与输入x保持一致。
scale（Tensor）：公式中的输出scaleOut，表示量化scale参数，数据类型支持float32。数据格式支持ND,shape需要与输入x除了最后一维后的shape一致，或者与x除了最后一维的乘积一致。

约束说明

该接口支持推理场景下使用。
该接口支持aclgraph入图。
该接口与PyTorch配合使用时，需要保证CANN相关包与PyTorch相关包的版本匹配。

调用示例

详见test_npu_rms_norm_dynamic_quant.py

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/cann-bench MLA算子API文档

MLA 算子 API 描述【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力，涵盖算子生成、算子优化等领域，支撑模型选型、训练效果评估，统一量化评估标准，识别Agent能力短板，构建CANN领域评测平台&#xff0…

李华

cann/cannbot-skills尾安全约束

Tail-Safety Constraints 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills Read this file when a kernel has tile tai…

李华

CANN社区Roadmap发布管理指南

使用Gitcode Issue发布和管理Roadmap 【免费下载链接】community 本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息项目地址: https://gitcode.com/cann/community 概述 CANN社区推荐使用Gitcode Issu…

李华

QLoRA量化技术在日语技术文档处理中的应用实践

1. 日本技术语料微调中的QLoRA量化实践在日语技术文档处理领域，大型语言模型(LLM)面临着独特的挑战：专业术语密集、句式结构复杂，且高质量标注数据稀缺。我们团队在建筑标准文档问答任务中，发现直接使用通用日语模型(Qwen2.5-7B)的…

李华

CANN/cann-recipes-infer：HunyuanVideo昇腾推理适配

在昇腾Atlas A2环境上适配HunyuanVideo模型的推理【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer HunyuanVideo模型是一…

李华

CANN算子库GeGluV3算子

aclnnGeGluV3 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn 📄 查看源码产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产…

李华