news 2026/5/9 19:22:41

CANN / ops-cv 量化介绍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN / ops-cv 量化介绍

量化介绍

【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv

量化广泛应用于深度学习模型中,特别是在推理过程中。通过量化,模型可以在硬件上更高效地运行,减少计算资源的消耗和加速推理过程,同时降低模型的存储需求。

CANN算子量化是指对神经网络中Matmul等矩阵(cube)类算子的输入Tensor从高bit到低bit转换的计算过程,同时生成对应的量化参数scale。当低bit的cube计算完成后,可通过量化参数scale将低bit数值转换回高bit数值,从而保证整体计算结果的正确性(效果与直接用高bit计算近似等价),并有效提升计算效率。

  • 静态量化:使用预先确定的量化参数进行量化。推理场景下对权重weight的量化一般采用静态量化,量化算子性能会更好些。
  • 动态量化:使用输入数据在线计算量化参数进行量化。推理场景下对激活activation的量化一般采用动态量化,更能适应数据的变化,精度更高;训练场景下为了提升量化精度,也一般采用动态量化。注意,动态量化因为在线生成量化参数,量化算子性能会略差些。

量化模式

量化模式(又称量化粒度)是指对算子的不同输入Tensor采用不同的量化计算级别,常见的量化计算模式包括:

说明:

  • m、n、k变量分别表示Tensor计算的不同轴大小。
  • 左矩阵、右矩阵分别指cube算子中用于矩阵乘法计算的两个输入Tensor,一般左矩阵代表激活activation、右矩阵代表权重weight,请用户按实际情况理解和使用。
  • pertensor量化(简称T量化):量化对象既可以是左矩阵,也可以是右矩阵,每个Tensor共用一个相同的量化参数。

    假设左矩阵shape为(m, k),右矩阵shape为(k, n),k为reduce轴,生成量化参数的shape为(1, )。

  • perchannel量化(简称C量化):量化对象是右矩阵,每个channel分别使用独立的量化参数。

    假设右矩阵shape为(k, n),k为reduce轴,生成量化参数的shape为(n, )。

  • pertoken量化(简称K量化):量化对象是左矩阵,每个token分别使用独立的量化参数。

    假设左矩阵shape为(m, k),k为reduce轴,生成量化参数的shape为(m, )。

  • pergroup量化(简称G量化):量化对象既可以是左矩阵,也可以是右矩阵,在reduce轴上对数据分组,每组使用独立的量化参数。

    • 假设左矩阵shape为(m, k),k为reduce轴,在k轴上分组,group size为gs,生成量化参数的shape为(m, k/gs)。
    • 假设右矩阵shape为(k, n),k为reduce轴,在k轴上分组,group size为gs,生成量化参数的shape为(k/gs, n)。

  • perblock量化(简称B量化):量化对象既可以是左矩阵,也可以是右矩阵,在所有轴上对数据分块,每块使用独立的量化参数。

    • 假设左矩阵shape为(m, k),k为reduce轴,在m、k轴上分别按(bs, bs)块对数据分组,bs为block size,生成量化参数的shape为(m/bs, k/bs)。
    • 假设右矩阵shape为(k, n),k为reduce轴,在k、n轴上分别按(bs, bs)块对数据分组,bs为block size,生成量化参数的shape为(k/bs, n/bs)。

常见组合量化

  • 全量化:一般是指对左、右矩阵均进行量化的模式,包括
    • pertensor-perchannel量化模式(简称T-C量化模式)
    • pertoken-perchannel量化模式(简称K-C量化模式)
    • pergroup-perblock量化模式(简称G-B量化模式)
    • pertensor-perchannel-pergroup量化模式(简称T-CG量化模式)
    • perblock-perblock量化模式(简称B-B量化模式)
  • 伪量化:一般是指对权重矩阵(weight)进行量化的模式,包括perchannel量化模式(简称C量化模式)。
  • mx量化:本质是Microscaling量化,通过动态调整缩放因子,在极低比特下(如1bit)保持模型精度。这里指pergroup-pergroup量化模式(简称G-G量化模式),是对于量化参数类型为FLOAT8_E8M0且group size为32的特例。

【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 19:20:31

AI驱动蛋白质设计:从AlphaFold2预测到扩散模型生成全流程解析

1. 项目概述:当AI开始“设计”生命蓝图如果你在五年前告诉我,一个AI模型能在一小时内,将一段氨基酸序列折叠成接近实验精度的三维结构,我大概率会觉得这是科幻小说。但今天,这已是结构生物学领域的日常。从AlphaFold2横…

作者头像 李华
网站建设 2026/5/9 19:20:30

空天地一体化网络与联邦学习融合:构建广域分布式智能新范式

1. 项目概述:当分布式智能遇见全域网络最近和几个做边缘计算和物联网的老友聊天,大家不约而同地提到了一个共同的痛点:数据。不是数据太少,而是数据太“散”了。工厂里的传感器、农田里的无人机、远洋货轮上的设备、甚至高空飞行的…

作者头像 李华
网站建设 2026/5/9 19:18:14

教育AI演进:从自动化工具到混合智能协同的实践路径

1. 项目概述:当AI走进课堂,我们到底在谈论什么?“教育中的人工智能”这个标题,听起来宏大又有点遥远,仿佛在谈论一个未来概念。但如果你是一位一线教师,或者是一位教育科技产品的开发者,你的感受…

作者头像 李华
网站建设 2026/5/9 19:17:50

CANN/HCCL pre-commit使用指南

pre-commit 工具使用指导 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode.com…

作者头像 李华
网站建设 2026/5/9 19:14:34

iSCSI实战:从一块闲置硬盘到KVM虚拟机的远程存储盘(全程命令记录)

iSCSI实战:将闲置硬盘改造为KVM虚拟机的远程存储盘 在虚拟化环境中,存储性能往往是制约整体效率的关键因素。当宿主机本地磁盘IO压力过大时,将虚拟机磁盘文件迁移到专用存储设备上是个明智的选择。本文将手把手带您完成一个完整的iSCSI存储迁…

作者头像 李华