news 2026/5/23 2:36:50

pyasc:用 Python 调用 CANN 的推理能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
pyasc:用 Python 调用 CANN 的推理能力

用 C++ 写推理代码性能好,但开发效率低。调试一个 Buffer 越界问题可能要编译运行好几轮。Python 开发快,但直接调用底层 CANN API 需要封装。

pyasc 是 CANN 的 Python 绑定层——把 AscendCL 的 C API 封装成 Python 可调用的接口。想快速验证一个模型在昇腾 NPU 上的推理效果,用 pyasc 写几行 Python 代码就行。


pyasc 是什么

pyasc 不是单独的推理框架——它是 CANN Toolkit 自带的 Python 模块。安装 CANN Toolkit 后可以通过import pyasc直接使用:

importpyascaspa# 初始化pa.init()device=pa.set_device(0)# 加载模型model=pa.load_model("model.om")# 创建输入input_tensor=pa.Tensor(data,dtype=pa.float16)# 推理output=model.execute([input_tensor])# 拿结果result=output[0].to_numpy()

每个pa.*调用底层调的都是 AscendCL 的 C API。pa.load_model内部调aclmdlLoadFromFilemodel.execute内部调aclmdlExecute。不新增抽象层,Python 代码直接映射到 C API。


环境配置

安装 CANN Toolkit 后配置 Python 环境:

# 设置 Python 路径exportPYTHONPATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:$PYTHONPATH# 验证python-c"import pyasc; print(pyasc.__version__)"# 输出: 8.0.0.alpha001

如果 import 失败,检查LD_LIBRARY_PATH是否包含 CANN 的 lib64 目录——pyasc 的.so文件依赖libascendcl.so

常见问题:Python 版本不兼容。CANN 8.0 的 pyasc 支持 Python 3.8-3.10。Python 3.11+ 需要用源码重新编译 pyasc。


推理示例代码

用 pyasc 做一个完整的推理链路:

importpyascaspaimportnumpyasnpclassModelInfer:def__init__(self,model_path):pa.init()self.device=pa.set_device(0)self.context=pa.create_context(self.device)self.model=pa.load_model(model_path)# 获取模型输入输出信息self.input_shape=self.model.input_shape(0)self.output_shape=self.model.output_shape(0)defpreprocess(self,image_path):# 用 NumPy 做预处理importcv2 img=cv2.imread(image_path)img=cv2.resize(img,(self.input_shape[2],self.input_shape[3]))img=img.astype(np.float32)/255.0img=img.transpose(2,0,1)# HWC → CHWimg=np.expand_dims(img,axis=0)# → NCHWreturnimgdefinfer(self,input_data):# 创建 NPU Tensorinput_tensor=pa.Tensor(input_data,dtype=pa.float32)# 推理output_tensors=self.model.execute([input_tensor])# 转回 NumPyreturnoutput_tensors[0].to_numpy()defclose(self):self.model.unload()pa.reset_device(self.device)pa.finalize()# 使用model=ModelInfer("yolov8n.om")input_data=model.preprocess("test.jpg")output=model.infer(input_data)print(f"Output shape:{output.shape}")model.close()

pa.Tensor的构造方法接受 NumPy ndarray,自动分配 Device 显存并拷贝数据。to_numpy()把结果从 Device 拷回 CPU。


常见问题分析

OOM 错误。每次pa.Tensor都在 NPU 显存上分配。如果不及时释放,显存在连续推理中会被耗尽。pyasc 的 Tensor 在 Python 引用计数归零时自动释放,但推理循环中的临时 Tensor 如果被持久引用就会累积。建议在不需要时显式del tensortensor.free()

Runtime 未初始化。在子进程中(如多进程推理)使用 pyasc 时,每个子进程必须独立调用pa.init()。父进程pa.init()创建的上下文不会自动继承给子进程。

设备号超出范围。pa.set_device(device_id)时如果 device_id 大于实际 NPU 卡数,返回pa.ERROR_INVALID_DEVICE。建议在初始化时先调用pa.get_device_count()检查可用设备数。

Tensor 数据类型不匹配。模型的 ONNX/OM 输入规格是float32而传入pa.float16数据,推理结果全错。必须在创建pa.Tensor前检查模型的输入数据类型。

pyasc 与 AscendCL 的对应关系

pyasc API底层 AscendCL C API
pa.init()aclInit
pa.set_device(0)aclrtSetDevice
pa.load_model("model.om")aclmdlLoadFromFile
model.execute([tensor])aclmdlExecute
Tensor(data, dtype=pa.float16)aclrtMalloc+aclrtMemcpy
tensor.to_numpy()aclrtMemcpy(D2H)

每个 pyasc API 直接映射到一条 C API,不经过额外的 Python 封装层。这意味着 pyasc 的性能跟 C 版本几乎没有差距——调用链是Python → C 扩展 → CANN Runtime,没有额外抽象。

pyasc 的多线程使用

pyasc 支持多线程推理,但需要注意每个线程必须管理自己的 Context。推荐的做法是每个推理线程初始化自己的 Context:

defworker(device_id):pa.init()pa.set_device(device_id)context=pa.create_context(device_id)model=pa.load_model("model.om")# 推理...pa.finalize()

参考仓库

pyasc Python 绑定的仓库

AscendCL C API 文档

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 2:30:42

taotoken的审计日志功能让我们清晰追踪了每一次api调用

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 taotoken的审计日志功能让我们清晰追踪了每一次api调用 在团队协作或对外提供服务的场景下,API调用的透明度和可追溯性…

作者头像 李华
网站建设 2026/5/23 2:30:07

评价高的四轴直驱电机厂家哪家靠谱

在深圳及华南地区,高质量四轴直驱电机的梯队划分非常清晰:🥇 第一梯队:具备全栈自研能力的本土实力派这一梯队的核心特征是掌握底层核心技术,能够提供非标定制,并已在头部企业中实现进口替代。智融科技&…

作者头像 李华
网站建设 2026/5/23 2:22:23

安装Linux

下载镜像文件ISO 点击阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区进入镜像仓库,或者用以下方法搜索。 点击进入以上阿里云官网,或者浏览器搜索阿里云官网。 进入阿里云官网,点击进入文档与社区模块。 找到工具与资源,点击下…

作者头像 李华
网站建设 2026/5/23 2:22:08

【RT-DETR实战】064、NMS后处理优化与替代方案:我在RT-DETR里踩过的那些坑

今天调一个RT-DETR的部署问题,模型推理速度明明达标了,但在实际视频流里跟踪目标时总出现“闪跳”——同一个目标在相邻帧里忽左忽右。 盯着输出看了半天,发现是相邻帧的检测框置信度相差0.01,NMS直接就把低分框干掉了,导致目标位置在帧间不连续。这个经典问题让我决定好…

作者头像 李华
网站建设 2026/5/23 2:15:07

TMS320C6474多核DSP:三核协同架构、开发实战与性能优化指南

1. 项目概述:为什么我们需要TMS320C6474这样的多核DSP?在信号处理的世界里,速度和效率就是一切。无论是处理雷达回波、分析医疗影像,还是实时编码高清视频流,系统都在与时间赛跑。传统的单核处理器,即使主频…

作者头像 李华
网站建设 2026/5/23 2:13:14

从怀疑到真香!2026这款视频总结助手是我日常整理视频内容的省心神器

测了一圈市面上主流的视频音频内容整理工具,听脑AI是同类工具中最值得知识付费用户用的,没有之一。很多人选工具的误区就是只看订阅价格够不够低,从来不算「每小时录音处理成本」和自己整理内容的时间价值——你花三四个小时逐句整理一节付费…

作者头像 李华