news 2026/5/1 10:33:08

昇腾服务器大模型量化方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
昇腾服务器大模型量化方法

昇腾服务器大模型量化方法

本文介绍如何使用量化工具在昇腾服务器上做量化,量化工具使用msModelSlim,推理框架使用MindIE,昇腾卡为Atlas300I Duo卡,以量化多模型模型Qwen2.5-VL-7B-Instruct为例。

准备mindie镜像

镜像版本:2.2.RC1-300I-Duo-py311-openeuler24.03-lts

创建容器

dockerrun -it -u root --ipc=host --net=host\--name mindie22\--privileged\--device=/dev/davinci_manager\--device=/dev/devmm_svm\--device=/dev/hisi_hdc\-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi\-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common\-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver\-v /etc/ascend_install.info:/etc/ascend_install.info\-v /etc/vnpu.cfg:/etc/vnpu.cfg\-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info\-v /data:/data\ca41f88c275c /bin/bash

在容器内安装量化工具

gitclone https://gitcode.com/Ascend/msit.gitcdmsmodelslimbashinstall.sh


模型量化

#还需要执行以下命令安装qwen_vl_utils依赖pipinstallqwen_vl_utilscdmsit/msmodelslim/example/multimodal_vlm/ Qwen2.5-VL python quant_qwen2_5vl.py --model_path /data/models/Qwen/Qwen2.5-VL-7B-Instruct --calib_images../calibImages --save_directory /data/models/Qwen/Qwen2.5-VL-7B-Instruct-w8a8 --w_bit8--a_bit8--device_type npu --trust_remote_code True --anti_method m2 --mindie_format

在Duo卡上量化会遇到“System Direct Memory Access (DMA) hardware execution error”报错
使用NPU多卡量化(特别是Qwen2.5-VL-72B这种大模型),先配置多卡环境变量(Atlas 300I Duo 系列产品不支持多卡量化):

exportASCEND_RT_VISIBLE_DEVICES=0,1exportPYTORCH_NPU_ALLOC_CONF=expandable_segments:False

设置完上述环境变量后可正常量化


MindIE 推理验证

curl-X POST"http://127.0.0.1:1025/v1/chat/completions"\-H"Content-Type: application/json"\-d'{ "model": "qwen2.5-vl", "messages": [ { "role": "user", "content": [ {"type": "text", "text": "描述这张图"}, { "type": "image_url", "image_url": {"url": "/data/VL/bus.jpg"} } ] } ], "max_tokens": 1024 }'

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 19:10:49

Java毕设项目推荐-基于SpringBoot+vue的乡镇农产品供销服务系统设计与实现山区农产品供销服务系统的设计与实现【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 19:58:50

【课程设计/毕业设计】基于SpringBoot+vue的山区农产品产销山区农产品供销服务系统的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 9:12:44

如何有效降低AI检测率?这10款免费工具,2026年亲测好用,【建议收藏】

✅ 一文看懂如何降低ai率、稳过论文检测 后台不少人问我: “论文的AI率太高怎么办?导师说要降低ai率,但我试了好几个免费降ai率工具都不太行。” 我当时也焦虑过。首稿检测AI率88%,直接被退回来。后来陆续试了十几款论文降aigc、a…

作者头像 李华
网站建设 2026/5/1 10:33:31

SSH 协议的加密与认证原理

在管理远程服务器或进行协作开发时,SSH(Secure Shell)是无法绕过的核心协议。它为原本脆弱的网络连接建立了一层坚固的防护壳,确保指令和数据在复杂的互联网环境中不被截获或篡改。理解其底层运作机制,对于提升系统安全…

作者头像 李华
网站建设 2026/4/27 0:44:40

基于 Flutter × OpenHarmony 构建应用选择主题部分实现

文章目录基于 Flutter OpenHarmony 构建应用选择主题部分实现前言背景Flutter OpenHarmony 跨端开发介绍开发核心代码心得总结基于 Flutter OpenHarmony 构建应用选择主题部分实现 前言 在现代移动应用开发中,“关于应用”页面是用户了解应用信息的重要入口。它…

作者头像 李华