news 2026/5/1 11:06:48

Qwen3-Coder-Next 昇腾适配:开发者在线体验一站式通关指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen3-Coder-Next 昇腾适配:开发者在线体验一站式通关指南

2 月 4 日,Qwen3-Coder-Next 正式对外开源发布。该模型面向编程智能体与本地开发场景打造,提供完整开源权重,适合开发者进行二次开发与工程集成。昇腾已适配支持该模型相关模型与权重已同步上线 AtomGit AI。

👉 立即体验:https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-Next/model-inference

01|模型介绍

Qwen3-Coder-Next 本质上是一款专门为编程和智能体场景打造的超大模型。它采用了混合专家(MoE)架构,也可以理解为:模型里有很多“专家模块”,每次只调动最合适的一小部分来工作,而不是把全部参数都跑一遍。这样做的好处是,在保持模型能力很强的同时,大幅降低了实际推理开销,更适合真实部署和长期跑服务。

同时,它基于 Qwen3-Next-80B-A3B-Base 构建,并结合新的注意力结构,让模型在写代码、理解工程上下文和处理复杂任务流程时更稳定、更聪明。

效果演示

我们展示其在 OpenClaw、Web 开发的示例:

使用OpenClaw与其进行聊天:

使用 Web 开发 实现一个聊天界面:

02|硬件建议

03|MindSpeed LLM 全流程部署实战

MindSpeed LLM 已完成对 Qwen3-Coder-Next 的首发适配,支持在昇腾 NPU 上进行预训练、指令微调与推理部署,适合构建长期运行的编程智能体与企业级研发平台。

3.1 软件栈与环境依赖

在使用 MindSpeed LLM 部署 Qwen3-Coder-Next 前,需要准备如下基础环境:

3.2 环境准备与仓库部署

拉取核心代码仓库

# MindSpeed-LLM 主仓库 git clone https://gitcode.com/ascend/MindSpeed-LLM.git # Megatron-LM(MindSpeed-LLM 依赖) git clone https://github.com/NVIDIA/Megatron-LM.git cd Megatron-LM git checkout core_v0.12.1 # 拷贝 Megatron 到 MindSpeed-LLM cp -r megatron ../MindSpeed-LLM/ cd ../MindSpeed-LLM git checkout master

创建 Python 运行环境

conda create -n qwen3-coder python=3.10 conda activate qwen3-coder

安装 PyTorch 与昇腾 NPU 依赖

pip install torch-2.7.1-cp310-cp310m-manylinux2014_aarch64.whl pip install torch_npu-2.7.1*-cp310-cp310m-linux_aarch64.whl

安装 MindSpeed 加速库

git clone https://gitcode.com/ascend/MindSpeed.git cd MindSpeed git checkout master pip install -r requirements.txt pip install -e .

安装完成后,MindSpeed 将自动接管 Transformer、Attention 与 MoE 等核心模块的加速执行路径。

3.3 权重转换:打通 HuggingFace 生态

Qwen3-Coder-Next 官方以 HuggingFace 格式发布权重。

MindSpeed LLM 提供一键式转换脚本,可将权重转换为 Megatron / MindSpeed 可直接使用的格式。

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/ckpt_convert_qwen3_coder_next_80b_hf2mcore.sh

该过程会自动完成:

  • 权重切分与并行映射

  • MoE 专家参数重排

  • 与昇腾并行策略对齐

3.4 数据预处理流程

预训练数据处理

bash examples/mcore/qwen3_coder_next/data_convert_qwen3_coder_next_pretrain.sh \ --input /path/to/raw_data \ --tokenizer-name-or-path /path/to/tokenizer \ --output-prefix /path/to/processed_data

指令微调数据处理

bash examples/mcore/qwen3_coder_next/data_convert_qwen3_coder_next_instruction.sh \ --input /path/to/instruction_data.json \ --tokenizer-name-or-path /path/to/tokenizer \ --output-prefix /path/to/processed_sft_data

3.5 预训练、微调与推理部署

预训练示例

我们这里以 4 机 64 卡 Atlas A3 为例

bash examples/mcore/qwen3_coder_next/pretrain_qwen3_coder_next_80b_4K_A3_ptd.sh

全参数微调

bash examples/mcore/qwen3_coder_next/tune_qwen3_coder_next_80b_4K_full_ptd.sh

推理生成

bash examples/mcore/qwen3_coder_next/genarate_qwen3_coder_next_80b_ptd.sh

04|vLLM Ascend 推理上手指导

4.1 获取模型权重

可在 AtomGit AI 快速下载模型权重:

# 从 AtomGit 镜像站下载 git clone https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-Next

或访问页面手动下载:https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-Next

注意:Qwen3-Coder-Next 已在 vllm-ascend:v0.14.0rc1 版本镜像中支持。

4.2 安装 Triton Ascend

需要确保环境中已安装 Triton Ascend 以运行该模型:

pip install triton-ascend==3.2.0

详细安装指南可参考:https://gitcode.com/Ascend/triton-ascend

4.3 启动 Docker 容器

根据您的昇腾硬件版本选择对应镜像:

# 对于 Atlas A3 机器: exportIMAGE=quay.io/ascend/vllm-ascend:v0.14.0rc1 docker run --rm \ --shm-size=1g \ --name qwen3-coder-next \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /root/.cache:/root/.cache \ -p 8000:8000 \ -it $IMAGEbash

4.4 离线推理(Python API)

在容器内执行以下 Python 脚本进行离线推理:

import os os.environ["VLLM_USE_MODELSCOPE"]="True" os.environ["VLLM_WORKER_MULTIPROC_METHOD"]="spawn" from vllm import LLM, SamplingParams defmain(): prompts =[ "Hello, my name is", "The president of the United States is", "The capital of France is", "The future of AI is", ] # 采样参数配置 sampling_params = SamplingParams( max_tokens=100, temperature=0.0 ) # 初始化 LLM(NPU 环境) llm = LLM( model="/path/to/model/Qwen3-Coder-Next/",# 替换为 AtomGit 下载路径 tensor_parallel_size=4,# 4 卡张量并行 trust_remote_code=True, max_model_len=10000,# 根据 NPU 显存调整 gpu_memory_utilization=0.8,# GPU 内存利用率 max_num_seqs=4, max_num_batched_tokens=4096, compilation_config={ "cudagraph_mode":"FULL_DECODE_ONLY", }, ) # 生成文本 outputs = llm.generate(prompts, sampling_params) for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}") if __name__ =="__main__": main()

4.5 在线推理

启动兼容 OpenAI API 的推理服务:

vllm serve /path/to/model/Qwen3-Coder-Next/ \ --tensor-parallel-size 4\ --max-model-len 32768\ --gpu-memory-utilization 0.8\ --max-num-batched-tokens 4096\ --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'

建议:

--max-model-len 32768:NPU 部署建议先使用 32K 上下文长度,稳定后可尝试 256K

--tensor-parallel-size 4:4 卡并行,充分发挥 NPU 算力

发送测试请求:

curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json"\ -d '{ "prompt": "Write a Python function to implement quick sort", "max_tokens": 512, "temperature": 0.0 }'

05|快速体验模型能力

为了帮助用户快速上手并高效评估模型能力,Qwen3-Coder-Next提供「在线体验」与「API 接入」两种使用方式,分别面向快速验证与工程化应用场景。

方式一:即刻在线体验

无需部署,无需环境配置,打开即可使用。

通过模型在线推理页面直接输入代码或自然语言指令,即可快速体验 Qwen3-Coder-Next 在代码生成、代码理解、复杂任务拆解与智能体能力方面的实际效果,适用于模型能力验证、编程场景测试以及不同代码模型之间的对比评估。

👉 在线体验地址:https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-Next/model-inference

方式二:调用推理 API

还可通过推理 API 接入 Qwen3-Coder-Next 的模型能力,用于构建代码助手、自动化开发工具和智能体系统,适用于对稳定性、并发能力与工程集成要求较高的开发场景。

👉 推理 API 地址:https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-Next/model-inference

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 7:51:36

三元食品因虚假投标被暂停全军采购,袁浩宗掌舵下的突围困局

文 | 琥珀消研社 作者 | 刘洋 一则军队采购处罚公告在互联网传播,撕开了老牌乳企三元食品的经营隐忧。 网络传播的消息显示,2026年1月30日,军队采购网正式发布处罚通知,北京三元食品股份有限公司因投标过程中提供虚假材料&…

作者头像 李华
网站建设 2026/5/1 5:45:44

Java实习模拟面试实录:字节跳动日常实习三面深度复盘 —— 集合、JVM、MySQL索引、Redis原理 + 手撕LRU,全面考察工程与底层能力!

Java实习模拟面试实录:字节跳动日常实习三面深度复盘 —— 集合、JVM、MySQL索引、Redis原理 手撕LRU,全面考察工程与底层能力! 前言:本文完整还原了笔者参加字节跳动(ByteDance)Java日常实习生岗位第三轮…

作者头像 李华
网站建设 2026/5/1 7:52:13

HCIP第一次作业

LSW1配置 vlan batch 2 3 interface GigabitEthernet 0/0/1 port link-type access port default vlan 2 interface GigabitEthernet 0/0/2 port link-type access port default vlan 3 interface GigabitEthernet 0/0/3 port link-type trunk port trunk allow-pass vl…

作者头像 李华
网站建设 2026/5/1 2:00:18

Anthropic大模型Agents构建全攻略:从理念到实践的极简指南

高效构建Agents的设计理念 始终贯穿“实用优先、简洁可控、按需适配”的逻辑。 1. 最小复杂度优先,拒绝过度设计 这是最核心的底层理念:构建LLM相关系统时,优先采用最简单的解决方案(如单次LLM调用检索/上下文示例),仅在简单方…

作者头像 李华
网站建设 2026/5/1 5:45:03

JAVA理发预约系统,同城服务一键约起

以下是一个基于 JAVA 的同城理发预约系统解决方案,涵盖用户端、商家端、后台管理功能,支持“一键预约、智能匹配、实时通知”,助力快速搭建高效、便捷的本地生活服务平台。 一、系统核心功能 1. 用户端功能 一键预约 选择服务类型&#xff…

作者头像 李华