Qwen Code + vLLM + Qwen3-Coder 构建本地私有化开发助手-编程实验室

一、Qwen Code

Qwen Code是一款类似于Claude Code的AI编程助手，由阿里通义千问团队推出，一定程度上可以作为Claude Code的平替工具，本文通过Qwen Code+vLLM+Qwen3-Coder-30B-A3B-Instruct构建纯内网下私服级开发辅助引擎，主要流程如下所示：

实验主要依赖的版本如下：

torch==2.6.0transformers==4.51.3modelscope==1.23.1vllm==0.8.4

二、vLLM 部署 Qwen3-Coder-30B-A3B-Instruct

使用modelscope下载Qwen3-Coder-30B-A3B-Instruct模型到本地：

modelscope download--model="Qwen3-Coder-30B-A3B-Instruct"--local_dirQwen3-Coder-30B-A3B-Instruct

然后使用vLLM读取模型启动API服务。

exportCUDA_VISIBLE_DEVICES=0,1vllm serve"Qwen3-Coder-30B-A3B-Instruct"\--host0.0.0.0\--port8060\--dtypebfloat16\--tensor-parallel-size2\--cpu-offload-gb0\--gpu-memory-utilization0.8\--max-model-len65536\--api-key token-abc123\--enable-prefix-caching\--enable-auto-tool-choice\--tool-call-parser hermes\--trust-remote-code

关键参数说明：

export CUDA_VISIBLE_DEVICES=0,1：指定所使用的GPU。
dtype: 数据类型，其中bfloat16，16位浮点数，适合NVIDIA A100等设备。
tensor-parallel-size：Tensor并行的数量，当多GPU分布式推理时使用，建议和GPU的数量一致。
cpu-offload-gb：允许将部分模型权重或中间结果卸载到CPU的内存中，单位为GB，模拟GPU内存扩展，如果部署的模型大于了显存大小可以设置该参数，但是推理速度会大大下降。
gpu-memory-utilization：设置GPU内存利用率的上限。
max-model-len：允许模型最大处理的Token数，该参数越大占用显存越大。
enable-prefix-caching：启用前缀缓存减少重复计算。
enable-auto-tool-choice：启用 function call 模式。
tool-call-parser hermes：设置 function call 的解析器。

显存占用情况：

如果启动显存不足，可适当调整gpu-memory-utilization和max-model-len参数，或通过cpu-offload-gb将部分模型权重卸载到内存中（速度会大大折扣）。

启动成功后，可通过/v1/models接口可查看模型列表：

curlhttp://127.0.0.1:8060/v1/models-H"Authorization: Bearer token-abc123"

测试API交互：

curlhttp://127.0.0.1:8060/v1/chat/completions\-H"Content-Type: application/json"\-H"Authorization: Bearer token-abc123"\-d'{ "model": "Qwen3-Coder-30B-A3B-Instruct", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你是谁"} ] }'

三、安装和配置 Qwen Code

首先安装 Qwen Code 组件，这里采用 npm：

npminstall-g@qwen-code/qwen-code@latest

安装好后，可以输入qwen进入窗口：

配置上面部署的私有模型：

在项目目录下创建.env文件，内容如下所示：

OPENAI_BASE_URL=http://127.0.0.1:8060/v1/OPENAI_API_KEY=token-abc123OPENAI_MODEL=Qwen3-Coder-30B-A3B-Instruct

然后在.env文件同级的目录下唤醒qwen:

按i进入插入模式，然后输入/auth切换认证方式，选择OpenAI，确认信息后即配置成功：

四、 Vibe Coding 测试

这里简单测试下 Vibe Coding ，开发一个H5小游戏和一个前端页面。

4.1 测试 h5 小游戏开发

输入指令：创建一个H5五子棋小游戏

默认情况下，对文件的修改都要用户授权，这里可以先选择是，总是允许：

最终运行使用效果：

4.2 测试前端页面开发

输入指令：实现一个科技感十足的数据分析洞察的前端展示页面，使用H5绘制，需要包含炫酷的图表和动画

最终运行使用效果：

SpringBoot+Vue 校园志愿者管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要随着社会对公益事业的重视程度不断提升，校园志愿者活动在高校中日益普及。传统的志愿者管理方式主要依赖人工记录和纸质文档，存在信息更新不及时、数据统计困难、资源共享效率低下等问题。为了解决这些问题，开发一套高效、便捷的校园志愿…

李华

企业级校园疫情防控管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要近年来，全球范围内的突发公共卫生事件频发，校园作为人员密集场所，疫情防控管理面临严峻挑战。传统的人工登记、纸质记录等方式效率低下，难以实现实时监测和动态管理，亟需通过信息化手段提升校园疫情防控的精准性和…

李华

校园疫情防控信息管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要近年来，全球范围内的公共卫生事件频发，尤其是新型冠状病毒疫情的爆发，对校园安全管理提出了更高要求。传统的校园疫情防控手段主要依赖人工登记和纸质记录，效率低下且容易出现信息遗漏或错误。随着信息化技术的快速发展&…

李华

终极动画观影神器：Hanime1Plugin免费广告拦截插件完整指南

终极动画观影神器：Hanime1Plugin免费广告拦截插件完整指南【免费下载链接】Hanime1Plugin Android插件(https://hanime1.me) (NSFW) 项目地址: https://gitcode.com/gh_mirrors/ha/Hanime1Plugin 在当前的数字娱乐时代，动画爱好者们常常被无处不…