news 2026/6/15 19:59:36

Qwen Code + vLLM + Qwen3-Coder 构建本地私有化开发助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen Code + vLLM + Qwen3-Coder 构建本地私有化开发助手

一、Qwen Code

Qwen Code是一款类似于Claude CodeAI编程助手,由阿里通义千问团队推出,一定程度上可以作为Claude Code的平替工具,本文通过Qwen Code+vLLM+Qwen3-Coder-30B-A3B-Instruct构建纯内网下私服级开发辅助引擎,主要流程如下所示:

实验主要依赖的版本如下:

torch==2.6.0transformers==4.51.3modelscope==1.23.1vllm==0.8.4

二、vLLM 部署 Qwen3-Coder-30B-A3B-Instruct

使用modelscope下载Qwen3-Coder-30B-A3B-Instruct模型到本地:

modelscope download--model="Qwen3-Coder-30B-A3B-Instruct"--local_dirQwen3-Coder-30B-A3B-Instruct

然后使用vLLM读取模型启动API服务。

exportCUDA_VISIBLE_DEVICES=0,1vllm serve"Qwen3-Coder-30B-A3B-Instruct"\--host0.0.0.0\--port8060\--dtypebfloat16\--tensor-parallel-size2\--cpu-offload-gb0\--gpu-memory-utilization0.8\--max-model-len65536\--api-key token-abc123\--enable-prefix-caching\--enable-auto-tool-choice\--tool-call-parser hermes\--trust-remote-code

关键参数说明:

  • export CUDA_VISIBLE_DEVICES=0,1:指定所使用的GPU
  • dtype: 数据类型,其中bfloat1616位浮点数,适合NVIDIA A100等设备。
  • tensor-parallel-sizeTensor并行的数量,当多GPU分布式推理时使用,建议和GPU的数量一致。
  • cpu-offload-gb:允许将部分模型权重或中间结果卸载到CPU的内存中,单位为GB,模拟GPU内存扩展,如果部署的模型大于了显存大小可以设置该参数,但是推理速度会大大下降。
  • gpu-memory-utilization:设置GPU内存利用率的上限。
  • max-model-len:允许模型最大处理的Token数,该参数越大占用显存越大。
  • enable-prefix-caching:启用前缀缓存减少重复计算。
  • enable-auto-tool-choice:启用 function call 模式。
  • tool-call-parser hermes:设置 function call 的解析器。

显存占用情况:

如果启动显存不足,可适当调整gpu-memory-utilizationmax-model-len参数,或通过cpu-offload-gb将部分模型权重卸载到内存中(速度会大大折扣)。

启动成功后,可通过/v1/models接口可查看模型列表:

curlhttp://127.0.0.1:8060/v1/models-H"Authorization: Bearer token-abc123"

测试API交互:

curlhttp://127.0.0.1:8060/v1/chat/completions\-H"Content-Type: application/json"\-H"Authorization: Bearer token-abc123"\-d'{ "model": "Qwen3-Coder-30B-A3B-Instruct", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你是谁"} ] }'

三、安装和配置 Qwen Code

首先安装 Qwen Code 组件,这里采用 npm:

npminstall-g@qwen-code/qwen-code@latest

安装好后,可以输入qwen进入窗口:

配置上面部署的私有模型:

在项目目录下创建.env文件, 内容如下所示:

OPENAI_BASE_URL=http://127.0.0.1:8060/v1/OPENAI_API_KEY=token-abc123OPENAI_MODEL=Qwen3-Coder-30B-A3B-Instruct

然后在.env文件同级的目录下唤醒qwen:

i进入插入模式,然后输入/auth切换认证方式,选择OpenAI,确认信息后即配置成功:

四、 Vibe Coding 测试

这里简单测试下 Vibe Coding ,开发一个H5小游戏和一个前端页面。

4.1 测试 h5 小游戏开发

输入指令:创建一个H5五子棋小游戏

默认情况下,对文件的修改都要用户授权,这里可以先选择是,总是允许

最终运行使用效果:

4.2 测试 前端页面开发

输入指令:实现一个科技感十足的数据分析洞察的前端展示页面,使用H5绘制,需要包含炫酷的图表和动画

最终运行使用效果:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:19:40

SpringBoot+Vue 校园志愿者管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着社会对公益事业的重视程度不断提升,校园志愿者活动在高校中日益普及。传统的志愿者管理方式主要依赖人工记录和纸质文档,存在信息更新不及时、数据统计困难、资源共享效率低下等问题。为了解决这些问题,开发一套高效、便捷的校园志愿…

作者头像 李华
网站建设 2026/6/15 11:15:59

终极动画观影神器:Hanime1Plugin免费广告拦截插件完整指南

终极动画观影神器:Hanime1Plugin免费广告拦截插件完整指南 【免费下载链接】Hanime1Plugin Android插件(https://hanime1.me) (NSFW) 项目地址: https://gitcode.com/gh_mirrors/ha/Hanime1Plugin 在当前的数字娱乐时代,动画爱好者们常常被无处不…

作者头像 李华
网站建设 2026/6/15 13:37:02

网盘直链下载助手如何配合DDColor模型分发?高效传播策略

网盘直链下载助手如何配合DDColor模型分发?高效传播策略 在家庭相册泛黄、档案馆老照片模糊的今天,我们比以往任何时候都更渴望让历史“重见色彩”。而AI技术的发展,特别是像 DDColor 这样的图像着色模型,正悄然改变着数字修复的门…

作者头像 李华
网站建设 2026/6/15 13:10:52

Yolov5热力图可视化:显示模型关注区域辅助DDColor优化

Yolov5热力图可视化:显示模型关注区域辅助DDColor优化 在处理黑白老照片修复任务时,我们常遇到一个看似简单却极具挑战的问题:为什么一张本应自然上色的图像,最终却出现了肤色泛蓝、建筑色彩溢出或细节模糊的现象?传统…

作者头像 李华