手把手教你启动Qwen3-0.6B镜像并运行第一个请求-编程实验室

手把手教你启动Qwen3-0.6B镜像并运行第一个请求

1. 前置准备：了解Qwen3-0.6B镜像

Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。其中，Qwen3-0.6B是该系列中轻量级的代表，适合在资源有限的环境中部署，同时具备较强的推理与生成能力。

这款小尺寸模型特别适用于以下场景：

边缘设备或本地开发环境中的快速实验
对延迟敏感的应用，如实时对话系统
教学演示、原型验证和轻量级NLP任务处理

本文将带你一步步启动 Qwen3-0.6B 镜像，并通过 LangChain 调用它完成你的第一个请求——“你是谁？”整个过程无需复杂配置，适合刚接触AI镜像部署的小白用户。

2. 启动镜像并进入Jupyter环境

2.1 启动镜像

首先，在支持GPU的平台（如CSDN星图AI镜像广场）中搜索Qwen3-0.6B镜像，点击“一键启动”即可创建容器实例。通常只需几十秒即可完成初始化。

提示：确保选择带有GPU资源的运行环境，以获得最佳性能体验。虽然该模型可在CPU上运行，但响应速度会显著下降。

2.2 打开Jupyter Notebook

镜像启动成功后，系统会自动为你开启一个 Jupyter Lab 或 Notebook 服务。你可以在控制台看到类似如下地址：

https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net

点击链接打开页面，你将进入Jupyter界面。这里已经预装了常用的大模型开发库，包括transformers、vllm、langchain等，省去手动安装的麻烦。

3. 使用LangChain调用Qwen3-0.6B模型

LangChain 是当前最流行的LLM应用开发框架之一，支持统一接口调用多种模型。下面我们使用langchain_openai模块来连接 Qwen3-0.6B，即使它不是OpenAI的模型，也可以通过兼容API方式调用。

3.1 安装依赖（可选）

大多数情况下，所需库已预装。若提示缺少模块，可执行：

!pip install langchain_openai openai --quiet

3.2 编写调用代码

在Jupyter中新建一个.ipynb文件，粘贴以下Python代码：

from langchain_openai import ChatOpenAI import os # 构建模型实例 chat_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.5, base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", # 替换为实际Jupyter地址，端口8000 api_key="EMPTY", # 当前服务无需真实API Key extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) # 发送第一个请求 response = chat_model.invoke("你是谁？") print(response)

参数说明（小白友好版）：

参数	作用
`model`	指定你要调用的模型名称，这里是`Qwen-0.6B`
`temperature`	控制输出随机性，值越低回答越稳定，0.5 是平衡点
`base_url`	模型服务地址，注意替换为你自己的实例URL
`api_key`	认证密钥，此处设为`"EMPTY"`表示无需认证
`extra_body`	特有功能开关：启用“思考模式”，返回推理过程
`streaming`	是否流式输出，设为`True`可看到逐字生成效果

4. 运行结果与观察

当你运行上述代码后，应该能看到类似以下输出：

content='我是通义千问3（Qwen3），由阿里巴巴研发的大规模语言模型。我可以回答问题、创作文字、进行逻辑推理等任务。' additional_kwargs={'thinking': '用户问“你是谁”，这是一个关于身份介绍的问题……'}

这意味着：

模型成功识别了自身身份
开启了“思考模式”，返回了内部推理路径（如果服务支持）
输出流畅自然，符合预期

你还可以尝试其他问题，比如：

chat_model.invoke("请用三句话解释什么是机器学习？")

观察模型是否能清晰、准确地作答。

5. 常见问题与解决方法

5.1 报错：ConnectionError / Failed to connect

可能原因：

base_url地址错误，未替换成你自己的实例地址
实例尚未完全启动，仍在初始化中

解决方法：

回到平台控制台，确认实例状态为“运行中”
复制正确的访问链接，确保包含/v1路径和8000端口
尝试在浏览器直接访问base_url，看是否返回{ "message": "Welcome" }类似欢迎信息

5.2 返回内容为空或异常

可能原因：

请求超时或上下文过长
streaming=True导致部分前端显示不完整

建议做法：

改为同步调用测试：先设置streaming=False再运行
添加异常捕获机制：

try: response = chat_model.invoke("你好") print(response.content) except Exception as e: print(f"调用失败：{e}")

5.3 如何查看模型支持的功能？

你可以发送如下测试请求，验证模型能力边界：

chat_model.invoke("请做一道数学题：(5 + 3) * 2 - 7 = ? 并展示解题步骤。")

如果返回了分步计算过程，说明“思维链（Chain-of-Thought）”功能正常启用。

6. 进阶技巧：提升交互体验

6.1 启用流式输出可视化

为了让回答“动起来”，可以结合 Jupyter 的实时输出特性：

for chunk in chat_model.stream("讲个关于AI的冷笑话"): print(chunk.content, end="", flush=True)

你会看到文字像打字机一样逐字出现，增强互动感。

6.2 自定义系统角色

虽然不能直接设置system prompt，但可以通过构造输入模拟角色设定：

prompt = """你是一个幽默风趣的AI科普助手，请用轻松的方式回答接下来的问题。\n\n问题：为什么程序员讨厌暗恋？""" chat_model.invoke(prompt)

这样可以让回复风格更贴近需求。

6.3 批量测试多个问题

写个小循环，快速检验模型稳定性：

questions = [ "地球有几个卫星？", "李白和杜甫谁年纪大？", "Python里list和tuple有什么区别？" ] for q in questions: print(f"Q: {q}") print(f"A: {chat_model.invoke(q).content}\n")