Qwen3-1.7B + LangChain开发指南：流式响应与思维链启用教程-编程实验室

Qwen3-1.7B + LangChain开发指南：流式响应与思维链启用教程

1. Qwen3-1.7B 模型简介

Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。其中，Qwen3-1.7B 是该系列中轻量级但功能强大的一款密集模型，适合在资源受限环境下部署，同时保持了出色的推理能力和语义理解水平。

这款模型特别适用于本地化部署、边缘设备运行以及对延迟敏感的应用场景。由于其体积小、启动快、响应迅速，在实际开发中非常适合作为原型验证或中小型项目的首选模型。结合 LangChain 框架，可以快速构建具备上下文记忆、工具调用和复杂逻辑处理能力的智能应用。

更重要的是，Qwen3-1.7B 支持思维链（Chain-of-Thought, CoT）推理模式和流式响应输出，这两项特性极大提升了用户体验和系统可解释性。接下来我们将详细介绍如何通过 LangChain 调用该模型，并启用这些高级功能。

2. 环境准备与镜像启动

2.1 启动预置镜像并进入 Jupyter 环境

要使用 Qwen3-1.7B 模型进行开发，推荐使用 CSDN 提供的一键部署 AI 镜像环境。该镜像已预装了包括 LangChain、Transformers、vLLM 等常用库，省去了繁琐的依赖配置过程。

操作步骤如下：

登录平台后选择“Qwen3”相关镜像模板；
创建实例并等待初始化完成；
启动服务后点击“JupyterLab”链接进入开发界面；
打开一个新的.ipynb笔记本文件，即可开始编码。

提示：镜像默认会启动一个本地 API 服务，监听端口为8000，并通过 OpenAI 兼容接口暴露模型能力，因此我们可以直接使用langchain_openai模块来调用它。

3. 使用 LangChain 调用 Qwen3-1.7B

LangChain 是当前最流行的 LLM 应用开发框架之一，支持多种模型接入方式。得益于 Qwen3 镜像提供的 OpenAI 类接口，我们无需编写底层 HTTP 请求代码，只需简单配置即可实现高效调用。

3.1 安装必要依赖

虽然镜像中通常已预装所需包，但仍建议检查以下依赖是否就位：

pip install langchain langchain-openai

确保langchain_openai版本不低于 0.1.0，以支持自定义base_url和extra_body参数。

3.2 初始化 ChatOpenAI 实例

以下是调用 Qwen3-1.7B 并启用关键特性的完整代码示例：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", # 替换为你的实际 Jupyter 地址，注意端口为 8000 api_key="EMPTY", # 当前接口无需真实密钥 extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, )

让我们逐项解析这段配置的关键点：

model="Qwen3-1.7B"：指定目标模型名称，用于标识请求路由。
temperature=0.5：控制生成文本的随机性，值越低输出越确定，适合需要稳定回答的场景。
base_url：指向本地运行的模型服务地址，必须根据你当前 Jupyter 实例的实际 URL 修改，尤其是子域名部分。
api_key="EMPTY"：因服务未设鉴权，此处填写任意非空字符串即可绕过校验。
extra_body：这是最关键的部分，用于传递扩展参数：
- "enable_thinking": True表示开启思维链推理模式；
- "return_reasoning": True表示返回中间推理过程。
streaming=True：启用流式响应，使模型逐字输出结果，提升交互体验。

3.3 发起调用并查看响应

完成初始化后，可以直接调用invoke()方法发送问题：

chat_model.invoke("你是谁？")

执行后，你会看到类似如下的输出（具体格式取决于后端实现）：

思考过程： 我是一个由阿里云研发的语言模型，名叫 Qwen3。我可以回答问题、创作文字、进行逻辑推理等任务。 回答： 我是 Qwen3，阿里巴巴推出的超大规模语言模型，能够帮助你完成各种自然语言处理任务。

这表明模型不仅给出了最终答案，还展示了其内部的推理路径——这正是“思维链”带来的优势。

4. 流式响应的实际效果与应用场景

4.1 什么是流式响应？

传统的 LLM 调用是“全量返回”，即客户端需等待整个生成过程结束后才能接收到结果。而流式响应（Streaming）则允许模型一边生成内容，一边实时传输给前端，用户可以看到文字“逐字出现”的效果，就像有人正在打字一样。

这种机制广泛应用于聊天机器人、语音助手、写作辅助等强调即时反馈的场景。

4.2 在 LangChain 中处理流式输出

如果你希望更精细地控制流式数据的处理方式，可以使用stream()方法替代invoke()：

for chunk in chat_model.stream("请讲一个关于猫的故事"): print(chunk.content, end="", flush=True)

这样每生成一个 token，就会立即打印出来，形成动态输出效果。你可以将其集成到 Web 应用中，配合 SSE（Server-Sent Events）或 WebSocket 实现真正的实时对话体验。

此外，结合前端框架如 React 或 Vue，还能实现“打字机动画”式的 UI 效果，显著增强用户感知质量。

5. 思维链（Thinking Process）的工作原理与价值

5.1 什么是思维链（Chain-of-Thought）

思维链是一种让大模型显式展示其推理过程的技术。传统模型往往只返回最终结论，缺乏透明度。而启用enable_thinking后，模型会在输出前先进行多步推导，再基于推理得出答案。

例如，面对数学题：“小明有5个苹果，吃了2个，又买了3个，现在有几个？”
普通模式可能直接回答：“6个。”
而思维链模式则会输出：

思考过程： 小明一开始有5个苹果。 吃了2个，剩下 5 - 2 = 3 个。 又买了3个，总共 3 + 3 = 6 个。 所以现在有6个苹果。 回答： 小明现在有6个苹果。

这种方式极大增强了模型的可解释性和可信度。

5.2 如何获取结构化推理信息

目前extra_body中设置的return_reasoning=True尚未统一返回结构化 JSON，多数情况下推理内容仍包含在主响应流中。若需提取独立字段，建议在服务端做进一步封装。

一种可行方案是在自定义 API 层将reasoning_trace单独作为字段返回，例如：

{ "answer": "6个", "reasoning": "小明一开始有5个……所以现在有6个苹果。", "tokens_used": 87 }

然后在 LangChain 中通过自定义output_parser解析该结构。

6. 常见问题与调试技巧

6.1 连接失败或超时怎么办？

如果出现ConnectionError或Timeout错误，请检查以下几点：

base_url是否正确？特别是子域名和端口号（应为8000）；
模型服务是否已完全启动？可在终端运行ps aux | grep vllm查看进程；
是否存在网络策略限制？尝试在同一 VPC 内访问；
可添加timeout=60参数延长等待时间。

6.2 如何关闭思维链仅获取简洁回答？

只需修改extra_body配置：

extra_body={ "enable_thinking": False, "return_reasoning": False, }

或者干脆移除extra_body字段，即可恢复默认行为。

6.3 能否与其他 LangChain 组件集成？

当然可以！ChatOpenAI接口完全兼容 LangChain 生态，可用于：

构建ConversationBufferMemory实现历史记忆；
搭配LLMChain或RunnableSequence组织复杂流程；
集成Tool和AgentExecutor实现工具调用；
结合RetrievalQA构建知识库问答系统。

示例：构建带记忆的对话链

from langchain.memory import ConversationBufferMemory from langchain.chains import LLMChain from langchain.prompts import PromptTemplate template = """你是一个友好且富有知识的助手。根据以下对话历史回答问题。 历史：{history} 问题：{input} 回答：""" prompt = PromptTemplate(input_variables=["history", "input"], template=template) memory = ConversationBufferMemory(memory_key="history") chain = LLMChain(llm=chat_model, prompt=prompt, memory=memory) chain.invoke({"input": "你好！"}) # 输出：你好！有什么我可以帮你的吗？ chain.invoke({"input": "刚才我问了什么？"}) # 输出：你刚才向我打招呼，说“你好！”

这说明模型不仅能记住上下文，还能结合思维链进行连贯推理。