Langchain-Chatchat离线部署教程：支持PDF、TXT、Word文档智能检索-编程实验室

Langchain-Chatchat离线部署教程：支持PDF、TXT、Word文档智能检索

在企业知识管理日益复杂的今天，一个常见但棘手的问题是：新员工入职后面对堆积如山的制度手册、项目文档和操作指南，往往需要数周时间才能上手；而老员工也常常因为找不到某份关键合同或技术规范而反复沟通确认。传统的文件搜索依赖关键词匹配，对“语义相近但表述不同”的问题束手无策——比如问“怎么申请年假？”系统却无法关联到标题为《薪酬福利管理办法》的文档。

这正是基于大语言模型（LLM）的本地知识库系统崛起的契机。其中，Langchain-Chatchat作为开源社区中成熟度高、功能完整的解决方案之一，凭借其全流程离线运行能力，正在被越来越多金融、医疗、法律等对数据安全要求严苛的企业所采用。它不仅能理解自然语言提问，还能从你上传的PDF、Word和TXT文件中精准提取答案，整个过程无需联网，所有数据都留在内网。

这套系统的强大之处并不在于某个单一技术点，而是将多个前沿AI组件有机整合：用文档解析引擎“读懂”原始文件，通过嵌入模型把文字变成可计算的向量，利用向量数据库实现语义级检索，最后由本地部署的大模型生成自然流畅的回答。下面我们就来拆解这个链条中的每一个环节，并说明如何在实际环境中部署与优化。

核心架构与工作流

整个系统的工作流程可以分为两个阶段：知识入库和问答交互。

知识入库：让机器真正“消化”你的文档

当你把一份PDF用户手册或Word版产品说明扔进系统时，它并不会直接丢给大模型去读。那样做既低效又浪费资源。正确的做法是先进行预处理，形成一个随时可查的知识索引。

首先是文档解析。不同格式的文件需要用不同的工具打开：

TXT 文件最简单，直接按行读取即可；
Word 文档（.docx）使用python-docx或docx2txt提取段落和标题结构；
PDF 则较为复杂，尤其是那些图文混排甚至扫描件。这里推荐使用PyMuPDF（即fitz），相比pdfminer，它的文本定位更准确，对表格和多栏布局的支持更好。

from langchain_community.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader def load_document(file_path): if file_path.endswith(".txt"): return TextLoader(file_path, encoding="utf-8").load() elif file_path.endswith(".docx"): return Docx2txtLoader(file_path).load() elif file_path.endswith(".pdf"): return PyPDFLoader(file_path).load() else: raise ValueError(f"不支持的文件格式: {file_path}")

但光是提取出文本还不够。很多PDF导出的内容会包含页眉页脚、页码、空白行甚至乱码字符。因此紧接着要做的是清洗与分块。我们通常使用RecursiveCharacterTextSplitter按固定长度切分文本，同时保留一定的重叠区域（chunk_overlap），避免一句话被硬生生截断。

from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n", "\n", "。", "！", "？", "；", " ", ""] ) docs = text_splitter.split_documents(pages)

这里的separators非常关键——优先按段落、句子分割，而不是粗暴地按字符数硬切，能显著提升后续语义表达的完整性。

接下来进入核心步骤：向量化存储。每一段文本都会被送入一个嵌入模型（Embedding Model），转换成一个高维向量。这个过程就像是给每段话生成一个“数字指纹”，语义越接近的句子，它们的向量距离就越近。

目前中文场景下表现最好的是BGE（Beijing Academy of Artificial Intelligence）系列模型，特别是bge-small-zh-v1.5，体积小、速度快，适合本地部署。

from langchain_community.embeddings import HuggingFaceEmbeddings embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5")

然后把这些向量存入向量数据库。FAISS 是最轻量的选择，纯CPU即可运行，适合测试和中小规模应用；若需支持动态增删、分布式查询，则可选用 Milvus 或 Chroma。

from langchain_community.vectorstores import FAISS vectorstore = FAISS.from_documents(docs, embedding_model) vectorstore.save_local("vectorstore/faiss_index") # 保存以便复用

至此，知识库就建好了。你可以把它想象成一本已经做好详细目录和索引的手册，只等被人提问。

问答交互：从“检索”到“生成”的闭环

当用户在前端输入一个问题，例如：“客户退款流程是什么？”系统并不会让大模型凭空回答，而是走一套严谨的 RAG（Retrieval-Augmented Generation）流程。

第一步是问题向量化。同样使用 BGE 模型将问题转为向量，在 FAISS 中执行近似最近邻搜索（ANN），找出 Top-K（通常是3~5条）最相关的文本片段。

retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) context_docs = retriever.invoke("客户退款流程是什么？")

这些片段会被拼接到提示词（Prompt）中，作为上下文提供给大模型。典型的 Prompt 结构如下：

请根据以下内容回答问题： --- {context_doc_1} --- {context_doc_2} --- 问题：{user_question} 回答：

这样做的好处非常明显：模型不再需要“记住”所有知识，而是像一位专家查阅资料后再作答，极大减少了幻觉（hallucination）的发生概率。

至于用哪个大模型，取决于你的硬件条件。以下是几个常见选择：

模型名称	参数量	显存需求	中文能力	推荐理由
ChatGLM3-6B	6B	≥13GB	⭐⭐⭐⭐☆	清华开源，生态完善，API兼容性强
Qwen-7B	7B	≥14GB	⭐⭐⭐⭐⭐	阿里出品，指令遵循能力强
Baichuan2-7B	7B	≥14GB	⭐⭐⭐⭐☆	训练数据丰富，推理稳定
Llama3-8B-Instruct (GGUF)	8B	≥6GB (Q4_K_M量化)	⭐⭐⭐☆☆	支持CPU推理，适合资源受限环境

如果你只有消费级显卡（如RTX 3060/3090），建议使用量化版本（如 GGUF 格式）配合 llama.cpp 或 Ollama 运行。以 Q4_K_M 为例，可以在 16GB 显存下流畅加载 7B~8B 模型。

调用方式也很简单：

from langchain_community.llms import ChatGLM llm = ChatGLM( endpoint_url="http://127.0.0.1:8000", # 对接本地 FastAPI 服务 temperature=0.7, max_tokens=1024 ) prompt = f"请根据以下内容回答问题：\n{''.join([d.page_content for d in context_docs])}\n\n问题：客户退款流程是什么？\n\n回答：" response = llm.invoke(prompt) print(response)

整个流程下来，响应时间通常在2~5秒之间，完全满足日常办公需求。

实际部署建议与避坑指南

虽然官方提供了 Docker 镜像一键部署方案，但在真实生产环境中仍有不少细节需要注意。

硬件配置参考

场景	GPU	CPU	内存	存储	适用模型
开发测试	RTX 3090 (24GB)	i7 / Ryzen 7	32GB	500GB SSD	7B~13B 全精度
小型企业	无GPU / 集成显卡	8核以上	64GB	1TB SSD	7B 量化版（GGUF）
高并发服务	A10 / L4 (24GB+)	多路服务器	128GB+	NVMe RAID	13B以上 + Tensor Parallel

特别提醒：不要低估向量数据库的IO压力。FAISS 虽然轻量，但加载大型索引时可能占用数十GB内存。建议使用 SSD 并预留足够交换空间。

扫描类PDF怎么办？

很多企业历史文档是以扫描图形式存在的PDF，这类文件本质是图片，无法直接提取文本。必须引入 OCR 引擎。

推荐组合：PaddleOCR + layout-parser

pip install paddlepaddle paddleocr

from paddleocr import PaddleOCR ocr = PaddleOCR(use_angle_cls=True, lang='ch') result = ocr.ocr("scanned.pdf", type='pdf') full_text = "" for page_result in result: for line in page_result: full_text += line[1][0] + "\n"

PaddleOCR 支持中英文混合识别、表格检测、版面分析，准确率远超 Tesseract，且对模糊图像容忍度更高。