DeepSeek-R1-Distill-Qwen-1.5B模型长期记忆实现：外部知识库集成方案-编程实验室

DeepSeek-R1-Distill-Qwen-1.5B模型长期记忆实现：外部知识库集成方案

1. 为什么小模型也需要长期记忆能力

DeepSeek-R1-Distill-Qwen-1.5B是个很特别的模型。它只有15亿参数，比动辄几十上百亿的大模型轻巧得多，部署起来不费劲，对显存要求也不高——一块24GB显存的GPU就能跑起来。但正因为它小，它的"记性"也有限。就像我们读书时，课本里的知识不会自动变成自己的经验，这个模型在训练完成后，它的知识就固定在了权重里，没法随着使用过程不断积累新信息。

你可能会想，既然它已经学过那么多东西，为什么还需要额外的记忆？实际用起来就会发现，很多场景下它会给出模糊甚至错误的回答。比如问它公司内部的报销流程，它只能凭通用知识瞎猜；问它上周会议讨论的技术方案，它根本不知道发生了什么。这不是模型能力差，而是它缺乏一个能随时调用的"外部笔记本"。

我之前在给一家做工业设备维护的客户部署这个模型时就遇到类似问题。他们希望用模型回答一线工程师关于设备故障代码的查询，但模型对那些只在内部文档里出现的代码完全没概念。后来我们给它加了一套外部知识库，效果立刻不一样了——工程师拍张设备照片上传，再问"这个E073错误码代表什么"，模型不仅能准确解释，还能直接给出维修步骤和备件编号。

这种能力不是靠重新训练模型获得的，而是通过一种叫检索增强生成（RAG）的技术实现的。简单说，就是让模型在回答问题前，先去查一下相关的资料，再结合自己的理解给出答案。这就像给一个聪明但记性不太好的同事配了个随时可查的电子手册。

2. 外部知识库集成的整体思路

给DeepSeek-R1-Distill-Qwen-1.5B添加长期记忆，核心思路其实很朴素：不改变模型本身，而是改变它获取信息的方式。整个方案可以分成三个主要环节——知识准备、信息检索和答案生成。

首先得有知识。这些知识可以是PDF文档、网页内容、数据库记录，甚至是聊天记录。关键是要把它们转换成模型能理解的形式。我们不会把原始文件直接塞给模型，而是用嵌入模型把每段文字变成一串数字向量，就像给每本书生成一个独特的"数字指纹"。

然后是检索环节。当用户提出问题时，系统会把问题也转换成同样的"数字指纹"，再在所有已有的指纹中找最相似的几个。这个过程有点像图书馆的索引系统——你不需要记住每本书在哪个架子上，只要知道怎么查索引，就能快速找到相关书籍。

最后是生成环节。模型拿到检索到的相关资料后，会把这些资料和用户的问题一起作为输入，生成最终的回答。这里有个重要细节：模型看到的不只是原始资料，而是经过整理和摘要的版本，这样能避免信息过载，也让回答更聚焦。

整个过程中，模型本身没有被修改，只是工作方式变了。它从一个"闭卷考试"的考生，变成了一个"开卷考试"的研究员——既保留了原有的推理能力，又获得了随时查阅资料的便利。

3. 向量数据库搭建与知识入库

向量数据库是整个长期记忆系统的"大脑"，负责存储和检索知识。对于DeepSeek-R1-Distill-Qwen-1.5B这样的轻量级模型，我们推荐使用ChromaDB，它轻量、易用，而且完全开源，不需要复杂的运维。

安装ChromaDB只需要一条命令：

pip install chromadb

接下来是知识入库的关键步骤。假设你有一份设备维护手册PDF，我们需要把它拆解成适合检索的小块。这里有个重要原则：不要按页拆分，而要按语义拆分。一页PDF可能包含标题、正文、表格、图片说明等多种内容，混在一起会影响检索精度。

下面是一个实用的文本分割示例，它会智能识别段落边界，避免在句子中间切断：

from langchain.text_splitter import RecursiveCharacterTextSplitter # 创建文本分割器，按段落、句子、单词顺序分割 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, # 每块最多500个字符 chunk_overlap=50, # 块之间重叠50个字符，避免语义断裂 separators=["\n\n", "\n", "。", "！", "？", "；", "，", " "] # 按中文标点分割 ) # 假设documents是从PDF提取的文本列表 split_documents = text_splitter.split_documents(documents)

分割完成后，我们需要为每块文本生成向量。这里推荐使用bge-m3模型，它在中文检索任务上表现优秀，而且对硬件要求不高：

pip install sentence-transformers

from sentence_transformers import SentenceTransformer import chromadb # 加载嵌入模型 embedder = SentenceTransformer('BAAI/bge-m3') # 初始化ChromaDB客户端 client = chromadb.PersistentClient(path="./chroma_db") # 创建集合，指定嵌入函数 collection = client.create_collection( name="device_manual", embedding_function=lambda texts: embedder.encode(texts).tolist() ) # 批量添加文档 for i, doc in enumerate(split_documents): collection.add( ids=[f"doc_{i}"], documents=[doc.page_content], metadatas=[{"source": doc.metadata.get("source", "unknown")}] )

这里有个容易被忽略的细节：元数据的使用。除了文本内容，我们还保存了来源信息。这样在后续检索时，如果用户问"这个方案在哪个文档里提到的"，系统就能准确回答，而不是只给出内容片段。

4. 检索增强生成（RAG）实现

RAG的核心在于如何把检索到的信息和模型生成有机结合起来。对于DeepSeek-R1-Distill-Qwen-1.5B，我们需要特别注意它的上下文长度限制——虽然它支持16K token，但实际使用中，留给检索结果的空间不能太多，否则会影响生成质量。

下面是一个经过实践验证的RAG提示模板，它平衡了信息完整性和生成效果：

def create_rag_prompt(query, retrieved_docs): # 构建上下文，控制总长度 context_parts = [] for doc in retrieved_docs[:3]: # 最多使用3个最相关文档 # 精简每个文档，只保留关键信息 if len(doc) > 300: doc = doc[:280] + "..." context_parts.append(f"【参考资料】{doc}") context = "\n\n".join(context_parts) prompt = f"""你是一个专业的设备维护助手，需要根据提供的参考资料回答用户问题。 请严格遵循以下规则： 1. 回答必须基于参考资料，不要编造信息 2. 如果参考资料中没有相关信息，直接回答"未找到相关信息" 3. 回答要简洁明了，避免冗长解释 参考资料： {context} 用户问题：{query} 助手回答：""" return prompt

在实际调用模型时，我们需要确保输入格式符合Qwen系列的要求。DeepSeek-R1-Distill-Qwen-1.5B使用的是Qwen2的对话格式，所以完整的调用代码如下：

from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B") model = AutoModelForCausalLM.from_pretrained( "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", torch_dtype=torch.float16, device_map="auto" ) def rag_query(query): # 检索相关文档 results = collection.query( query_texts=[query], n_results=3 ) # 构建RAG提示 rag_prompt = create_rag_prompt(query, results['documents'][0]) # 添加Qwen2对话模板 messages = [ {"role": "user", "content": rag_prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) # 生成回答 model_inputs = tokenizer(text, return_tensors="pt").to(model.device) generated_ids = model.generate( **model_inputs, max_new_tokens=512, do_sample=False, temperature=0.1, top_p=0.9 ) response = tokenizer.decode(generated_ids[0], skip_special_tokens=True) # 提取助手回答部分 if "助手回答：" in response: return response.split("助手回答：")[-1].strip() return response # 测试 answer = rag_query("E073错误码代表什么？") print(answer)

这个实现的关键在于温度参数（temperature）设置得很低（0.1），因为我们要的是准确、可靠的信息，而不是创意性的发挥。同时，top_p=0.9确保了模型在生成时有一定的灵活性，但不会偏离太远。

5. 实用技巧与常见问题解决

在实际部署过程中，有几个常见问题需要特别注意。第一个是检索质量不稳定。有时候模型会返回一些看似相关但实际上无关的内容，这通常是因为嵌入模型对专业术语的理解不够准确。

解决这个问题的一个简单有效的方法是添加关键词增强。在检索前，先用正则表达式提取用户问题中的关键实体，然后在向量检索的基础上，再进行一次关键词匹配：

import re def extract_keywords(text): # 提取中文技术术语，如错误码、型号等 patterns = [ r'E\d{3}', # E073这类错误码 r'[A-Z]{2,}\d+', # 型号如MX2000 r'\d+\.\d+\.\d+', # 版本号 r'[\u4e00-\u9fff]{2,}' # 中文词组 ] keywords = [] for pattern in patterns: matches = re.findall(pattern, text) keywords.extend(matches) return list(set(keywords)) # 去重 def hybrid_search(query, k=3): # 向量检索 vector_results = collection.query( query_texts=[query], n_results=k*2 ) # 关键词增强 keywords = extract_keywords(query) if keywords: keyword_results = collection.query( query_texts=keywords, n_results=min(2, k) ) # 合并结果，向量结果排前面 all_docs = vector_results['documents'][0] + keyword_results['documents'][0] return all_docs[:k] return vector_results['documents'][0]

第二个常见问题是回答过于冗长。DeepSeek-R1-Distill-Qwen-1.5B有时会重复解释同一个概念，或者加入不必要的背景信息。我们可以通过后处理来优化：

def post_process_answer(answer): # 移除重复句子 sentences = answer.split('。') seen = set() unique_sentences = [] for sent in sentences: sent = sent.strip() if sent and sent not in seen: seen.add(sent) unique_sentences.append(sent) # 限制总长度 processed = '。'.join(unique_sentences[:3]) # 最多3句话 if len(processed) > 300: processed = processed[:280] + "..." return processed.strip() # 在rag_query函数末尾添加 return post_process_answer(answer)

第三个实用技巧是缓存机制。对于高频查询，我们可以把检索结果和生成答案缓存起来，避免重复计算：

from functools import lru_cache @lru_cache(maxsize=100) def cached_rag_query(query_hash): # 这里实现实际查询逻辑 pass

6. 效果评估与持续优化

任何技术方案都需要验证效果。对于RAG系统，我们不能只看单次回答是否正确，而要建立一套简单的评估体系。

最直接的方法是构建测试集。收集20-30个典型问题，每个问题都标注出期望的答案和对应的参考文档位置。然后运行批量测试，统计准确率：

def evaluate_rag(test_questions): correct_count = 0 total_count = len(test_questions) for question, expected_answer in test_questions.items(): try: actual_answer = rag_query(question) # 简单的语义相似度检查 if calculate_similarity(actual_answer, expected_answer) > 0.7: correct_count += 1 except Exception as e: print(f"Error on {question}: {e}") return correct_count / total_count if total_count > 0 else 0 # 使用简单的Jaccard相似度作为示例 def calculate_similarity(text1, text2): words1 = set(text1.replace('。', ' ').replace('，', ' ').split()) words2 = set(text2.replace('。', ' ').replace('，', ' ').split()) intersection = len(words1 & words2) union = len(words1 | words2) return intersection / union if union > 0 else 0

在实际项目中，我们发现几个重要的优化方向。首先是文档预处理的质量比模型选择更重要。一份结构清晰、术语统一的文档，即使使用简单的嵌入模型，效果也比杂乱文档配合高级模型好得多。

其次是检索策略的调整。我们最初使用默认的余弦相似度，后来发现对技术文档，使用内积相似度效果更好，因为它更关注向量方向的一致性，而不是长度归一化后的角度。

最后是反馈闭环。我们在Web界面中添加了一个"回答有帮助吗？"的按钮，用户点击"否"时，系统会记录这个问题和当时的检索结果，作为后续优化的依据。这种真实用户的反馈，比任何人工评估都更有价值。

用下来感觉这套方案特别适合中小团队。它不需要重新训练模型，部署成本低，而且效果提升很明显。当然，它也不是万能的——对于需要深度推理的复杂问题，还是需要结合其他技术。但作为给小模型"装上记忆"的第一步，这个方案已经足够实用了。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B模型长期记忆实现：外部知识库集成方案