零基础入门RAG！本地部署企业级知识库问答系统，支持GPU加速+API调用-编程实验室

Gitee地址：https://gitee.com/samoukris/rag-knowledge-base

支持PDF/Word文档导入、本地LLM推理、GPU加速，甚至能直接对接Java系统，全程保姆级教程，新手也能一次成功！

一、先搞懂：这个项目能解决什么问题？
作为零基础学习者，先明确项目价值，学习更有方向：
- 👉 文档太多查不到？支持PDF/Word/Markdown等格式，上传后直接用自然语言提问（比如"文档里的GPU配置步骤是什么"），不用再逐页翻找
- 👉 担心数据隐私？所有数据本地存储，大模型（Qwen-7B）也在本地运行，完全不上云
- 👉 不会前后端开发？自带Streamlit可视化界面，上传文档、提问都能鼠标操作
- 👉 想对接自己的系统？提供标准化API接口，Java/Python都能调用
- 👉 电脑配置不够高？支持CPU/GPU双模式，RTX 4060就能GPU加速，推理速度2-5秒/次

总结：主要解决在本地搭建一个初级企业知识库问答系统，方便从零开始学习企业知识库。

二、环境准备：零基础也能搞定的前置条件
2.1 硬件要求（最低配置）
- CPU：4核8线程（普通笔记本都满足）
- 内存：16GB（最低要求）
- GPU：NVIDIA显卡（可选，RTX 4060/3060以上最佳，无GPU用CPU也能跑）
- 硬盘：预留40GB空间（存储模型和文档）

Windows 下查看系统版本、内存、显卡的具体 CMD 命令

项目环境配置提示词：

直接复制下面整段发给 AI，就能生成**完全匹配你电脑、一键运行、零报错**的环境配置方案：
---
请根据我的电脑硬件配置，为 `rag-knowledge-base` 开源项目生成**可直接复制运行、不报错、最适配**的 Windows 环境安装方案，要求零基础可直接执行。
项目地址：https://gitee.com/samoukris/rag-knowledge-base
我的硬件信息：
- 操作系统：**Windows 10 21H1 19043**
- 内存：24 GB
- 显卡：NVIDIA GTX 4060
- 显存：8 GB
请完整输出以下内容，**所有命令必须是 Windows CMD 格式、可直接复制运行**：
1. 推荐 Python 版本
2. 匹配的 CUDA 版本
3. Windows 下查看CUDA、Python 版本的具体 CMD 命令
4. PyTorch GPU 安装命令
5. llama-cpp-python GPU 编译安装命令
6. 项目完整依赖安装命令
7. 最适合我配置的模型（0.5B/1.8B/7B），**模型通过魔塔社区下载安装**
8. 最优 `.env` 配置（chunk、上下文、线程、GPU 分层）
9. 环境验证 Python 脚本
10. 常见报错及快速解决方法
要求：步骤清晰、零基础友好、一次性配置成功。

2.2 软件安装（一步一步来）
第一步：安装Python（必装）
1. 下载地址：[Python 3.10版本](https://www.python.org/downloads/release/python-31011/)（3.8-3.10都兼容，别装3.11+）
2. 安装时勾选"Add Python to PATH"（自动添加环境变量）
3. 验证：打开cmd，输入`python --version`，显示3.10.x即为成功

第二步：安装Git（用于拉取代码）
1. 下载地址：[Git官网](https://git-scm.com/downloads)
2. 默认安装即可，无需额外配置
3. 验证：cmd输入`git --version`，显示版本号即为成功

第三步：安装Docker（可选，用于快速部署Milvus向量库）
如果不想手动装Milvus，直接用Docker一键启动，新手推荐！
1. 下载地址：[Docker Desktop](https://www.docker.com/products/docker-desktop/)
2. 安装后启动Docker（桌面有鲸鱼图标即为运行）

三、项目部署：3步拉取+启动，全程复制命令
3.1 拉取项目代码
1. 新建一个文件夹（比如"RAG项目"），打开文件夹，空白处右键选择"Git Bash Here"
2. 输入命令拉取代码：

git clone https://gitee.com/samoukris/rag-knowledge-base.git

3. 等待下载完成，文件夹里会出现项目文件

3.2 安装依赖包
1. 打开cmd，进入项目目录（复制下面命令，把路径改成你的项目路径）：

cd C:\Users\你的用户名\Desktop\RAG项目\rag-knowledge-base

2. 安装依赖（复制命令直接运行，耐心等待5-10分钟）：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

- 注意：如果提示"pip不是内部命令"，重新安装Python并勾选"Add to PATH"
- 报错解决：遇到某个包安装失败，单独安装该包（比如`pip install streamlit -i 清华源`）

3.3 启动项目（二选一）
方式一：Docker一键启动（推荐新手）
1. 确保Docker已启动（桌面鲸鱼图标）
2. 在项目目录下运行命令：

docker-compose up -d

3. 启动成功后，运行启动脚本：
- Windows：双击项目里的`start.bat`文件

方式二：本地手动启动（无Docker时用）
1. 先安装Milvus向量库（参考官网教程：[Milvus本地安装](https://milvus.io/docs/install_standalone-docker.md)）
2. 复制`.env.example`文件，重命名为`.env`（直接复制粘贴改名字即可）
3. 运行命令启动服务：

uvicorn app:app --reload

4. 再打开一个cmd，启动前端界面：

streamlit run streamlit_app.py

3.4 验证启动成功
1. 打开浏览器，输入地址：http://localhost:8501
2. 看到如下界面即为成功：
- 左侧：文档上传区域（支持拖拽文件）
- 中间：提问输入框
- 右侧：统计信息和历史记录

四、新手实操：上传文档+智能问答
4.1 上传文档
1. 点击左侧"上传文档"按钮，选择本地的PDF/Word/Markdown文件（建议先传一个小文档测试，比如10页以内的PDF）
2. 等待上传完成（底部会显示"文档处理成功"）
3. 无需手动创建索引，系统会自动完成文本切分、向量化存储

4.2 智能问答
1. 在中间输入框提问，比如：
- "文档里提到的GPU加速怎么配置？"
- "请总结这篇文档的核心内容"
- "如何调用项目的API接口？"
2. 点击"发送"，等待2-5秒（GPU加速）或10-20秒（CPU），即可看到答案
3. 答案会附带检索来源，点击可查看原文片段

4.3 常见问题解决

问题现象	解决方法
上传文档报错	检查文件格式（仅支持PDF/Word/Markdown/TXT），文件大小不超过50MB
回答很慢	启用GPU加速；降低LLM参数
找不到答案	提问更具体（比如"2024技术年报的GPU配置"而非"GPU配置"）；降低相似度阈值
启动时提示端口占用	关闭占用8501/8000端口的程序，或修改`.env`文件中的端口号

五、GPU加速配置：让回答速度快3倍（可选）
如果有NVIDIA显卡，一定要配置GPU加速，推理速度从10秒+降到2-5秒！
5.1 安装CUDA驱动
1. 下载地址：[CUDA 12.1版本](https://developer.nvidia.com/cuda-12.1.0-download-archive)
2. 默认安装即可，无需额外配置
3. 验证：cmd输入`nvcc --version`，显示版本号即为成功

5.2 安装GPU版本依赖
1卸载并安装GPU版本的PyTorch和llama-cpp-python

# 卸载CPU版本的PyTorch pip uninstall torch -y # 安装CUDA 12.1版本的PyTorch（使用清华镜像源加速） pip install torch --index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple

2配置llama-cpp-python的GPU支持

# 卸载现有llama-cpp-python（如有） pip uninstall llama-cpp-python -y # 安装CUDA 12.2版本的llama-cpp-python（指定0.3.4版本） pip install llama-cpp-python==0.3.4 --index-url https://abetlen.github.io/llama-cpp-python/whl/cu122 --no-cache-dir

5.3 验证GPU是否生效
1. 运行命令：

python -c "import torch; print(torch.cuda.is_available())"

2. 输出"True"即为GPU配置成功
3. 重启项目，问答速度会明显提升

六、参数调优
如果遇到回答不准、速度慢等问题，修改项目根目录的`.env`文件（用记事本打开即可），关键参数如下：

# 文本切分参数 chunk_size = 500 # 每个片段的字数，建议300-1000 chunk_overlap = 100 # 片段重叠字数，建议为CHUNK_SIZE的10-20% # 检索参数 top_k = 5 # 检索前5个相关片段，建议3-10 similarity_threshold = 0.5 # 相似度阈值，建议0.3-0.7 # LLM参数 llm_temperature = 0.7 # 回答随机性，0.1-0.9，越低越准确 llm_n_ctx = 2048 # 上下文长度，越大能处理越长的文档 max_tokens = 512 # 每次回答的最大字数

修改后保存，重启项目即可生效！

七、API调用：对接自己的系统（进阶）
项目提供了标准化API接口，新手也能快速调用，以Python为例：
问答接口实现

import requests url = "http://localhost:8000/ask" data = { "question": "如何配置GPU加速？", "top_k": 3 } response = requests.post(url, json=data) print(response.json())

文档上传接口实现

url = "http://localhost:8000/upload" files = {"file": open("你的文档.pdf", "rb")} response = requests.post(url, files=files) print(response.json())

接口文档自动生成，启动项目后访问：http://localhost:8000/docs，可查看所有接口的使用方法。

八、项目后续规划
这个项目我还在持续更新，后续会支持更多实用功能，可以跟着项目迭代学习。也可以自己参照这个版本迭代路线学习。
- v2.0（已规划）：混合检索、流式输出（打字机效果）、离线评估
- v3.0（已规划）：用户认证、文档增量更新、个性化记忆
- v4.0（长期）：多模态RAG（支持图片文档）、Agent智能问答

总结
这款开源RAG项目对零基础非常友好，不用懂复杂的RAG原理，就能快速部署一套企业级知识库系统。通过实操，你可以顺便学会Python环境配置、Docker使用、GPU加速、API调用等实用技能，后续还能跟着项目源码学习LangChain、向量检索等热门技术。

如果遇到问题，可在Gitee项目Issues区提问，作者会及时回复。赶紧拉取代码动手试试，开启你的RAG学习之旅吧！

项目地址再放一次：https://gitee.com/samoukris/rag-knowledge-base

觉得有用的话，记得给项目点个Star支持一下哦～。

零基础入门RAG！本地部署企业级知识库问答系统，支持GPU加速+API调用

文档上传接口实现

京东茅台自动抢购终极指南：3步实现高效抢购自动化

2025届最火的五大降AI率平台解析与推荐

横向评测：东莞地区主流 AI 培训企业实力对比

使用C#代码在 PowerPoint 中突出显示文本

OpCore-Simplify：让黑苹果配置化繁为简的智能工具

Z-Image-Turbo_UI界面快速上手：无需代码，浏览器里就能玩AI绘画