一、你有没有这种感觉?
硬盘里躺着几百个 PDF,Obsidian 里写了上千条笔记,收藏夹里的文章永远"稍后再看"——结果真到要用的时候,什么都找不到。
你不是缺信息,你是缺一个能理解你、帮你回忆的助手。
这篇文章就聊三件事:
个人知识库
——把你的碎片信息变成可检索的资产
RAG(检索增强生成)
——让 AI 不再"胡说八道",而是基于你的资料回答
知识图谱
——让知识之间产生关联,而不只是堆砌
最后,我会用Cherry Studio这个工具,手把手演示怎么把这三件事串起来。
二、个人知识库:你的第二大脑
什么是个人知识库?
简单说:把你的所有笔记、文档、收藏、想法,统一存到一个地方,并且能被搜索和调用。
它不是"又一个笔记软件",而是一个有生命力的知识系统:
文档扔进去,它能拆分、理解、索引
你问一个问题,它能从你的资料里找答案
你忘了某个细节,它帮你回忆
为什么现在才火?
因为大模型(LLM)改变了游戏规则。以前的笔记软件只能全文搜索关键词,现在有了 AI,你可以用自然语言提问——"我上个月写的那篇关于供应链优化的方案里,降本的三个关键点是什么?"这就是 RAG 的价值。
三、RAG:让 AI 说"人话"的秘诀
RAG 是什么?
RAG = Retrieval-Augmented Generation,检索增强生成。
听起来很学术,其实逻辑很简单:
先搜,再答。
传统的大模型(比如 ChatGPT)回答问题时,完全依赖训练时学到的知识。问题是:
它不知道你昨天写的报告,或者不知道你们单位的规章制度
它可能"一本正经地胡说八道"(幻觉)
它的知识有截止日期
RAG 的做法是:在 AI 回答之前,先从你的知识库里检索相关内容,把这些内容作为上下文喂给大模型,然后让它基于这些真实资料来回答。
RAG 的工作流程
用户提问
① 文本向量化(Embedding):把你的文档切成小块,转成数学向量
② 相似度检索(Retrieval):根据问题,找到最相关的几段内容
③ 增强生成(Generation):把相关内容 + 用户问题一起发给大模型
④ AI 基于你的资料,给出有据可查的回答
为什么 RAG 重要?
| 对比项 | 纯大模型 | RAG |
|---|---|---|
| 数据来源 | 训练数据(可能过时) | 你的私有文档(实时) |
| 幻觉风险 | 高 | 显著降低 |
| 私域知识 | ❌ 不知道 | ✅ 精准引用 |
| 可追溯性 | 无法验证 | 可以标注来源 |
一个关键概念:Embedding(向量化)
RAG 的灵魂在于向量化。它做的事情是:
把一段文字转换成一组数字(向量),比如 [0.12, -0.35, 0.78, …]。这组数字代表了这段文字的语义含义。
好处是:就算你搜"降本方案",它也能找到写着"成本控制策略"的内容——因为它理解的是意思,不是关键词。
Cherry Studio 支持多种 Embedding 模型,比如 OpenAI 的 text-embedding-3-small、text-embedding-3-large,也支持本地模型。
四、知识图谱:让知识"连起来"
什么是知识图谱?
如果说 RAG 解决的是"找到答案",那知识图谱解决的是"理解关系"。
知识图谱是一种用节点和连线表示知识的方式:
节点 = 实体(人、公司、概念、事件…)
连线 = 关系(“属于”、“导致”、“合作”…)
举个例子:
[雷军] --创办–> [小米]
[小米] --推出–> [小米SU7]
[小米SU7] --竞品–> [特斯拉Model 3]
[雷军] --毕业于–> [武汉大学]
这就是一张小型知识图谱。你问"雷军和特斯拉有什么关系",图谱能通过连线推理出来。
知识图谱 vs 传统搜索
| 对比项 | 关键词搜索 | 知识图谱 |
|---|---|---|
| 搜索方式 | 匹配关键词 | 理解实体关系 |
| 推理能力 | ❌ | ✅ 可以多跳推理 |
| 适用场景 | 找文档 | 找关联、找脉络 |
| 举例 | “雷军” → 包含"雷军"的文档 | “雷军” → 创办的公司 → 产品 → 竞品 |
知识图谱 + RAG = 更强的 AI
单独用 RAG,你得到的是"最相关的几段文字"。但如果加上知识图谱:
先用知识图谱理解问题的结构(这个问题涉及哪些实体和关系)
再用 RAG检索具体文档内容
结合两者,给出既有全局视野又有细节支撑的回答
这就是业界说的GraphRAG——微软在 2024 年提出的概念,现在越来越火。
五、Cherry Studio:三件事一起做
说了这么多概念,用什么工具落地?
Cherry Studio是一款开源的 AI 客户端,支持 macOS、Windows、Linux,核心亮点:
✅ 接入 300+ 大模型(OpenAI、Claude、Gemini、国产模型…)
✅ 内置知识库系统(支持 RAG)
✅ 多种文件格式导入(PDF、Word、PPT、Excel、Markdown、TXT…)
✅ 支持本地模型 + 云端模型混用
✅ 完全免费,开源
下载安装,官网:
https://cherry-ai.com支持 macOS / Windows / Linux,下载安装后直接可用。
六、实战演示:用 Cherry Studio 搭建知识库
Step 1:配置模型
搭建知识库需要3种类型的大模型:
通用LLM,也就是聊天用的大模型中,常用的免费模型有很多,免费的大多是一定时间内限制使用次数,如一小时不超过30次等要求。如果用量不大,尽管使用。如英伟达,OpenRouter,Cherry Studio自己的CherryIn也可以,到官网上注册账号登录即可。
嵌入模型(Embedding),负责把文本转换成向量(一串数字),让计算机能"理解"语义相似度。免费的也不少,如 OpenAI 的 text-embedding-3-small(性价比高,推荐入门)、硅基流动的 BGE 系列、Jina 的 jina-embeddings 等。Cherry Studio 内置的 CherryIn 也提供嵌入模型,注册即可用。
重排模型(Reranker),在初步检索之后,对结果进行二次排序,把真正相关的内容排到前面,提升回答质量。免费选项有 Cohere 的 rerank-multilingual-v3(多语言效果好)、硅基流动的 BGE-reranker 等。注意:重排模型不是必须的,但加上之后知识库的召回准确率会明显提升。
示例设置如下图所示:
Step 2:创建知识库
windows版本的cherry studio直接点击左侧知识库图标,Mac版本点击对话框下面的知识库按钮。
点击+创建新知识库,取个名字(比如"我的研究资料")
选择Embedding即嵌入模型和重排模型
如下图所示:
Step 3:导入文档
Cherry Studio 支持多种方式导入:
本地文件:拖拽 PDF、Word、TXT、Markdown 等文件进去
网页链接:直接输入网址,自动抓取内容
站点地图:批量导入整个网站的内容
手动输入:直接粘贴文本
导入后,Cherry Studio 会自动:
- 解析文档内容
- 按语义切分成段落(Chunk)
- 调用 Embedding 模型向量化
- 存入本地向量数据库
📌 你可以在知识库界面点击搜索测试,输入关键词看看检索效果。
Step 4:对话中使用知识库
新建对话
在对话设置中,关联你刚创建的知识库
开始提问!示例:
七、知识图谱在 Cherry Studio 中的实践
Cherry Studio 目前的核心是 RAG 知识库,知识图谱功能还在发展中。但可以体验知识图谱(这儿的功能真心不如小龙虾或爱马仕),如下图所示:
八、几个实用建议
- 文档预处理很重要
- 去掉无意义的页眉页脚、目录页
- 表格尽量转成文字描述
- 图片中的关键信息,手动提取成文字
- 垃圾进,垃圾出。文档质量直接决定检索效果。
- Chunk 大小要调优
Cherry Studio 允许你调整文档切分的粒度:
太小(50字):上下文丢失,回答不完整
太大(2000字):噪音太多,检索不精准
推荐:300-500字,一段完整的论述
- Embedding 模型的选择
| 模型 | 维度 | 特点 | 适用场景 |
|---|---|---|---|
| text-embedding-3-small | 1536 | 便宜、快 | 日常使用 |
| text-embedding-3-large | 3072 | 更精准 | 专业文档 |
| 本地模型 | 各异 | 免费、隐私 | 敏感数据 |
- 定期更新知识库
知识是会过时的。建议:
每周花 10 分钟清理和更新知识库
删除过时文档,添加新资料
用 Cherry Studio 的搜索测试功能验证检索质量
九、总结
| 技术 | 解决什么问题 | 一句话理解 |
|---|---|---|
| 个人知识库 | 信息碎片化 | 把你的资料变成 AI 能理解的"记忆" |
| RAG | AI 幻觉 + 私域知识 | 先从你的资料里搜,再让 AI 答 |
| 知识图谱 | 知识之间的关联 | 不只是找答案,还能找关系 |
| Cherry Studio | 工具落地 | 开源免费,一站式搞定以上所有 |
一句话总结:
你的笔记不该只是"记了"。让它成为你的第二大脑,让 AI 基于你的知识工作,而不是凭空编造。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~