news 2026/5/27 22:56:41

个人知识库-RAG-知识图谱-Cherry-Studio

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
个人知识库-RAG-知识图谱-Cherry-Studio

一、你有没有这种感觉?

硬盘里躺着几百个 PDF,Obsidian 里写了上千条笔记,收藏夹里的文章永远"稍后再看"——结果真到要用的时候,什么都找不到。

你不是缺信息,你是缺一个能理解你、帮你回忆的助手。

这篇文章就聊三件事:

个人知识库

——把你的碎片信息变成可检索的资产

RAG(检索增强生成)

——让 AI 不再"胡说八道",而是基于你的资料回答

知识图谱

——让知识之间产生关联,而不只是堆砌

最后,我会用Cherry Studio这个工具,手把手演示怎么把这三件事串起来。


二、个人知识库:你的第二大脑

什么是个人知识库?

简单说:把你的所有笔记、文档、收藏、想法,统一存到一个地方,并且能被搜索和调用。

它不是"又一个笔记软件",而是一个有生命力的知识系统:

文档扔进去,它能拆分、理解、索引

你问一个问题,它能从你的资料里找答案

你忘了某个细节,它帮你回忆

为什么现在才火?

因为大模型(LLM)改变了游戏规则。以前的笔记软件只能全文搜索关键词,现在有了 AI,你可以用自然语言提问——"我上个月写的那篇关于供应链优化的方案里,降本的三个关键点是什么?"这就是 RAG 的价值。


三、RAG:让 AI 说"人话"的秘诀

RAG 是什么?

RAG = Retrieval-Augmented Generation,检索增强生成。

听起来很学术,其实逻辑很简单:

先搜,再答。

传统的大模型(比如 ChatGPT)回答问题时,完全依赖训练时学到的知识。问题是:

它不知道你昨天写的报告,或者不知道你们单位的规章制度

它可能"一本正经地胡说八道"(幻觉)

它的知识有截止日期

RAG 的做法是:在 AI 回答之前,先从你的知识库里检索相关内容,把这些内容作为上下文喂给大模型,然后让它基于这些真实资料来回答。

RAG 的工作流程

用户提问

① 文本向量化(Embedding):把你的文档切成小块,转成数学向量

② 相似度检索(Retrieval):根据问题,找到最相关的几段内容

③ 增强生成(Generation):把相关内容 + 用户问题一起发给大模型

④ AI 基于你的资料,给出有据可查的回答

为什么 RAG 重要?

对比项纯大模型RAG
数据来源训练数据(可能过时)你的私有文档(实时)
幻觉风险显著降低
私域知识❌ 不知道✅ 精准引用
可追溯性无法验证可以标注来源

一个关键概念:Embedding(向量化)

RAG 的灵魂在于向量化。它做的事情是:

把一段文字转换成一组数字(向量),比如 [0.12, -0.35, 0.78, …]。这组数字代表了这段文字的语义含义。

好处是:就算你搜"降本方案",它也能找到写着"成本控制策略"的内容——因为它理解的是意思,不是关键词。

Cherry Studio 支持多种 Embedding 模型,比如 OpenAI 的 text-embedding-3-small、text-embedding-3-large,也支持本地模型。


四、知识图谱:让知识"连起来"

什么是知识图谱?

如果说 RAG 解决的是"找到答案",那知识图谱解决的是"理解关系"。

知识图谱是一种用节点和连线表示知识的方式:

节点 = 实体(人、公司、概念、事件…)

连线 = 关系(“属于”、“导致”、“合作”…)

举个例子:

[雷军] --创办–> [小米]

[小米] --推出–> [小米SU7]

[小米SU7] --竞品–> [特斯拉Model 3]

[雷军] --毕业于–> [武汉大学]

这就是一张小型知识图谱。你问"雷军和特斯拉有什么关系",图谱能通过连线推理出来。

知识图谱 vs 传统搜索

对比项关键词搜索知识图谱
搜索方式匹配关键词理解实体关系
推理能力✅ 可以多跳推理
适用场景找文档找关联、找脉络
举例“雷军” → 包含"雷军"的文档“雷军” → 创办的公司 → 产品 → 竞品

知识图谱 + RAG = 更强的 AI

单独用 RAG,你得到的是"最相关的几段文字"。但如果加上知识图谱:

先用知识图谱理解问题的结构(这个问题涉及哪些实体和关系)

再用 RAG检索具体文档内容

结合两者,给出既有全局视野又有细节支撑的回答

这就是业界说的GraphRAG——微软在 2024 年提出的概念,现在越来越火。


五、Cherry Studio:三件事一起做

说了这么多概念,用什么工具落地?

Cherry Studio是一款开源的 AI 客户端,支持 macOS、Windows、Linux,核心亮点:

✅ 接入 300+ 大模型(OpenAI、Claude、Gemini、国产模型…)

✅ 内置知识库系统(支持 RAG)

✅ 多种文件格式导入(PDF、Word、PPT、Excel、Markdown、TXT…)

✅ 支持本地模型 + 云端模型混用

✅ 完全免费,开源

下载安装,官网:

https://cherry-ai.com

支持 macOS / Windows / Linux,下载安装后直接可用。


六、实战演示:用 Cherry Studio 搭建知识库

Step 1:配置模型

搭建知识库需要3种类型的大模型:

  • 通用LLM,也就是聊天用的大模型中,常用的免费模型有很多,免费的大多是一定时间内限制使用次数,如一小时不超过30次等要求。如果用量不大,尽管使用。如英伟达,OpenRouter,Cherry Studio自己的CherryIn也可以,到官网上注册账号登录即可。

  • 嵌入模型(Embedding),负责把文本转换成向量(一串数字),让计算机能"理解"语义相似度。免费的也不少,如 OpenAI 的 text-embedding-3-small(性价比高,推荐入门)、硅基流动的 BGE 系列、Jina 的 jina-embeddings 等。Cherry Studio 内置的 CherryIn 也提供嵌入模型,注册即可用。

  • 重排模型(Reranker),在初步检索之后,对结果进行二次排序,把真正相关的内容排到前面,提升回答质量。免费选项有 Cohere 的 rerank-multilingual-v3(多语言效果好)、硅基流动的 BGE-reranker 等。注意:重排模型不是必须的,但加上之后知识库的召回准确率会明显提升。

示例设置如下图所示:

Step 2:创建知识库

windows版本的cherry studio直接点击左侧知识库图标,Mac版本点击对话框下面的知识库按钮。

点击+创建新知识库,取个名字(比如"我的研究资料")

选择Embedding即嵌入模型和重排模型

如下图所示:

Step 3:导入文档

Cherry Studio 支持多种方式导入:

本地文件:拖拽 PDF、Word、TXT、Markdown 等文件进去

网页链接:直接输入网址,自动抓取内容

站点地图:批量导入整个网站的内容

手动输入:直接粘贴文本

导入后,Cherry Studio 会自动:

  • 解析文档内容
  • 按语义切分成段落(Chunk)
  • 调用 Embedding 模型向量化
  • 存入本地向量数据库

📌 你可以在知识库界面点击搜索测试,输入关键词看看检索效果。

Step 4:对话中使用知识库

新建对话

在对话设置中,关联你刚创建的知识库

开始提问!示例:

七、知识图谱在 Cherry Studio 中的实践

Cherry Studio 目前的核心是 RAG 知识库,知识图谱功能还在发展中。但可以体验知识图谱(这儿的功能真心不如小龙虾或爱马仕),如下图所示:


八、几个实用建议

  1. 文档预处理很重要
  • 去掉无意义的页眉页脚、目录页
  • 表格尽量转成文字描述
  • 图片中的关键信息,手动提取成文字
  • 垃圾进,垃圾出。文档质量直接决定检索效果。
  1. Chunk 大小要调优

Cherry Studio 允许你调整文档切分的粒度:

太小(50字):上下文丢失,回答不完整

太大(2000字):噪音太多,检索不精准

推荐:300-500字,一段完整的论述

  1. Embedding 模型的选择
模型维度特点适用场景
text-embedding-3-small1536便宜、快日常使用
text-embedding-3-large3072更精准专业文档
本地模型各异免费、隐私敏感数据
  1. 定期更新知识库

知识是会过时的。建议:

每周花 10 分钟清理和更新知识库

删除过时文档,添加新资料

用 Cherry Studio 的搜索测试功能验证检索质量


九、总结

技术解决什么问题一句话理解
个人知识库信息碎片化把你的资料变成 AI 能理解的"记忆"
RAGAI 幻觉 + 私域知识先从你的资料里搜,再让 AI 答
知识图谱知识之间的关联不只是找答案,还能找关系
Cherry Studio工具落地开源免费,一站式搞定以上所有

一句话总结:

你的笔记不该只是"记了"。让它成为你的第二大脑,让 AI 基于你的知识工作,而不是凭空编造。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/27 22:55:39

2026亲测10款降AI率软件红黑榜!优缺点全公开,达标率对标顶级水准

2026 年,AI 写稿、AI 生成内容已经成了学生党、打工人和内容创作者的日常,但随之而来的「AI 率过高」问题也成了新的麻烦:论文查重 AI 率超标、职场报告被判定 AI 生成、自媒体内容过不了平台原创审核… 为了帮大家解决这个痛点,我…

作者头像 李华
网站建设 2026/5/27 22:55:39

AI写作“味道”引吐槽,如何去除文章“AI味”?

AI味写作引发调侃读“熊猫是最可爱的动物……是世界上最珍贵的宝藏”这段话,若你笑了或皱了眉,说明“鉴AI雷达”已觉醒。近期“豆包体”里“最”是高频词汇,网友纷纷晒出使用、调教AI的啼笑皆非截图,围绕AI味写作的调侃出圈。微博…

作者头像 李华
网站建设 2026/5/27 22:48:25

从泥泞中走来:一个普通人的十五年

一、2010-2013:那段不愿提起的日子2010年,我去了马鞍山。不是因为工作,不是因为梦想,而是被一个“机会”骗过去的。那是一个叫“1040阳光工程”的传销组织。现在回头看,那段经历像一场醒不来的噩梦。每天听课、洗脑、交…

作者头像 李华