news 2026/6/15 20:10:20

【大模型开发】Graph-RAG“减负“神器:如何让知识图谱减少40%噪音却提升70%性能?小白程序员也能懂的AI黑科技!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【大模型开发】Graph-RAG“减负“神器:如何让知识图谱减少40%噪音却提升70%性能?小白程序员也能懂的AI黑科技!

一、背景:Graph-based RAG的“甜蜜烦恼”

自从LLM出现“幻觉”与“知识截止”问题以来,Retrieval-Augmented Generation(RAG)几乎成了落地标配。传统RAG把文档切成独立文本块做向量检索,简单粗暴,却忽略了块间关系,多跳推理全局一致性能力受限。

于是Graph-based RAG应运而生:用LLM先把文档抽成知识图谱,再基于图结构做检索。然而,作者通过分析主流框架(LightRAG、MS GraphRAG、HippoRAG等)发现一个共性问题:LLM自动抽取的图谱噪音极大:同一实体被重复抽取成多个节点,关系也大量冗余甚至错误。


图1:同一“LLMs”概念在图谱中被抽成6种形态,导致检索路径膨胀

这些冗余节点/边不仅占用存储,还会降低召回精度拖慢推理速度。以往工作只用字符串匹配做合并,效果有限,且无人系统研究过“如何把LLM生成的图谱洗干净”。

二、方案:Deg-Rag = 实体消歧 + 关系反思

作者提出Deg-Rag(DEnoised Graphs for RAG)

CS数据集上去噪方法之前和之后的子图。冗余实体用红色表示,合并过程用箭头显示。

两步走:

1. 实体消歧(Entity Resolution)

把传统KG清洗流程迁移到LLM场景,并首次在Graph-based RAG里做全模块消融


图2:实体消歧流水线

关键组件可选策略(实验覆盖)
Blocking语义聚类 / 实体类型 / 结构邻居
EmbeddingLLM Embedding vs 经典KG Embedding(TransE/DistMult/ComplEx)
相似度Ego / Neighbor / Type-aware Neighbor / 拼接
合并直接合并 vs 仅加同义边 vs 合并+同义边

亮点发现

  • 类型感知Blocking效果最好:先按实体类型分桶再聚类,避免跨类型误合并。
  • 传统ComplEx嵌入在部分领域反超LLM Embedding,算力紧张时性价比更高。
  • 直接合并节点几乎总是优于“只加同义边”,因为后者仍保留冗余节点,检索需更多跳数。

2. 关系反思(Triple Reflection)

LLM-as-Judge给每条三元组打分,过滤掉可信度低于阈值δTR的边;无需人工规则,自适应不同领域。

算法1:Triple Reflection

三、结论:40%节点消失,效果反而提升

4个UltraDomain数据集(Agriculture、CS、Legal、Mix)与4类Graph-based RAG(LightRAG、HippoRAG、LGraphRAG、GGraphRAG)上统一实验:

表1:四数据集上去噪图谱 vs 原始图谱的QA胜率

对比维度结果摘要
图谱大小平均砍掉≈40%实体、30-60%关系
QA性能去噪后**胜率>50%,最高达70%+**(见表1)
鲁棒性极端场景下**实体削减70%**仍不掉点(图4)
消融实验去掉实体消歧 → 性能暴跌;去掉关系反思 → 小幅下跌(图5)


图4:实体削减比例 vs QA胜率


图5:消融实验——实体消歧贡献最大

不同entity resolution方法的影响

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 9:33:13

【Green Hills】Validate授权文件分析和服务端授权部署

1、 文档目标 分析授权文件的结构和各个功能组件进行对应,为后期排查客户授权问题提供理论基础。 记录Helix QAC和Validate服务器端授权快速部署步骤,避免后续出现授权冲突文件,减少售后成本。对QAC授权、Validate授权和license文件间的调用…

作者头像 李华
网站建设 2026/6/15 13:54:59

Invicti Enterprise On-Premises v25.11.0 - 企业级应用安全

Invicti Enterprise On-Premises v25.11.0 - 企业级应用安全 Invicti Enterprise On-Premises Released November 2025 请访问原文链接:https://sysin.org/blog/invicti-enterprise/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysi…

作者头像 李华
网站建设 2026/6/15 9:29:14

打工人救星!用doocs md写公众号必搭cpolar,再也不用卡局域网里改稿了

文章目录1 项目 doocs/md 介绍2 安装Nodejs环境2.1 下载Nodejs安装程序2.2 安装Nodejs程序2.3 验证Nodejs是否安装2.4 设置国内淘宝镜像源3 下载本地部署doocs/md项目3.1 将项目下载至本地3.2 解压doocs/md项目3.3 安装依赖和启动doocs/md项目4 将网站穿透至公网(cp…

作者头像 李华
网站建设 2026/6/15 10:27:25

GBase 8c数据库磁盘故障定位技术分享

南大通用GBase 8c数据库常见的磁盘故障是磁盘空间不足、磁盘出现坏块、磁盘未挂载等。部分磁盘故障会导致文件系统损坏,例如磁盘未挂载,数据库管理自动定期执行磁盘检测时会识别故障并将实例停止,查看数据库状态时对应实例状态异常&#xff1…

作者头像 李华
网站建设 2026/6/15 15:56:35

# 本文总结了 Python 3.5 到 3.14 各版本的主要语言特性和改进。

本文总结了 Python 3.5 到 3.14 各版本的主要语言特性和改进。 Python 3.5 (2015年9月) 主要特性 类型提示 (Type Hints) /* by 01022.hk - online tools website : 01022.hk/zh/regexsucha.html */ def greeting(name: str) -> str:return Hello namePEP 492 - 异步 IO…

作者头像 李华