LLM能否成为知识图谱构建的优秀图判断者？-编程实验室

Can LLMs be Good Graph Judge for Knowledge Graph Construction?

摘要

本文提出GraphJudge框架，通过结合开源和闭源大语言模型来解决知识图谱构建中的三大挑战：文档噪声、领域知识不足和幻觉现象。该框架采用实体中心文本去噪、知识感知监督微调和图判断三个核心模块，在多个数据集上取得领先性能，为高质量知识图谱自动构建提供了新思路。

https://t.zsxq.com/Fdyve获取原文pdf

研究背景与动机

在当今信息爆炸的时代，从信息检索系统获取的大多数数据都是非结构化的。将自然语言句子转换为结构化的知识图谱（Knowledge Graphs, KGs）仍然是一个关键挑战。知识图谱作为许多数据科学应用的支柱，包括GraphRAG系统和推荐系统，其构建质量直接影响下游应用的效果。

近年来，大语言模型（LLMs）在各种自然语言处理任务中展现出显著的泛化能力，包括文本生成、知识图谱补全和开放信息抽取等任务。LLMs的引入可以解决开放域应用中的泛化问题，其强大的零样本生成能力使我们无需收集大量标注数据来完成命名实体识别、实体抽取或关系抽取等任务。

现有方法的三大局限

尽管基于LLM的方法在知识图谱构建领域取得了进展，但研究团队识别出现有方法存在三个关键限制：

1. 真实文档中的大量噪声问题
在真实世界场景中，文档往往包含大量冗余和无关信息，这会导致抽取出混乱的知识。传统方法难以有效过滤这些噪声，影响最终知识图谱的质量。

2. 领域特定文档的知识提取不准确
普通的LLM在处理某些领域特定文档时通常会提取出不准确的知识。这是因为通用LLM可能缺乏特定领域的专业知识，导致理解偏差。

3. 直接使用LLM的幻觉现象
当直接使用LLM构建知识图谱时，幻觉现象（即模型生成不存在于原文中的信息）不容忽视。这严重影响了生成知识图谱的可信度和准确性。

GraphJudge框架设计

针对上述挑战，研究团队提出了GraphJudge框架，这是一个创新的知识图谱构建解决方案。该框架的核心思想是利用微调的开源LLM（如LLaMA-2）作为专家，来判断由另一个闭源LLM（如GPT-4o-mini）生成的三元组的正确性。

图2展示了GraphJudge框架的整体架构，包含三个核心模块的工作流程。整个架构中唯一需要训练的组件是第二模块中使用的开源LLM。

模块一：实体中心文本去噪（ECTD）

为了应对第一个挑战，研究团队引入了实体中心文本去噪（Entity-Centric Text Denoising, ECTD）模块。该模块的核心策略是：

噪声消除
：通过删除冗余词汇和与LLM识别出的实体无关的信息来清理原始文档
高召回率保证
：利用LLM强大的零样本生成能力，确保能够召回足够数量的三元组候选项
实体为中心
：以识别出的实体为锚点，保留相关上下文，过滤无关信息

这种方法既保证了信息的完整性，又有效降低了噪声干扰，为后续的知识提取奠定了良好基础。

图3展示了实体中心文本去噪的工作流程，从原始文档到实体识别、去噪文档，最终生成初步知识图谱。

模块二：知识感知监督微调（KASFT）

为了克服第二个挑战，研究团队提出了知识感知监督微调（Knowledge Aware Supervised Fine-Tuning, KASFT）模块。这个模块的创新之处在于：

任务转换
：将图判断任务从三元组分类任务中引入
监督微调
：对开源LLM进行监督微调，使其能够验证闭源LLM生成的三元组准确性
高准确率
：通过精心设计的微调策略，使开源LLM在图判断任务上达到超过90%的准确率
强泛化能力
：微调后的模型展现出强大的跨域泛化能力

微调过程使用包含正负样例的训练数据，让模型学习如何判断三元组是否符合原文语义。例如，给定原文"胰岛素由胰腺中的β细胞产生，调节血糖水平"，模型需要判断"胰岛素-由...产生-β细胞"这个三元组是否正确。

模块三：图判断（GJ）

为了解决第三个挑战，研究团队引入了图判断（Graph Judgement, GJ）模块。该模块的工作机制是：

准确性验证
：利用微调后的开源LLM对第一模块生成的三元组进行判断
质量过滤
：过滤掉被判定为错误的三元组
质量提升
：最终显著提高生成知识图谱的整体质量

这个模块充分利用了微调LLM的判断能力，作为质量把关的最后一道防线，确保输出的知识图谱具有高准确性和可靠性。

实验设计与评估

数据集选择

研究团队在三个精心选择的数据集上进行了全面评估：

两个通用领域数据集
：覆盖广泛的通用知识
一个领域特定数据集
：测试模型在专业领域的表现

这种数据集组合设计既能验证模型的通用能力，也能考察其在专业领域的适应性。

评估指标

考虑到传统的严格字符串匹配可能忽略语义相似性，研究团队采用了更加合理的评估指标体系：

G-BERTScore (G-BS)
：基于BERT的语义相似度评分
G-BLEU (G-BL)
：改进的BLEU评分，适用于图结构
G-ROUGE (G-RO)
：改进的ROUGE评分，适用于图结构

这些指标分别计算准确率（Accuracy）、召回率（Recall）和F1分数，从语义层面和软字符串匹配层面全面评估生成知识图谱的质量。

实验结果与分析

表1展示了GraphJudge与六种基线方法在四个数据集上的性能比较。红色标记表示每列准确率和召回率中的最差性能，灰色突出显示每列F1分数中的最佳和次佳结果。

卓越的整体性能

实验结果表明，GraphJudge在大多数情况下都优于其他基线方法。其F1分数的优势充分证明了该框架在保持合理三元组召回率的同时，也实现了准确率的提升。

与基线方法的对比分析

RAKG和PiVe的局限：这些方法虽然展现出更强的召回能力，但忽视了三元组的准确性，导致生成的知识图谱包含较多错误信息。

KGGen的问题：该方法在准确率方面表现出色，但在召回率上存在不足，可能遗漏大量有价值的知识。

GraphJudge的平衡优势：相比之下，GraphJudge通过三模块协同工作，在准确率和召回率之间实现了良好的平衡，F1分数在多数场景下取得最佳或次佳结果。

泛化能力验证

GraphJudge在不同类型的数据集上都展现出稳定的性能，证明了其强大的泛化能力。无论是通用领域还是专业领域，该框架都能够有效应对知识图谱构建的挑战。

研究贡献与创新点

本研究的主要贡献可以总结为以下几点：

1. 首创性的双LLM协同方案

据研究团队所知，这是首次同时利用开源和闭源LLM来解决知识图谱构建中的信息噪声、领域知识差距和幻觉问题。这种创新性的组合方式充分发挥了两类LLM的各自优势。

2. GraphJudge框架的系统设计

提出了一个全新的框架，将LLM作为图判断者的能力充分发挥，并显著提升了LLM在知识图谱构建任务中的性能。实体中心策略和图判断任务的引入都是该框架的重要创新。

3. 实证验证与性能突破

在多个数据集上的实验证明了GraphJudge的有效性和优越性，为知识图谱自动构建领域树立了新的性能标杆。

实际应用价值

GraphJudge框架的提出对实际应用具有重要意义：

企业知识管理：帮助企业从海量非结构化文档中自动构建高质量的企业知识图谱，支撑智能问答、决策支持等应用。

科研文献分析：协助科研人员从文献中快速提取结构化知识，加速科研知识的积累和传播。

医疗健康领域：从医学文献和病历中构建医疗知识图谱，支持临床决策和医学研究。

金融情报分析：从新闻、报告等文本中构建金融知识图谱，辅助投资决策和风险评估。

未来展望

本研究为知识图谱自动构建开辟了新的方向，但仍有进一步探索的空间：

多模态信息融合
：未来可以探索如何将图像、表格等多模态信息融入知识图谱构建流程
动态更新机制
：研究如何实现知识图谱的增量更新和持续优化
跨语言能力
：扩展框架以支持多语言知识图谱的构建
效率优化
：进一步提升大规模文档处理的效率，降低计算成本

开源与可复现性

为了促进学术交流和技术推广，研究团队已将GraphJudge的代码开源。研究人员和开发者可以访问以下链接获取完整代码和使用说明：

GitHub代码仓库：https://github.com/hhy-huang/GraphJudge

这种开放的态度体现了研究团队对学术共享和技术进步的承诺，也为后续研究提供了坚实的基础。

研究团队

本研究由来自香港科技大学、华为云BU和北京大学的优秀研究人员共同完成：

黄昊宇
（香港科技大学）
陈冲
（华为云BU）
盛泽昂、李杨、张文涛
（北京大学）

这种跨机构的合作展现了产学研结合的强大力量，为解决实际问题提供了理论支撑和技术方案。

结语

GraphJudge框架的提出标志着知识图谱自动构建领域的重要进展。通过巧妙结合开源和闭源LLM的优势，该框架成功应对了现实场景中的三大关键挑战。在保证高召回率的同时实现高准确率，GraphJudge为构建高质量知识图谱提供了切实可行的解决方案。

随着大语言模型技术的不断发展，我们有理由相信，基于LLM的知识图谱构建方法将在更多领域发挥重要作用，推动人工智能技术向更智能、更可靠的方向发展。

欢迎加入「知识图谱增强大模型产学研」zsxq，获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等，行业重点是医疗护理、医药大健康、工业能源制造领域，也会跟踪AI4S科学研究相关内容，以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。