news 2026/5/31 22:03:20

81k Star! RAGFlow:开源RAG引擎,深度文档理解+Agent编排

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
81k Star! RAGFlow:开源RAG引擎,深度文档理解+Agent编排

做 RAG 应用最头疼的是什么?不是向量数据库,不是 LLM 选型,而是文档解析

PDF 里的表格丢了、图片里的内容完全忽略、扫描件直接报废——这些都是现有 RAG 方案的通病。解析质量上不去,检索再准也没用。

RAGFlow 就是盯准这个问题做的——基于深度文档理解(Deep Document Understanding)的 RAG 引擎,不只是「把文档切块丢向量库」,而是真正理解文档结构,再结合 Agent 能力做上下文层。

81k Star,增速稳定,已经是开源 RAG 方向的主流选择。


核心数据

• ⭐ GitHub Star:81.4k+

• 📊 支持格式:PDF、DOCX、Excel、PPT、Markdown、网页、图片OCR

• 🧠 核心能力:深度文档理解(DeepDoc)+ RAG + Agent编排

• 🔧 内置 Agent 工作流 + MCP 支持

• 🐳 完整 Docker 部署方案

• ☁️ 云服务:https://cloud.ragflow.io

• 🔓 开源协议:Apache 2.0

• 🆕 最新支持:DeepSeek v4、Gemini 3 Pro、GPT-5 系列


核心功能

1. 深度文档理解(DeepDoc)

这是 RAGFlow 和其他 RAG 框架最大的区别。

普通 RAG:PDF → 文本提取 → 切块 → 向量化(表格、图片、排版全部丢失)

RAGFlow:PDF →结构识别(表格、标题层级、图片位置)→ 语义切块 → 向量化 + 结构化索引

# RAGFlow 的文档解析示例(概念性)# 上传一份 50 页的 PDF 财报# - 表格被完整识别为结构化数据# - 图片中的文字通过 OCR + 多模态模型理解# - 标题层级保留,切块时不会把章节切断

实测效果:同样一份复杂 PDF,RAGFlow 的回答准确率明显高于直接用 LangChain 的 PDF Loader。

2. 可视化 Agent 工作流

RAGFlow 不只是 RAG 引擎,还内置了 Agent 编排能力(2025-08 支持)。

可以在界面上拖拽编排 Agent 工作流:查询理解 → 多路召回 → 重排序 → LLM 生成 → 结果校验,全流程可视化。

3. MCP 支持

RAGFlow 支持作为 MCP Server 运行,你的数据集可以直接被 Claude Desktop、Cursor 等 MCP 客户端调用。

还有官方 RAGFlow Skill for OpenClaw,在 OpenClaw 里一键接入 RAGFlow 数据集。

4. 多源数据同步

支持从 Confluence、S3、Notion、Discord、Google Drive 同步数据(2025-11 支持),企业知识库场景直接覆盖。

5. 多种文档解析方法

支持 MinerU 和 Docling 作为文档解析后端(2025-10 支持),可以根据文档类型选择最合适的解析策略。


部署教程

方式一:Docker 一键启动(推荐)

# 克隆仓库cd# 启动(CPU版本)docker# 访问 http://localhost:80

完整配置在docker-compose.yml,包含:

• RAGFlow 主服务

• Elasticsearch(向量存储 + 全文检索)

• MySQL(元数据存储)

• Redis(缓存)

方式二:GPU 版本(推荐生产)

# 使用带 GPU 支持的镜像cddockerdocker

GPU 版本在嵌入模型推理和文档解析上速度提升显著,生产环境建议上 GPU。

方式三:从源码启动(开发)

gitgitcd# 安装依赖pip# 启动服务python

💡提示:

首次启动会自动下载嵌入模型和 LLM 配置,确保网络通畅。国内用户建议提前配置 HuggingFace 镜像源。

配置 LLM

启动后进入设置,配置你使用的 LLM(支持 OpenAI、DeepSeek、Gemini、本地 Ollama 等):

# conf/ragflow.cfg 示例

实战场景

场景1:企业知识库问答

上传公司所有技术文档、API 文档、历史工单,RAGFlow 解析后构建知识库。员工提问时,回答能精确引用原文表格和数据。

场景2:法律/金融文档分析

法律合同、财报通常格式复杂,普通 RAG 解析效果差。RAGFlow 的深度文档理解能保留表格结构和条款层级,分析质量明显更高。

场景3:多模态文档问答

PDF 里既有文字又有图片(如技术手册、论文),RAGFlow 可以用多模态模型理解图片内容,问答时覆盖图文信息。


横向对比

| 特性 | RAGFlow | Dify | LangChain | Haystack |

|------|---------|------|-----------|----------|

| 深度文档解析 | ✅ 核心能力 | ⚠️ 基础 | ⚠️ 需自行集成 | ⚠️ 需自行集成 |

| 复杂表格识别 | ✅ 内置 | ❌ 不支持 | ❌ 不支持 | ⚠️ 有限 |

| 图片OCR+理解 | ✅ 多模态 | ⚠️ 基础 | ❌ 不支持 | ❌ 不支持 |

| Agent工作流 | ✅ 可视化 | ✅ 可视化 | ⚠️ 代码编排 | ⚠️ 代码编排 |

| MCP支持 | ✅ 内置 | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 |

| 多源数据同步 | ✅ 内置 | ⚠️ 有限 | ⚠️ 需自行开发 | ⚠️ 需自行开发 |

| Docker部署 | ✅ 完整方案 | ✅ 完整方案 | ⚠️ 需自行搭建 | ⚠️ 需自行搭建 |

| 开源 | ✅ Apache 2.0 | ✅ Apache 2.0 | ✅ MIT | ✅ Apache 2.0 |

ℹ️信息:

RAGFlow 的核心差异化是文档解析质量。如果你的 RAG 场景里文档格式复杂(PDF财报、法律合同、技术手册),RAGFlow 比其他方案效果好很多。如果文档都是纯文本/Mardown,差异不大。


踩坑提示

  1. Elasticsearch 需要分配足够内存:默认配置需要 4GB+ 内存,内存不够会 OOM,建议修改ESJAVAOPTS调低

  2. 首次启动下载模型慢:嵌入模型从 HuggingFace 下载,国内网络建议提前手动下载放到models/目录

  3. GPU 镜像体积大ragflow:gpu镜像约 15GB,确保磁盘空间充足

  4. 多模态理解需要配置视觉模型:默认只配了文本 LLM,图片理解需要额外配置 GPT-4V / Gemini Vision / 本地多模态模型

  5. Confluence/S3 同步需要配置凭证,在「数据源」设置里填对应的 Access Key


总结

RAGFlow 的核心价值一句话:把 RAG 里最难的「文档解析」这件事做到了开源第一梯队

深度文档理解 + Agent 工作流 + MCP 支持,这三个能力组合起来,让它不只是个 RAG 框架,而是一个完整的 AI 知识层解决方案。

81k Star,Apache 2.0 协议,Docker 完整部署方案,生产可用。如果你的 RAG 应用对文档解析质量有要求,RAGFlow 是目前开源里最值得试的那个。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/31 21:52:43

5分钟快速上手:ChartGPT AI图表生成工具完全指南

5分钟快速上手:ChartGPT AI图表生成工具完全指南 【免费下载链接】chart-gpt AI tool to build charts based on text input 项目地址: https://gitcode.com/gh_mirrors/ch/chart-gpt 还在为制作专业图表而烦恼吗?每次需要创建数据可视化图表时&a…

作者头像 李华
网站建设 2026/5/31 21:47:00

OpenClaw模型推理优化:精简请求参数,降低AI调用成本与响应延迟

OpenClaw模型推理优化:参数精简驱动的成本与延迟优化引言在人工智能模型部署领域,推理效率直接影响服务可用性与经济成本。OpenClaw作为多模态处理框架,其参数传输机制存在显著优化空间。本文提出基于参数熵值分析的动态精简策略,…

作者头像 李华
网站建设 2026/5/31 21:46:31

有线耳机改造:焊接3.5mm母座实现可换线升级与维修

1. 项目概述与核心价值手头一副用了好几年的有线耳机,线材靠近插头的位置已经开始发硬、开裂,每次听歌都得小心翼翼地调整角度,生怕哪天彻底断了。相信不少朋友都遇到过类似的情况——耳机本身音质尚可,但线材或插头先一步“寿终正…

作者头像 李华