news 2026/6/26 1:28:49

RAG分块大小怎么定?召回质量实测对比

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG分块大小怎么定?召回质量实测对比

先把结论甩出来:大部分中文文档场景,chunk 控制在300-500 字、overlap 给 50-80 字,召回质量最稳。太小了语义碎、太大了噪声多,两头都不讨好。下面是我用同一份知识库跑出来的对比数据,场景不一样结论会偏,但这个区间能少踩一半坑。

起因:客服机器人答非所问

上个月帮公司搭了个内部客服答疑的小助手,把三百多页的产品手册 + 一堆历史工单灌进去做 RAG。第一版我图省事,直接按 1000 字硬切。结果上线那天就翻车——同事问"退款多久到账",检索回来的 chunk 里塞了退款政策、发票说明、还有半段无关的物流条款,大模型被一堆杂信息带跑,回了句正确但绕的废话。

我盯着召回出来的片段看了半天,反应过来:块太大,一个 chunk 里混了好几个主题,向量被平均掉了,语义反而模糊。于是我把分块大小当成变量,老老实实跑了组对比。

实测:同一份知识库,只改 chunk 大小

测试集是我手攒的 50 条真实问题(同事问过的),embedding 用的 bge-large-zh,检索 top-5,人工标注每条命中没有。指标看两个:Recall@5(答案片段有没有被捞回来)和答案相关性(把召回片段喂给大模型后,回答靠不靠谱,1-5 分人打)。

chunk 大小

overlap

Recall@5

答案相关性(1-5)

我的体感

128 字

0

0.71

3.2

片段太碎,一句话被切两半,上下文丢了

256 字

30

0.84

3.9

短问答还行,稍长的逻辑就断

384 字

60

0.92

4.4

综合最好,语义完整又不啰嗦

512 字

80

0.90

4.3

跟 384 差不多,长段落略占优

1024 字

0

0.78

3.1

噪声多,主题串味,就是第一版翻车的配置

看表就明白了。128 字那行 Recall 不算最低,但答案相关性掉得厉害——能捞回相关片段,可片段本身缺头少尾,大模型拿到半句话也救不回来。1024 字那行更典型,Recall 和相关性双低,一个块装太多东西,检索精度和生成质量一起拉胯。

384 和 512 这俩其实咬得很死,差距在统计噪声范围内。我后来的取法是:FAQ、短问答类的偏 384;手册、长流程、合同条款这种本身段落就长的,给到 512 甚至 600,免得把一个完整步骤拦腰切断。

一个反直觉的点:overlap 不是越大越好

我一开始以为 overlap 给越多越保险,试了把 384 配 150 字 overlap,Recall 没怎么涨,索引量倒是膨胀了快四成,检索还慢了一点。后来 overlap 压回 60 左右就够用了——目的只是别让句子在边界处被切断,不是真要重复一大段。

落地这套配置时偷的懒

调参折腾了大概两个下午。真正让我没在工程上再耗时间的,是我没自己写切分、建索引、串检索那套管线。我用了个拖一拖配一配、不用写代码就能搭智能体的平台,把手册传上去挂成私有知识库,chunk 大小和 overlap 直接在配置面板里填数,改一版重建一次索引点一下就行。我那两个下午基本全花在看召回片段、标注对错上,没碰底层代码。

说句实话,这玩意儿也不是万能。那个小助手第一版回答特别干,像背条款,我又额外配了几句人设提示词才像个人。而且它擅长的是把检索、调模型、发布这些杂活包圆,真正决定效果好坏的还是你喂进去的知识库质量和这个 chunk 参数——切不好,平台再顺也白搭。

(模型这块我直接走的讯飞星辰MaaS,现成大模型 API 调用,没自己部署算力,省了一摊运维。)

最后留个问题:你们的文档要是那种带大量表格、代码块的技术文档,按字数切肯定会把表格切烂,这种结构化内容你们是怎么分块的?我现在用的是按 Markdown 标题层级切,但表格还是偶尔会断,评论区聊聊你们的招。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 1:27:27

华为openUBMC/长江计算 BMC服务器日志分析

BMC为长江计算的BMC产品,源自于华为设立的openUBMC 电源故障分析 先看AppDump/event下的current_event.txt 看到目前没有告警 System in health state.说明告警已经消除了,看下历史告警sel.txt 发现历史有多次PSU1的故障告警,且每次都是持续…

作者头像 李华
网站建设 2026/6/26 1:26:33

2026优质EMBA客观测评:高管科学择校选型指南

一、引言:EMBA择校行业痛点与测评初衷随着企业数字化转型、跨境出海需求激增,职场高管、企业创始人对EMBA深造的需求持续攀升。当前国内及港澳EMBA项目数量繁多,涵盖内地联考项目、港澳国际化项目、海外合作项目等多种类型,市场信…

作者头像 李华
网站建设 2026/6/26 1:25:12

MCP服务器:AI与外部工具安全交互的协议中枢

1. 项目概述:MCP服务器到底是什么,它解决了什么真实问题?你有没有过这种体验:花大价钱部署了一套AI推理服务,模型参数量拉满,显存堆到顶,结果一跑实际任务就卡壳?不是返回空结果&…

作者头像 李华
网站建设 2026/6/26 1:24:43

csdn怎么获取c币

CSDN获取C币主要分为‌免费任务获取‌和‌付费充值‌两类正规渠道,具体方法如下:一、免费任务获取 基础新手任务‌:完善个人资料可获得5个C币,首次绑定手机可获得5个C币。 内容创作类‌:撰写博文,单篇阅读每…

作者头像 李华
网站建设 2026/6/26 1:23:12

嵌入式测试学习第 43 天:变频冰箱主板嵌入式FCT整机测试

变频冰箱主控板嵌入式FCT整机测试拆解项目基础信息产品规格一、企业变频冰箱主板6阶段标准化测试流水线(研发产线双流程)(一)研发实验室完整6阶段流程(二)产线在线FCT工位简化流程(批量生产&…

作者头像 李华
网站建设 2026/6/26 1:21:10

安卓设备底层结构详解 + ADB完整使用教程(零基础入门)

一、前言很多开发者、测试人员、刷机爱好者每天都在使用ADB工具,但绝大多数人只停留在“会敲命令”的层面,完全不了解两个核心底层问题:1、ADB为什么能操控安卓手机?它的工作原理是什么?2、我们刷机能清数据、卡刷、线…

作者头像 李华