RAG中的上下文感知动态分块法：解决chunking语义断裂问题-编程实验室

1. 项目概述：为什么 chunking 这个“老环节”突然成了 RAG 系统的胜负手？

你有没有遇到过这种情况：花大价钱部署了最新款的 embedding 模型，选了参数最豪华的 LLM 作为生成器，检索召回率也调到了 92%，可最终生成的答案还是牛头不对马嘴？用户问“合同第 3.2 条关于违约金的计算方式”，系统却从附件《补充说明》第 5 页里拽出一段无关的付款周期描述——不是模型不聪明，而是它压根没看到真正该看的那一段。问题不出在“大脑”，而出在“眼睛”：chunking 这个看似最基础、最不起眼的预处理步骤，正在成为整个 RAG 流水线里最隐蔽、最致命的瓶颈。

我从 2021 年开始做企业级知识库项目，亲手调过上百个 RAG pipeline，踩过的坑里，有超过 60% 的根源都指向 chunking。它不像模型选型那样炫酷，也不像 prompt engineering 那样能立竿见影，但它就像盖楼的地基——地基打歪了，上面盖得再漂亮，风一吹就晃。过去大家默认用固定长度切分（比如 512 token），图省事；后来发现语义断裂太严重，又转向基于句子或段落的简单切分；再后来，embedding 相似度阈值法一度被奉为圭臬。但这些方法在真实业务场景里，全都露出了疲态：法律合同里一个“但书”条款可能横跨三段，技术文档里一张表格的上下文解释分散在前后两页，会议纪要里某句关键结论的支撑论据藏在五分钟前的讨论里……传统 chunking 本质上是在用一把直尺去量一条蜿蜒的河，结果必然是大量信息被硬生生截断、淹没或错配。

这篇文章讲的，就是我们团队在过去半年里，在十几个真实客户项目中反复验证、打磨出来的一套 chunking 新思路。它不依赖某个神秘的新模型，也不需要你重写整个 RAG 架构，而是在原有 pipeline 上做一次精准的“外科手术式”升级。核心就三点：让 chunk 能“呼吸”——感知上下文边界；让 chunk 能“记忆”——保留跨段逻辑关联；让 chunk 能“伸缩”——根据内容密度动态调整粒度。我们不用“LumberChunker”这种营销味十足的名字，就叫它“上下文感知动态分块法”。它不是理论玩具，而是我们上周刚上线的某银行信贷知识助手的底层分块引擎——上线后，用户对“具体条款引用准确性”的满意度从 68% 直接拉到 91%。如果你正在被 RAG 的“答非所问”折磨，或者正准备搭建新系统，这篇就是为你写的实操手册。

2. 核心设计思路：为什么“动态”和“上下文感知”是破局关键？

2.1 传统 chunking 的三大死穴，每一个都直击业务痛点

先说清楚我们到底在解决什么问题。市面上所有主流 chunking 方法，无论包装得多 fancy，归根结底都逃不开三个结构性缺陷，而这些缺陷在真实业务文档里会被无限放大：

第一，静态长度切分的“机械割裂症”。这是最常见的做法：把文档按固定 token 数（如 256/512）一刀切。问题在于，它完全无视语言本身的呼吸感。一个完整的法律条文可能只有 180 token，但硬塞进 512 的 chunk 里，后面 332 token 就是空白噪音；而一个技术方案里的核心算法描述，可能一口气写了 720 token，硬切成两半后，前半段讲公式推导，后半段讲代码实现，中间最关键的“因此，我们采用 X 方法替代 Y 方法”这个承上启下的结论，就被生生劈成两半。我见过最典型的案例，是某医疗器械公司的 SOP 文档，一个“灭菌操作流程”被切成三段，第二段末尾是“将器械放入灭菌柜”，第三段开头是“设定温度 121℃，时间 15 分钟”，中间缺失的“关闭柜门并抽真空”这个安全强制步骤，导致 QA 系统在生成培训材料时漏掉了关键风险点。这不是模型的问题，是 chunk 本身就把安全逻辑给切没了。

第二，语义相似度切分的“过度平滑症”。embedding-based 方法听起来很智能：计算相邻句子向量的余弦相似度，低于阈值就切。但实际跑起来你会发现，它对“转折”和“递进”毫无抵抗力。比如一段产品介绍：“本产品支持高速数据传输（相似度 0.85）。但需注意，仅限于 USB 3.0 接口（相似度 0.42）。此外，兼容 USB 2.0，但速率降至 480Mbps（相似度 0.78）。”这里，“但需注意”之后的句子相似度骤降，算法会在此处切一刀，把“但需注意”和它后面的关键限制条件硬生生分开。结果就是，当用户问“USB 接口的限制是什么”，检索可能只召回“本产品支持高速数据传输”这个乐观描述，而把真正的限制条件丢在另一个 chunk 里。它把“转折”误判为“话题切换”，这是语义模型固有的盲区。

第三，LLM 提炼法的“成本幻觉症”。让 LLM 通读全文，然后输出“关键命题”作为 chunk，理论上最理想。但我们实测过，对一份 50 页的 PDF 技术白皮书，用 GPT-4-turbo 做全篇 proposition extraction，单次成本就超过 $1.2，延迟 18 秒，且输出质量高度依赖 prompt 工程师的玄学水平。更致命的是，它无法处理“隐性逻辑链”——比如文档里 A 段讲原理，B 段讲实验，C 段讲结果，三段之间没有显性连接词，但 B 段的实验设计完全是为了验证 A 段提出的假设，C 段的结果分析又直接回应 B 段的实验目标。LLM 在提炼单个 proposition 时，很难主动建立这种跨段落的因果映射。它产出的 chunk 往往是漂亮的“孤岛”，而不是连贯的“群岛”。

提示：这三种方法不是“谁更好”，而是“在什么场景下会失效”。你的文档如果全是新闻稿（结构清晰、段落分明），静态切分可能够用；如果是学术论文（大量引用、长难句），embedding 法需要大幅调低阈值；如果是内部会议纪要（口语化、跳跃性强），LLM 法的成本和效果比可能直接崩盘。没有银弹，只有适配。

2.2 “上下文感知动态分块法”的三层设计哲学

我们放弃追求“一种万能切法”，转而构建一个能根据文档 DNA 自动调节的分块引擎。它的设计不是凭空想象，而是从我们处理过的 37 类业务文档（合同、SOP、财报、研发日志、客服话术、专利文件等）中反向提炼出来的。核心是三个相互咬合的模块：

第一层：结构锚点识别（Structure Anchoring）。这是整个系统的“骨架”。我们不依赖 LLM，而是用一套轻量级、高精度的规则+正则引擎，专门捕获文档中那些“人类一眼就能认出的结构信号”。比如：

标题层级：## 3.2 违约责任这样的 Markdown 标题，或 Word 文档中的 Heading 2 样式，它们天然就是语义单元的起点；
列表项：有序列表1.2.和无序列表-•，尤其是嵌套列表，往往对应并列的子条款或步骤；
表格边界：| 列名1 | 列名2 |这样的 markdown 表格行，或 PDF 中检测到的表格框线，表格本身就是一个强语义单元，其标题、表头、每一行数据都必须保留在同一 chunk 内；
特殊标记：【注意】、※、[Legal]这类人工插入的强调标记，它们后面的内容具有超高优先级，必须与标记绑定。

这套规则引擎的准确率在测试集上达到 99.2%，且平均耗时不到 15ms/页。它不负责“理解”，只负责“定位”，就像一个经验丰富的编辑，一眼扫过去就知道哪里该分段。

第二层：语义流密度分析（Semantic Flow Density）。这是让 chunk “能伸缩”的关键。我们不再用固定阈值，而是动态计算“语义浓度”。具体做法是：以结构锚点为基准，在其前后各延伸 200 token 的窗口，用一个微调过的 sentence-transformers 模型（all-MiniLM-L6-v2 微调版）计算窗口内所有句子向量的局部方差。方差越大，说明语义越发散（比如一段包含多个转折、对比、举例的复杂论述），此时 chunk 应该“收紧”，避免把发散内容硬塞一起；方差越小，说明语义越聚焦（比如一段纯定义、纯参数列表），此时 chunk 可以“放宽”，合并相邻的同质内容。我们做过对比实验：对一份 20 页的 API 文档，传统 512 切分产生 142 个 chunk，而我们的密度分析法只生成 89 个，但每个 chunk 的平均信息密度提升了 43%，且关键参数组合（如 endpoint + method + required params）100% 保留在同一 chunk 内。

第三层：跨段落逻辑桥接（Cross-Paragraph Bridging）。这是解决“但书”“此外”“综上所述”这类连接词被切开的终极方案。我们训练了一个极小的 BiLSTM 分类器（仅 12 万参数），专门识别句子间的逻辑关系：转折、递进、因果、例证、总结。当检测到 A 段末尾是“但需注意”，且 B 段开头是“XX 条件下”，模型会输出一个高置信度的转折关系标签，并强制将 A 段末尾 3 句 + B 段开头 3 句合并为一个逻辑 chunk。这个分类器不追求 100% 准确，只保证在关键连接点上的召回率 > 95%。它的价值不是“多切几个 chunk”，而是“少切错几个 chunk”。在金融合同样本测试中，它将“但书条款”的完整保留率从 61% 提升到 98.7%。

这三层不是串联执行，而是并行扫描、交叉验证。结构锚点给出硬性边界，密度分析决定软性范围，逻辑桥接负责缝合断裂。它们共同构成一个鲁棒的、可解释的、低成本的 chunking 内核。

3. 实操细节解析：如何在你的 RAG pipeline 中落地这套方法？

3.1 工具链选型与轻量化改造方案

你不需要推翻现有架构。这套方法的设计初衷，就是作为现有 RAG pipeline 的一个“即插即用”增强模块。我们推荐的落地路径是“三步走”，每一步都经过生产环境验证：

第一步：替换或增强现有的文档解析器（Document Parser）。大多数 RAG 系统用unstructured或pypdf做 PDF 解析，用python-docx做 Word 解析。问题在于，它们默认只输出纯文本，丢失了所有结构信息。我们的方案是：在解析阶段就注入结构感知能力。

对于 PDF：我们用pdfplumber替代pypdf。pdfplumber能精确提取每一页的文本、字体、大小、位置坐标，甚至能识别表格线框。我们在此基础上加了一层轻量级结构分析器：扫描所有文本块，如果某块字体加粗且字号比正文大 2pt 以上，且位于页面顶部 1/3 区域，则标记为Heading；如果连续多行文本左对齐且以数字+点（如1.2.）开头，则标记为List Item；如果检测到由|符号构成的、行列对齐的文本块，则标记为Table Content。这部分代码不到 200 行，但能恢复 90% 以上的原始文档结构。
对于 Word：python-docx本身就能获取样式信息。我们扩展了它的Document类，添加get_structured_elements()方法，自动识别Heading 1/2/3、List Paragraph、Table等内置样式，并将它们转换为带 type 标签的 JSON 结构：{"type": "heading", "level": 2, "text": "3.2 违约责任"}。这样，后续的 chunking 引擎就能直接消费结构化数据，而不是和一团乱麻的纯文本搏斗。

注意：不要试图用 OCR 去“强行识别”扫描版 PDF 的结构。对于纯图像 PDF，我们的策略是：先用paddleocr提取文字，然后用规则（如行首大写字母+冒号、连续数字编号）做二次结构推测，准确率虽不如原生 PDF，但对业务文档已足够可用（>85%）。强行追求 100% 结构还原，成本远高于收益。

第二步：集成动态分块引擎（Chunking Engine）。这是核心。我们开源了一个轻量级 Python 包context-aware-chunker（GitHub 可搜），它不依赖 GPU，CPU 即可全速运行。安装和使用极其简单：

pip install context-aware-chunker

核心 API 就一个函数：

from context_aware_chunker import Chunker # 初始化引擎，参数均为可调的业务杠杆 chunker = Chunker( max_chunk_size=512, # 全局最大 token 数，防止单 chunk 过大 min_chunk_size=64, # 全局最小 token 数，防止碎片化 density_window=200, # 语义密度分析窗口大小 bridge_context_window=3, # 逻辑桥接时，前后各取几句话 heading_level_threshold=2 # 只将 level <=2 的标题视为强锚点 ) # 输入是结构化文档（来自上一步解析器） structured_doc = [ {"type": "heading", "level": 1, "text": "第一章 总则"}, {"type": "paragraph", "text": "为规范...特制定本办法。"}, {"type": "heading", "level": 2, "text": "第一条 定义"}, {"type": "paragraph", "text": "本办法所称..."}, # ... 更多元素 ] # 输出是带元数据的 chunk 列表 chunks = chunker.chunk(structured_doc) for i, chunk in enumerate(chunks): print(f"Chunk {i}: {chunk['text'][:50]}... (tokens: {chunk['token_count']}, " f"source: {chunk['source']}, structure_score: {chunk['structure_score']:.2f})")

structure_score是一个 0-1 的分数，表示该 chunk 内部结构锚点的丰富程度（标题、列表、表格越多，分数越高），这个分数后续可用于检索排序的加权因子——结构越完整的 chunk，其信息可信度天然更高。

第三步：微调 embedding 模型以适配新 chunk 特征。这是很多人忽略的“最后一公里”。你用了再好的 chunking，如果 embedding 模型还是用通用语料训的，它对新 chunk 的语义表征能力依然不足。我们的做法是：用sentence-transformers的SentenceTransformer，在你的业务文档 chunk 上做轻量级继续训练（Continual Pre-training）。

具体步骤：

从你的知识库中随机采样 5000 个高质量 chunk（确保覆盖合同、技术文档、FAQ 等类型）；
用all-MiniLM-L6-v2作为基座模型；
使用Masked Language Modeling (MLM)任务，只训练 2 个 epoch，batch size=32；
关键技巧：在 MLM 任务中，mask 的 token 不是随机选，而是优先 mask 掉 chunk 中的“结构标记符”，如##、-、|、【注意】等。这迫使模型学习理解这些符号背后的结构语义，而非仅仅记住字面意思。

实测效果：在金融合同检索任务上，微调后的模型相比原版，top-1 召回率提升 11.3%，且对“但书条款”的向量距离显著缩小（平均余弦距离从 0.62 降到 0.41）。整个微调过程在单张 T4 显卡上只需 23 分钟。

3.2 参数调优指南：不同文档类型的黄金配置

没有放之四海而皆准的参数。我们根据处理过的文档类型，总结了一套“参数速查表”。所有参数都在Chunker初始化时传入，调整后无需重启服务，热加载即可生效。

文档类型	推荐`max_chunk_size`	推荐`density_window`	推荐`heading_level_threshold`	关键调优逻辑
法律合同/协议	384	150	2	合同条款短小精悍，但逻辑严密。“但书”高频，需小窗口捕捉细微语义变化，强锚点（H2）即为条款起点。
技术白皮书/API 文档	512	200	3	内容密度高，常含大段代码和参数表。需稍大窗口容纳完整代码块，H3（如`## 3.1.2 请求参数`）也是强锚点。
内部会议纪要	256	100	1	口语化、跳跃性强，逻辑链脆弱。小尺寸防信息稀释，小窗口敏感觉察“但是”、“不过”、“等等”等转折词。
产品说明书/SOP	448	180	2	步骤化明显，列表多。中等尺寸平衡步骤完整性与可读性，H2（如`## 操作步骤`）是核心锚点。
财报/研报	512	200	2	数据密集，表格多。大尺寸容纳完整表格，H2（如`## 财务摘要`）是天然分界，密度窗口需大以平滑数据波动。

调优实操心得：

永远先调heading_level_threshold：这是最立竿见影的杠杆。打开你的文档样本，用Ctrl+F搜索##和###，看哪个层级的标题真正对应“独立语义单元”。很多技术文档的###（如### 3.1.2.1 错误码定义）比##（如## 3.1 接口说明）更关键。
density_window是“灵敏度旋钮”：数值越小，引擎对语义变化越敏感，chunk 越细碎；越大，越“钝感”，chunk 越宽泛。我们建议从 200 开始，如果发现关键定义（如“本协议所称‘不可抗力’指…”）被切开了，就逐步减小到 150、120，直到稳定。
max_chunk_size是“安全阀”：它不决定常规切分，只在极端情况下兜底。比如一个超长的、无任何结构标记的技术方案描述，引擎会按密度分析切出 600 token 的 chunk，此时max_chunk_size=512就会强制将其再切一刀。所以这个值宁可设小一点，确保下游 embedding 模型不吃力。

我们曾帮一家跨境电商公司优化其商品知识库。原始 pipeline 用 512 固定切分，用户问“这款手机的防水等级和保修期分别是多少”，系统总把“IP68”和“一年保修”拆在两个 chunk 里，导致生成答案残缺。我们将其heading_level_threshold从 3 改为 2（因为他们的商品规格表标题是## 规格参数），density_window从 200 降到 120（规格参数描述语义高度聚焦），max_chunk_size保持 512。调整后，98% 的商品规格信息（品牌、型号、屏幕、电池、防水、保修）全部稳定落在同一 chunk 内，问答准确率从 73% 跃升至 96%。

4. 完整实操流程：从一份 PDF 合同到可检索 chunk 的端到端演示

4.1 原始文档与问题场景还原

我们以一份真实的《软件定制开发服务合同》PDF（脱敏版，共 12 页）为蓝本。这份合同结构典型：封面、目录、第一条至第十八条、附件一（功能清单）、附件二（验收标准）。其中，第十二条“知识产权归属”是高频咨询点，其内容如下（节选）：

第十二条知识产权归属
12.1 甲方委托乙方开发的本合同项下所有软件源代码、目标代码、文档、设计图纸、技术资料等（以下简称“交付成果”），其全部知识产权（包括但不限于著作权、专利权、商标权、商业秘密等）自交付成果通过甲方最终验收之日起，无偿、永久、排他性地归属甲方所有。
12.2 但，乙方为履行本合同而使用的其自有知识产权（包括但不限于乙方通用开发框架、第三方开源组件），其知识产权仍归乙方或原权利人所有。甲方仅获得本合同项下为使用交付成果所必需的、不可转让的、非独占的许可。
12.3 甲方确认，乙方提供的开源组件清单详见附件二《验收标准》第 3.2 节。

用户常见问题：“合同里关于开源组件的知识产权是怎么约定的？”——这个问题的答案，横跨了 12.2 的主条款、12.3 的确认句，以及附件二的具体清单。传统 chunking 会把 12.1、12.2、12.3 切成三个独立 chunk，而附件二又在另一份文件里，检索时几乎不可能把它们关联起来。

4.2 端到端处理流程详解

阶段一：结构化解析（耗时：1.2 秒）
我们用pdfplumber加载 PDF，逐页扫描：

第 5 页：检测到加粗、16pt 字体的文本第十二条知识产权归属，位置在页面顶部，标记为{"type": "heading", "level": 1, "text": "第十二条知识产权归属"}；
同页：检测到以12.112.212.3开头的三行文本，左对齐，标记为{"type": "list_item", "level": 2, "text": "12.1 ...", "parent_heading": "第十二条知识产权归属"}；
第 8 页：检测到表格，表头为| 组件名称 | 版本 | 许可证类型 | 使用范围 |，标记为{"type": "table", "header": ["组件名称", "版本", "..."], "rows": [...]}；
附件二：单独解析为一个structured_doc，其中第 3.2 节标题开源组件清单被标记为{"type": "heading", "level": 2, "text": "3.2 开源组件清单"}。

阶段二：动态分块引擎处理（耗时：0.8 秒）
将上述结构化数据输入Chunker（参数：max_chunk_size=384,density_window=150,heading_level_threshold=1）：

Chunk A（ID: 12-1）:
{"type": "heading", "level": 1, "text": "第十二条知识产权归属"}
{"type": "list_item", "level": 2, "text": "12.1 甲方委托乙方开发的本合同项下所有软件源代码、目标代码、文档、设计图纸、技术资料等（以下简称“交付成果”），其全部知识产权（包括但不限于著作权、专利权、商标权、商业秘密等）自交付成果通过甲方最终验收之日起，无偿、永久、排他性地归属甲方所有。"}
Token Count: 218
Structure Score: 0.92
Reason: H1 标题 + H2 条款，语义密度高（含多个法律术语），未触发桥接。
Chunk B（ID: 12-2）:
{"type": "list_item", "level": 2, "text": "12.2 但，乙方为履行本合同而使用的其自有知识产权（包括但不限于乙方通用开发框架、第三方开源组件），其知识产权仍归乙方或原权利人所有。甲方仅获得本合同项下为使用交付成果所必需的、不可转让的、非独占的许可。"}
{"type": "list_item", "level": 2, "text": "12.3 甲方确认，乙方提供的开源组件清单详见附件二《验收标准》第 3.2 节。"}
Token Count: 192
Structure Score: 0.85
Reason: 密度分析显示 12.2 和 12.3 语义高度相关（都围绕“开源组件”），且逻辑桥接器检测到 12.2 末尾的“第三方开源组件”与 12.3 开头的“开源组件清单”存在强例证关系，故合并。
Chunk C（ID: Annex2-3.2）:
{"type": "heading", "level": 2, "text": "3.2 开源组件清单"}
{"type": "table", "header": ["组件名称", "版本", "许可证类型", "使用范围"], "rows": [["Spring Boot", "2.7.18", "Apache 2.0", "后端框架"], ["React", "18.2.0", "MIT", "前端界面"]...]}
Token Count: 342
Structure Score: 0.98
Reason: H2 标题 + 完整表格，结构完整性满分，密度分析确认表格内容为同质参数，无需切分。

阶段三：Embedding 与索引（耗时：0.5 秒/chunk）
使用微调后的all-MiniLM-L6-v2模型，为每个 chunk 生成 embedding 向量。关键点在于，我们将 structure_score 作为元数据字段，存入向量数据库（如 ChromaDB）。在检索时，不仅计算向量相似度，还对structure_score进行加权：

# 伪代码：混合检索排序 def hybrid_score(query_embedding, chunk_embedding, structure_score): vector_similarity = cosine_similarity(query_embedding, chunk_embedding) # structure_score 权重设为 0.3，经 A/B 测试确定最优 return vector_similarity * 0.7 + structure_score * 0.3 # 用户查询："开源组件的知识产权" # 检索结果 Top 3: # 1. Chunk B (ID: 12-2): score=0.82 (vector=0.75, structure=0.92) # 2. Chunk C (ID: Annex2-3.2): score=0.79 (vector=0.72, structure=0.98) # 3. Chunk A (ID: 12-1): score=0.51 (vector=0.55, structure=0.92) —— 虽然向量相似度尚可，但内容不匹配，靠 structure_score 拉高了排名，但最终排序靠后

阶段四：RAG 生成（耗时：1.8 秒）
LLM（我们用 Llama3-70B）收到的上下文是：

Context 1 (High Relevance):12.2 但，乙方为履行本合同而使用的其自有知识产权...甲方仅获得...非独占的许可。 12.3 甲方确认，乙方提供的开源组件清单详见附件二《验收标准》第 3.2 节。
Context 2 (Critical Detail):3.2 开源组件清单 | 组件名称 | 版本 | 许可证类型 | 使用范围 | | Spring Boot | 2.7.18 | Apache 2.0 | 后端框架 | ...

LLM 生成的答案精准覆盖了所有要点：“根据合同第十二条第 2、3 款，乙方自有知识产权（含开源组件）仍归其所有，甲方仅获非独占许可；具体开源组件清单详见附件二第 3.2 节，例如 Spring Boot（Apache 2.0 许可）用于后端框架。”

整个流程从 PDF 输入到答案输出，端到端耗时4.3 秒，且答案完整、准确、可溯源。而原始 pipeline 在相同问题上，返回的是“甲方拥有全部知识产权”，完全忽略了关键的“但书”例外条款。

5. 常见问题与实战排查技巧：那些文档解析器不会告诉你的坑

5.1 典型问题速查表与根因分析

我们在客户现场遇到的 90% 的 chunking 问题，都集中在以下几类。这张表按发生频率排序，每一条都附有真实案例和一招制敌的解决方案。

问题现象	高频发生场景	根本原因	快速诊断方法	终极解决方案	实测效果
Chunk 内容“空洞化”：chunk 里充斥着大量换行符、空格、页眉页脚、扫描噪声，有效文本占比 < 30%。	扫描版 PDF、老旧 Word 文档、网页抓取内容	解析器未做文本清洗，将所有视觉元素（包括页边距、页码）当作文本。	查看 chunk 的`text`字段，用`len(chunk['text'].strip()) / len(chunk['text'])`计算有效率。 < 0.4 即为严重空洞。	在`Chunker`前增加`TextSanitizer`模块：用正则`r'\s{3,}'`合并多余空白；用`r'第\s\d+\s页'`删除页码；对扫描 PDF，用`paddleocr`的`layout_analysis`模块先识别文本区域，再提取。	有效文本占比从 22% 提升至 89%，embedding 质量提升 35%。
标题被“吃掉”：文档中的`## 3.2 违约责任`在 chunk 里变成了`3.2 违约责任`，丢失了`##`标记，导致结构锚点失效。	Markdown 转 PDF、某些 CMS 导出的 HTML	解析器（如`unstructured`）默认将标题样式转为纯文本，丢弃了格式标记。	检查解析后的`structured_doc`，看`type`字段是否为`heading`，`text`字段是否包含原始标记符。	强制保留标记符：在解析器输出时，不清理`###`等字符。`Chunker`的结构锚点识别器正是依赖这些符号来判断标题级别。即使最终文本显示为`## 3.2 违约责任`，只要它存在，引擎就能工作。	标题识别准确率从 76% 提升至 99.5%。
表格被“肢解”：一个 5 列 10 行的表格，被切成 10 个 chunk，每 chunk 只有一行数据，完全丧失表格语义。	PDF 表格、Word 表格（尤其带合并单元格的）	通用解析器将表格视为普通文本流，按行或按块切割，无法理解行列关系。	检查`structured_doc`中是否有`type: "table"`的元素。如果没有，说明解析器根本没识别出表格。	启用专用表格解析器：对 PDF，用`pdfplumber`的`page.extract_tables()`；对 Word，用`python-docx`的`table.rows`属性。将整个`table`对象作为一个`type: "table"`元素加入`structured_doc`，`Chunker`会将其整体视为一个不可分割的语义单元。	表格完整保留率 100%，用户查询“价格区间”时，能一次性召回整张价目表。
“但书”条款被切开：`12.2 但，...`在一个 chunk，`12.3 甲方确认...`在另一个 chunk，导致逻辑断裂。	所有含法律条款的文档	逻辑桥接器的`bridge_context_window`设置过小，或`list_item`的`level`未正确继承父标题。	检查`12.2`和`12.3`是否在`structured_doc`中被标记为同一`parent_heading`下的`list_item`。如果不是，说明解析器未建立父子关系。	修复解析器的层级关系：在解析`list_item`时，记录其最近的、`level`更小的`heading`作为`parent_heading`。同时，将`bridge_context_window`从默认 3 调整为 5，确保能捕获更长的逻辑链。	“但书”条款完整率从 61% 提升至 98.7%。
附件内容“失踪”：主合同提到“详见附件一”，但附件一的内容从未被 chunked 或索引。