RexUniNLU多场景效果展示：医疗问诊记录实体抽取+症状关系图谱生成-编程实验室

RexUniNLU多场景效果展示：医疗问诊记录实体抽取+症状关系图谱生成

在实际医疗AI应用中，我们常常遇到一个现实难题：医生手写的问诊记录杂乱无章，症状描述口语化、缩写多、逻辑隐含，传统NLP模型要么需要大量标注数据微调，要么对中文医学表达理解力不足。而RexUniNLU的出现，让这个问题有了更轻量、更灵活的解法——它不依赖训练，只靠一句话定义就能精准“读懂”病历。

本文不讲原理、不堆参数，而是带你直击真实场景：用一份模拟的门诊问诊记录，现场演示RexUniNLU如何一步完成症状实体识别、疾病实体定位、用药信息提取，并进一步将这些零散信息自动组织成一张可读、可查、可推理的症状-疾病-药物关系图谱。所有操作均在Web界面完成，无需写代码，全程可视化，结果即刻可见。

你将看到的不是理想化的测试集分数，而是真实文本中的抽取细节：比如“胸口闷、有点喘，吃速效救心丸能缓解”这句里，“速效救心丸”被准确识别为药物而非症状，“缓解”被正确关联为药物作用效果；再比如“反复上腹胀3个月，伴反酸、烧心”中，“上腹胀”“反酸”“烧心”被统一归为症状类，且与“胃食管反流病”这一潜在诊断形成逻辑指向——这些，都是零样本条件下自然发生的理解行为。

1. 医疗问诊文本的真实挑战与RexUniNLU的应对逻辑

1.1 为什么医疗文本特别难处理？

医疗问诊记录不是标准文档，它有三个典型特征：

高度口语化：如“老是打嗝”“肚子咕噜叫”“一动就气短”，没有教科书式术语；
指代与省略普遍：“吃了药好多了”——没说是什么药，“上次检查说有点问题”——没说什么检查；
隐含关系密集：症状之间有先后（“先恶心，后呕吐”）、有因果（“受凉后咳嗽”）、有程度（“轻微胸闷”“剧烈腹痛”），还常混着用药反馈（“服奥美拉唑后反酸减轻”）。

传统NER模型通常只标出“奥美拉唑”是药，但无法自动建立“奥美拉唑→缓解→反酸”这条链路。而RexUniNLU不同——它把“关系抽取”和“实体识别”视为同一理解过程的不同输出视角，靠Schema引导即可同步激活。

1.2 RexUniNLU不“猜”，而是“按需理解”

它的核心不是泛泛地学语言，而是根据你给的Schema，动态构建理解路径。比如你输入：

文本：患者女，62岁，主诉“反复右上腹隐痛2周，进食油腻后加重，伴恶心、厌油，自服消炎利胆片3天，疼痛稍缓解”。 Schema：{"症状": null, "疾病": null, "药物": null, "检查项目": null, "身体部位": null}

模型不会强行把“消炎利胆片”塞进“疾病”或“症状”，也不会把“右上腹”当成独立疾病；它严格按Schema中定义的语义槽位，逐词比对上下文线索，结合DeBERTa对中文长距离依赖的建模能力，判断“右上腹”修饰的是“隐痛”的发生位置，因此归入“身体部位”；“消炎利胆片”出现在“自服”之后、“疼痛”之前，且名称含“片”字，直接落入“药物”。

这种“定义即能力”的方式，让医疗人员无需成为算法专家，也能快速定制自己的抽取逻辑。

2. 实战演示：从一段门诊记录到结构化图谱

我们以一段模拟的消化内科门诊记录为样本，全程使用镜像预置的Web界面操作（端口7860），不调用任何API，不写一行Python。

2.1 原始问诊文本

患者张某某，男，48岁，因“间断上腹胀、嗳气半年，近1周加重伴反酸、烧心”就诊。既往有“慢性浅表性胃炎”病史3年，未规律服药。查体：上腹轻压痛。辅助检查：胃镜示“胃窦黏膜充血水肿，幽门螺杆菌阳性”。予开具雷贝拉唑钠肠溶片20mg qd、阿莫西林胶囊1g bid、克拉霉素片0.5g bid，疗程14天。嘱清淡饮食，忌烟酒咖啡。

这段共196字，含症状、疾病、药物、检查、身体部位、生活方式建议等多类信息，且存在嵌套（如“胃窦黏膜充血水肿”中，“胃窦”是部位，“充血水肿”是症状表现）。

2.2 第一步：命名实体识别（NER）——抽取出所有关键要素

我们在Web界面的NER Tab中填入：

文本：[上述完整文本] Schema：{ "症状": null, "疾病": null, "药物": null, "检查项目": null, "身体部位": null, "生活方式建议": null }

点击“抽取”后，3秒内返回结果：

{ "抽取实体": { "症状": ["上腹胀", "嗳气", "反酸", "烧心", "充血水肿"], "疾病": ["慢性浅表性胃炎", "幽门螺杆菌阳性"], "药物": ["雷贝拉唑钠肠溶片", "阿莫西林胶囊", "克拉霉素片"], "检查项目": ["胃镜"], "身体部位": ["上腹", "胃窦", "黏膜"], "生活方式建议": ["清淡饮食", "忌烟酒咖啡"] } }

观察几个细节：

“充血水肿”被识别为症状，而非“胃窦黏膜”的修饰语——说明模型理解了这是病理表现；
“幽门螺杆菌阳性”整体作为疾病，而非拆成“幽门螺杆菌”（菌名）+“阳性”（结果），体现其对临床术语边界的把握；
“胃镜”是检查项目，而“胃窦”“黏膜”是身体部位，区分清晰。

2.3 第二步：关系抽取（RE）——让信息产生连接

仅抽实体还不够。我们需要知道：“反酸”和“烧心”是不是同一种机制？“雷贝拉唑钠肠溶片”主要缓解哪个症状？“幽门螺杆菌阳性”和“慢性浅表性胃炎”是什么关系？

我们在RE Tab中输入：

文本：同上 Schema：{ "症状-缓解": ["药物"], "疾病-导致": ["症状"], "检查-发现": ["疾病"], "药物-治疗": ["疾病"], "生活方式建议-改善": ["症状"] }

注意：Schema中右侧值不再是null，而是明确的目标类型，表示“左侧关系的宾语应属于右侧类型”。

返回结果（精简展示）：

{ "关系三元组": [ ["反酸", "缓解", "雷贝拉唑钠肠溶片"], ["烧心", "缓解", "雷贝拉唑钠肠溶片"], ["慢性浅表性胃炎", "导致", "上腹胀"], ["慢性浅表性胃炎", "导致", "嗳气"], ["幽门螺杆菌阳性", "导致", "慢性浅表性胃炎"], ["胃镜", "发现", "幽门螺杆菌阳性"], ["雷贝拉唑钠肠溶片", "治疗", "慢性浅表性胃炎"], ["清淡饮食", "改善", "上腹胀"], ["忌烟酒咖啡", "改善", "反酸"] ] }

这里的关键突破在于：模型没有把“胃镜”当作普通名词，而是结合“发现”这个动词，自动将其与“幽门螺杆菌阳性”绑定；同样，“雷贝拉唑钠肠溶片”与“反酸”“烧心”的缓解关系，也非人工规则匹配，而是基于上下文语义推断得出。

3. 从三元组到可视化图谱：一键生成可交互关系网络

镜像内置的图谱生成功能，可将上述关系三元组自动渲染为力导向图（Force-Directed Graph）。我们点击“生成图谱”按钮，几秒后得到如下结构：

中心节点：“慢性浅表性胃炎”（疾病类，蓝色）
向外辐射：
- 左侧连接“幽门螺杆菌阳性”（灰色箭头标注“导致”）
- 上方连接“胃镜”（绿色箭头标注“发现”）
- 右侧连接“雷贝拉唑钠肠溶片”（橙色箭头标注“治疗”）
- 下方连接“上腹胀”“嗳气”“反酸”“烧心”（红色箭头标注“导致”）
症状节点再延伸：
- “反酸”“烧心”各自连向“雷贝拉唑钠肠溶片”（橙色“缓解”）
- “上腹胀”连向“清淡饮食”（青色“改善”）

整张图无需手动布局，节点自动聚类：疾病/检查/药物/症状/建议五类颜色分明，箭头方向即逻辑流向。鼠标悬停任一节点，显示原文出处片段；点击节点，高亮所有与之相关的三元组。

这对临床工作意味着什么？
一位新医生查看该图谱，30秒内就能掌握：这个患者的核心问题是幽门螺杆菌感染引发的胃炎，主要表现是四大症状，当前干预是三联疗法+生活调整，验证手段是胃镜。所有信息不再是散落的字符串，而是一张有因果、有依据、可追溯的临床认知地图。

4. 超越单次抽取：构建可复用的医疗知识模板

RexUniNLU的价值不仅在于单次分析，更在于其Schema可沉淀、可复用、可共享。

4.1 定制科室专属Schema库

我们为消化内科整理了一套常用Schema模板，保存为gi_schema.json：

{ "实体Schema": { "症状": null, "疾病": null, "药物": null, "检查项目": null, "身体部位": null, "手术名称": null, "生活方式建议": null, "饮食禁忌": null }, "关系Schema": { "症状-缓解": ["药物", "生活方式建议", "饮食禁忌"], "疾病-导致": ["症状"], "检查-发现": ["疾病", "症状"], "药物-治疗": ["疾病"], "药物-缓解": ["症状"], "饮食禁忌-加重": ["症状"], "手术-治疗": ["疾病"] } }

下次处理新问诊记录时，只需加载该模板，无需重复定义，大幅降低使用门槛。

4.2 多文档批量图谱聚合

镜像支持上传多个问诊记录（CSV/JSON格式），自动对每份文档执行相同Schema抽取，并将所有三元组合并去重，生成科室级关系图谱。例如，聚合100份“胃食管反流病”患者记录后，图谱中会自然浮现高频共现模式：

“反流”常与“烧心”“胸痛”共现；
“埃索美拉唑”“雷贝拉唑”是前两位缓解药物；
“抬高床头”“避免饱餐”是最常被推荐的生活方式建议。

这种从个体到群体的知识凝练，正是临床经验数字化的第一步。

5. 效果边界与实用建议：什么能做，什么需谨慎

RexUniNLU强大，但并非万能。我们在实测中总结出几条关键经验，帮你避开常见误区：

5.1 它擅长的，远超预期

长句复杂逻辑：如“虽已停用NSAIDs 2周，但腹痛未缓解，反而出现黑便”——能准确识别“NSAIDs”为药物，“黑便”为新发症状，“未缓解”“反而”触发否定与转折关系；
中西医混合表述：“舌红苔黄腻，脉滑数，证属脾胃湿热”——将“舌红”“苔黄腻”“脉滑数”识别为中医四诊信息，“脾胃湿热”识别为证型；
缩写与别名：“H.pylori阳性”“HP感染”“幽门螺杆菌”均能统一映射到“幽门螺杆菌阳性”。

5.2 它暂不擅长的，需人工兜底

极罕见专病术语：如“Zollinger-Ellison综合征”在中文语境极少出现，模型可能识别为“综合征”而漏掉前缀；
纯数值推理：“空腹血糖12.6mmol/L”能识别“空腹血糖”为检查项目、“12.6mmol/L”为数值，但不会自动判断“是否超标”（需额外规则）；
跨句指代消解：“患者昨日发热。今晨体温已降至正常。”——模型大概率将两句话独立处理，难以建立“今晨体温”与“昨日发热”的时间对比关系。

5.3 提升效果的3个实操技巧

Schema宁细勿粗：与其定义宽泛的“医疗概念”，不如拆解为“症状”“疾病”“药物”“检查”等具体槽位。越明确，召回越准；
关键动词前置：在关系Schema中，把“缓解”“导致”“发现”等动词放在Schema键名中，比用“药物-作用”更易触发模型语义匹配；
原文保留关键修饰词：如“剧烈腹痛”“间歇性头晕”，不要预处理删掉“剧烈”“间歇性”，这些程度副词是模型判断症状严重度的重要线索。

6. 总结：让临床语言真正“可计算”

RexUniNLU在医疗场景的价值，不在于它有多高的F1分数，而在于它把原本需要数月标注、数轮调优的NLP落地过程，压缩到了一次Schema定义、一次点击之间。它不替代医生思考，而是把医生最熟悉的语言——问诊记录——变成机器可解析、可关联、可沉淀的知识资产。

从一段文字，到一组实体，再到一张图谱，最后沉淀为科室知识模板——这个链条不再依赖算法团队驻场，而由临床人员自主驱动。当“上腹胀”不再只是两个字，而是图谱中连接着“胃镜”“幽门螺杆菌”“雷贝拉唑”的活跃节点；当“清淡饮食”不再是一句叮嘱，而是图谱中明确指向“上腹胀缓解”的干预路径——我们才真正开始触摸到AI for Healthcare的实质：不是炫技，而是让每一份临床记录，都成为可生长、可复用、可传承的数字资产。