BMC Med（IF=8.3）四川大学华西医院田蓉等团队：基于混合专家模型的可解释多模态PET-CT-EHR融合用于套细胞淋巴瘤预后分层-编程实验室

文献学习

今天分享的文献是由四川大学华西医院田蓉等团队于2026年4月16日在《BMC Medicine》（中科院1区top，IF=8.3）上发表的研究“Interpretable multimodal PET/CT-EHR fusion via mixture-of-experts for prognostic stratification in mantle cell lymphoma: a multicenter study”即基于混合专家模型的可解释多模态PET/CT-EHR融合在套细胞淋巴瘤预后分层中的应用：一项多中心研究，该研究开发了一种可解释的深度学习框架，整合基线[18F]FDG PET/CT影像与电子健康记录（EHR）数据，用于套细胞淋巴瘤（MCL）患者的个体化风险分层。通过构建混合专家（MoE）融合网络，模型提取多种模态特征（包括深度学习视觉特征、传统放射组学特征和医学语言模型特征），并生成放射组学特征（R-signatures），显著提高了无进展生存期（PFS）和总生存期（OS）的预测性能。模型具有高度可解释性，能够通过注意力热图、专家贡献权重和病理相关性分析揭示其决策依据。

关键词：套细胞淋巴瘤、PET/CT、放射组学、深度学习、多模态融合、预后分层

创新点：①新颖的多模态融合架构：采用混合专家（MoE）与注意力门控机制，非简单拼接，有效整合PET/CT影像与电子健康记录（EHR）的异构数据。②多重可解释性机制：集成注意力热图定位病灶、专家权重量化模态贡献及病理亚型关联分析，突破了传统“黑箱”模型局限。③互补性视觉专家设计：联合MedCLIP（语义）与MedSAM（形态）双视觉专家，在中等样本量下高效提取PET/CT中的代谢与结构特征。

临床价值：①显著提升预后分层精度：构建的影像组学特征（R-signatures）及多参数模型，C-index达0.89，优于传统MIPI指数，精准识别高危患者。②无创指导个体化治疗：基于基线PET/CT与常规化验指标，无缝整合入现有流程，为治疗升阶或降阶决策提供非侵入性工具。③增强临床信任度与理解：热图与病理亚型（如母细胞样）的显著关联，使模型决策符合临床认知，促进AI在淋巴瘤管理中的实际应用。

图 2：研究整体工作流程图

A：多中心数据集

整合3家中心的MCL患者配对数据：PET/CT影像+电子健康记录EHR

B：多模态PET/CT和EHR数据

明确输入数据类型：PET代谢影像、CT解剖影像、EHR临床文本数据

C：数据预处理

影像：PET/CT刚性配准→生成空间对齐的影像数据

EHR：临床报告结构化→生成标准化文本数据

D：多医学专家赋能的特征提取

采用4类专业“专家模型”提取特征：

预训练MedCLIP：提取PET/CT高级语义特征

预训练MedSAM：提取PET/CT病灶形态/边界特征

传统影像组学：提取PET/CT定量组学特征

医学大模型（Med-BERT）：提取EHR文本特征

E：基于注意力的混合专家（MoE）建模

组内注意力聚合：单模态/单专家特征精炼

组间门控融合：动态分配各专家权重，生成患者级融合特征

生存预测层：分别训练无进展生存（PFS）、总生存（OS）预测模型

F：多任务评估与可解释性

模型评估：C-index、ROC、校准曲线、DCA

可解释性：注意力可视化、模态贡献量化、病理相关性分析

研究背景和目的

研究背景

套细胞淋巴瘤是一种异质性极强的B细胞恶性肿瘤，其临床病程差异显著，部分患者预后极差，5年总生存率仅约65%。尽管目前已有MIPI和MIPI-c等预后评估工具，但其预测准确性仍不理想，尤其在高危患者的识别方面存在明显不足。近年来，[¹⁸F]FDG PET/CT在MCL的分期和疗效评估中发挥重要作用，代谢肿瘤负荷指标如TMTV和TLG被证实具有预后价值。然而，这些传统指标难以全面捕捉肿瘤内部的异质性，也未能充分利用CT提供的结构信息。与此同时，深度学习技术在整合多模态数据方面展现出潜力，但现有方法大多将PET/CT与电子健康记录独立处理或采用简单的融合策略，如后期融合或特征拼接，导致模态特异性信息被稀释，跨模态关联被忽视。此外，PET/CT的3D空间信息与EHR的文本语义信息之间存在天然异构性，构建端到端的统一融合框架在技术上极具挑战。更关键的是，现有模型的可解释性严重不足，难以获得临床医生的信任，也限制了其在实际诊疗中的应用。因此，亟需开发一种能够系统融合多模态数据、保留各自表征能力、并具备临床可解释性的预后分层工具，以推动MCL精准治疗的进展。

研究目的

针对上述挑战，本研究旨在开发一个可解释的多模态深度学习框架，系统融合基线[¹⁸F]FDG PET/CT影像与电子健康记录数据，用于套细胞淋巴瘤患者的个体化风险分层与预后预测。具体而言，研究提出了一种基于混合专家模型的融合网络，通过引入视觉编码器、影像组学提取器和医学语言模型作为多个“专家”模块，并采用基于注意力的门控机制对这些模态特征进行动态整合，构建出能够预测无进展生存期和总生存期的多模态影像组学特征。该框架不仅在特征提取阶段保留了每种模态的独特性，还在融合过程中实现了跨模态的协同建模。研究进一步将R-signatures与临床指标和代谢参数结合，构建多参数预后模型，并通过C-index、时间依赖ROC曲线、校准曲线和决策曲线分析等手段系统评估其性能。此外，研究特别强调模型的可解释性，通过注意力热图可视化风险相关区域、量化各专家模块的贡献权重，并与病理亚型进行关联验证，确保模型预测与临床认知一致。最终目标是提供一种非侵入性、临床可转化的工具，实现对MCL患者的精准风险分层，指导个体化治疗决策。

数据和方法

研究数据

样本量：187例初治MCL患者

数据来源：三中心（华西医院、江苏省人民医院、南京鼓楼医院）

数据划分：训练集125例，验证集62例（8:2）

随访中位数：训练集33.0个月，验证集27.5个月

事件数：

训练集：疾病进展39例，死亡20例

验证集：疾病进展21例，死亡9例

图 1：参与者筛选流程图

技术方法

多模态数据预处理：PET/CT配准、标准化、切片分解；EHR文本去标识、分句、时序标注。

多专家特征提取：

MedCLIP（语义视觉特征）

MedSAM（形态学特征）

传统放射组学特征

Med-BERT（文本特征）

混合专家融合网络：

组内Transformer自注意力聚合

组间注意力门控机制动态加权

生存预测：Cox比例风险模型，分别优化PFS和OS。

模型评估：C-index、时间依赖ROC、DCA、校准曲线。

可解释性分析：注意力热图、专家权重、病理亚型关联。

实验结果

R-signature预测性能：

PFS：训练集AUC=0.893，验证集AUC=0.755

OS：训练集AUC=0.804，验证集AUC=0.844

多参数模型（R-signature+TLG+WBC+Ki-67/β2-MG）：

C-index：PFS训练0.892，验证0.781；OS训练0.877，验证0.862

优于MIPI和MIPI-c

可解释性：

注意力热图聚焦于高代谢肿瘤区域

PET在PFS中贡献更大，EHR补充信息显著

R-signature在侵袭性病理亚型（blastoid/pleomorphic）中显著升高

图 3：R-signature对PFS和OS的预测性能

图中包含ROC曲线、小提琴图和Kaplan-Meier生存曲线。训练队列中R-signature预测PFS的AUC达0.893，OS达0.804；验证队列分别为0.755和0.844。小提琴图显示，发生进展或死亡患者的R-signature值显著升高（P<0.01）。KM曲线证实，高风险组PFS和OS均显著劣于低风险组（训练和验证队列P均<0.05），表明该影像组学签名是强有力的预后分层工具。

图 4：单因素与多因素分析的森林图

森林图展示了影响PFS和OS的各独立预测因子及其风险比（HR）。多因素分析显示：对于PFS，WBC升高（HR=2.460）、Ki-67高表达（HR=2.073）和TLG增高（HR=4.345）为独立危险因素；对于OS，β2-微球蛋白升高（HR=5.470）和TLG增高（HR=5.789）具有显著预测价值。此外，R-signature在两种终点中均为最强独立因子（PFS: HR=27.70，OS: HR=6.86）。

图 5：多参数模型的评估与验证

图中展示了整合R-signature、TLG及临床变量（PFS模型含WBC和Ki-67；OS模型含β2-MG）的多参数模型性能。校准曲线显示预测与观察结果高度一致；C-index在训练队列中PFS达0.892、OS达0.877，验证队列分别为0.781和0.862，显著优于MIPI和MIPI-c。时间依赖ROC曲线验证了1年、3年、5年AUC均接近或超过0.800，决策曲线分析进一步证实其临床净获益更大。

图 6：深度学习模型的可解释性分析

图中包含多个子图：(a)注意力热图显示模型聚焦于高代谢肿瘤区域（如腹部、腋窝），与临床评估一致；(b-e)模态贡献权重表明PET和CT主导OS预测，而EHR对PFS贡献更明显，消融实验证实多模态融合持续提升性能；(f-g)小提琴图显示母细胞型/多形性变体的R-signature值显著高于经典型（P=0.028和0.010）；(h)HE染色图展示了三种亚型的形态学差异，证明R-signature能反映病理生物学侵袭性。

研究结论

该研究开发并验证了一种可解释的多模态深度学习框架，通过混合专家（Mixture-of-Experts, MoE）融合网络整合基线[¹⁸F]FDG PET/CT影像与电子健康记录（EHR）数据，用于套细胞淋巴瘤（MCL）的预后分层。研究得出的主要结论包括：所构建的影像组学特征（R-signatures）在训练与验证队列中均能有效区分疾病进展与死亡风险（AUC最高达0.893与0.844），并作为独立预后因子（PFS: HR=27.70；OS: HR=6.86）。将R-signatures与总病变糖酵解（TLG）、β2-微球蛋白、白细胞计数及Ki-67等临床及代谢指标结合构建的多参数模型，其预测性能（C-index最高达0.892与0.877）显著优于传统MIPI及MIPI-c指数。此外，模型具备良好的临床可解释性：注意力热图聚焦于高代谢肿瘤区域，专家组权重可量化各模态贡献，且R-signatures在母细胞样及多形性变异型患者中显著升高，体现其与病理侵袭性的关联。研究最终认为，该非侵入性、可解释的多模态融合策略可有效提升MCL预后判断精度，为风险适应性治疗提供了具备临床转化潜力的工具。

参考文献：Jiang C, Zhang Z, Jiang Z, Ding C, Teng Y, Gao L, Jiang M, Qu L, Tian R. Interpretable multimodal PET/CT-EHR fusion via mixture-of-experts for prognostic stratification in mantle cell lymphoma: a multicenter study. BMC Med. 2026 Apr 16. doi: 10.1186/s12916-026-04865-1.

BMC Med（IF=8.3）四川大学华西医院田蓉等团队：基于混合专家模型的可解释多模态PET-CT-EHR融合用于套细胞淋巴瘤预后分层

3步解锁网易云音乐NCM格式：终极免费转换方案

高速ADC前端变压器相位不平衡分析与优化方案

egg-react-ssr进阶技巧：HMR热更新与动态路由的完美结合

PagePlug本地开发环境搭建：Windows平台免WSL配置终极指南

XUnity.AutoTranslator终极指南：三分钟让Unity游戏实现多语言翻译

HYMiniMall项目配置详解：从开发环境到生产环境的完整部署