01
文献学习
今天分享的文献是由四川大学华西医院田蓉等团队于2026年4月16日在《BMC Medicine》(中科院1区top,IF=8.3)上发表的研究“Interpretable multimodal PET/CT-EHR fusion via mixture-of-experts for prognostic stratification in mantle cell lymphoma: a multicenter study”即基于混合专家模型的可解释多模态PET/CT-EHR融合在套细胞淋巴瘤预后分层中的应用:一项多中心研究,该研究开发了一种可解释的深度学习框架,整合基线[18F]FDG PET/CT影像与电子健康记录(EHR)数据,用于套细胞淋巴瘤(MCL)患者的个体化风险分层。通过构建混合专家(MoE)融合网络,模型提取多种模态特征(包括深度学习视觉特征、传统放射组学特征和医学语言模型特征),并生成放射组学特征(R-signatures),显著提高了无进展生存期(PFS)和总生存期(OS)的预测性能。模型具有高度可解释性,能够通过注意力热图、专家贡献权重和病理相关性分析揭示其决策依据。
关键词:套细胞淋巴瘤、PET/CT、放射组学、深度学习、多模态融合、预后分层
创新点:①新颖的多模态融合架构:采用混合专家(MoE)与注意力门控机制,非简单拼接,有效整合PET/CT影像与电子健康记录(EHR)的异构数据。②多重可解释性机制:集成注意力热图定位病灶、专家权重量化模态贡献及病理亚型关联分析,突破了传统“黑箱”模型局限。③互补性视觉专家设计:联合MedCLIP(语义)与MedSAM(形态)双视觉专家,在中等样本量下高效提取PET/CT中的代谢与结构特征。
临床价值:①显著提升预后分层精度:构建的影像组学特征(R-signatures)及多参数模型,C-index达0.89,优于传统MIPI指数,精准识别高危患者。②无创指导个体化治疗:基于基线PET/CT与常规化验指标,无缝整合入现有流程,为治疗升阶或降阶决策提供非侵入性工具。③增强临床信任度与理解:热图与病理亚型(如母细胞样)的显著关联,使模型决策符合临床认知,促进AI在淋巴瘤管理中的实际应用。
图 2:研究整体工作流程图
A:多中心数据集
整合3家中心的MCL患者配对数据:PET/CT影像+电子健康记录EHR
B:多模态PET/CT和EHR数据
明确输入数据类型:PET代谢影像、CT解剖影像、EHR临床文本数据
C:数据预处理
影像:PET/CT刚性配准→生成空间对齐的影像数据
EHR:临床报告结构化→生成标准化文本数据
D:多医学专家赋能的特征提取
采用4类专业“专家模型”提取特征:
预训练MedCLIP:提取PET/CT高级语义特征
预训练MedSAM:提取PET/CT病灶形态/边界特征
传统影像组学:提取PET/CT定量组学特征
医学大模型(Med-BERT):提取EHR文本特征
E:基于注意力的混合专家(MoE)建模
组内注意力聚合:单模态/单专家特征精炼
组间门控融合:动态分配各专家权重,生成患者级融合特征
生存预测层:分别训练无进展生存(PFS)、总生存(OS)预测模型
F:多任务评估与可解释性
模型评估:C-index、ROC、校准曲线、DCA
可解释性:注意力可视化、模态贡献量化、病理相关性分析
02
研究背景和目的
研究背景
套细胞淋巴瘤是一种异质性极强的B细胞恶性肿瘤,其临床病程差异显著,部分患者预后极差,5年总生存率仅约65%。尽管目前已有MIPI和MIPI-c等预后评估工具,但其预测准确性仍不理想,尤其在高危患者的识别方面存在明显不足。近年来,[¹⁸F]FDG PET/CT在MCL的分期和疗效评估中发挥重要作用,代谢肿瘤负荷指标如TMTV和TLG被证实具有预后价值。然而,这些传统指标难以全面捕捉肿瘤内部的异质性,也未能充分利用CT提供的结构信息。与此同时,深度学习技术在整合多模态数据方面展现出潜力,但现有方法大多将PET/CT与电子健康记录独立处理或采用简单的融合策略,如后期融合或特征拼接,导致模态特异性信息被稀释,跨模态关联被忽视。此外,PET/CT的3D空间信息与EHR的文本语义信息之间存在天然异构性,构建端到端的统一融合框架在技术上极具挑战。更关键的是,现有模型的可解释性严重不足,难以获得临床医生的信任,也限制了其在实际诊疗中的应用。因此,亟需开发一种能够系统融合多模态数据、保留各自表征能力、并具备临床可解释性的预后分层工具,以推动MCL精准治疗的进展。
研究目的
针对上述挑战,本研究旨在开发一个可解释的多模态深度学习框架,系统融合基线[¹⁸F]FDG PET/CT影像与电子健康记录数据,用于套细胞淋巴瘤患者的个体化风险分层与预后预测。具体而言,研究提出了一种基于混合专家模型的融合网络,通过引入视觉编码器、影像组学提取器和医学语言模型作为多个“专家”模块,并采用基于注意力的门控机制对这些模态特征进行动态整合,构建出能够预测无进展生存期和总生存期的多模态影像组学特征。该框架不仅在特征提取阶段保留了每种模态的独特性,还在融合过程中实现了跨模态的协同建模。研究进一步将R-signatures与临床指标和代谢参数结合,构建多参数预后模型,并通过C-index、时间依赖ROC曲线、校准曲线和决策曲线分析等手段系统评估其性能。此外,研究特别强调模型的可解释性,通过注意力热图可视化风险相关区域、量化各专家模块的贡献权重,并与病理亚型进行关联验证,确保模型预测与临床认知一致。最终目标是提供一种非侵入性、临床可转化的工具,实现对MCL患者的精准风险分层,指导个体化治疗决策。
03
数据和方法
研究数据
样本量:187例初治MCL患者
数据来源:三中心(华西医院、江苏省人民医院、南京鼓楼医院)
数据划分:训练集125例,验证集62例(8:2)
随访中位数:训练集33.0个月,验证集27.5个月
事件数:
训练集:疾病进展39例,死亡20例
验证集:疾病进展21例,死亡9例
图 1:参与者筛选流程图
技术方法
多模态数据预处理:PET/CT配准、标准化、切片分解;EHR文本去标识、分句、时序标注。
多专家特征提取:
MedCLIP(语义视觉特征)
MedSAM(形态学特征)
传统放射组学特征
Med-BERT(文本特征)
混合专家融合网络:
组内Transformer自注意力聚合
组间注意力门控机制动态加权
生存预测:Cox比例风险模型,分别优化PFS和OS。
模型评估:C-index、时间依赖ROC、DCA、校准曲线。
可解释性分析:注意力热图、专家权重、病理亚型关联。
04
实验结果
R-signature预测性能:
PFS:训练集AUC=0.893,验证集AUC=0.755
OS:训练集AUC=0.804,验证集AUC=0.844
多参数模型(R-signature+TLG+WBC+Ki-67/β2-MG):
C-index:PFS训练0.892,验证0.781;OS训练0.877,验证0.862
优于MIPI和MIPI-c
可解释性:
注意力热图聚焦于高代谢肿瘤区域
PET在PFS中贡献更大,EHR补充信息显著
R-signature在侵袭性病理亚型(blastoid/pleomorphic)中显著升高
图 3:R-signature对PFS和OS的预测性能
图中包含ROC曲线、小提琴图和Kaplan-Meier生存曲线。训练队列中R-signature预测PFS的AUC达0.893,OS达0.804;验证队列分别为0.755和0.844。小提琴图显示,发生进展或死亡患者的R-signature值显著升高(P<0.01)。KM曲线证实,高风险组PFS和OS均显著劣于低风险组(训练和验证队列P均<0.05),表明该影像组学签名是强有力的预后分层工具。
图 4:单因素与多因素分析的森林图
森林图展示了影响PFS和OS的各独立预测因子及其风险比(HR)。多因素分析显示:对于PFS,WBC升高(HR=2.460)、Ki-67高表达(HR=2.073)和TLG增高(HR=4.345)为独立危险因素;对于OS,β2-微球蛋白升高(HR=5.470)和TLG增高(HR=5.789)具有显著预测价值。此外,R-signature在两种终点中均为最强独立因子(PFS: HR=27.70,OS: HR=6.86)。
图 5:多参数模型的评估与验证
图中展示了整合R-signature、TLG及临床变量(PFS模型含WBC和Ki-67;OS模型含β2-MG)的多参数模型性能。校准曲线显示预测与观察结果高度一致;C-index在训练队列中PFS达0.892、OS达0.877,验证队列分别为0.781和0.862,显著优于MIPI和MIPI-c。时间依赖ROC曲线验证了1年、3年、5年AUC均接近或超过0.800,决策曲线分析进一步证实其临床净获益更大。
图 6:深度学习模型的可解释性分析
图中包含多个子图:(a)注意力热图显示模型聚焦于高代谢肿瘤区域(如腹部、腋窝),与临床评估一致;(b-e)模态贡献权重表明PET和CT主导OS预测,而EHR对PFS贡献更明显,消融实验证实多模态融合持续提升性能;(f-g)小提琴图显示母细胞型/多形性变体的R-signature值显著高于经典型(P=0.028和0.010);(h)HE染色图展示了三种亚型的形态学差异,证明R-signature能反映病理生物学侵袭性。
05
研究结论
该研究开发并验证了一种可解释的多模态深度学习框架,通过混合专家(Mixture-of-Experts, MoE)融合网络整合基线[¹⁸F]FDG PET/CT影像与电子健康记录(EHR)数据,用于套细胞淋巴瘤(MCL)的预后分层。研究得出的主要结论包括:所构建的影像组学特征(R-signatures)在训练与验证队列中均能有效区分疾病进展与死亡风险(AUC最高达0.893与0.844),并作为独立预后因子(PFS: HR=27.70;OS: HR=6.86)。将R-signatures与总病变糖酵解(TLG)、β2-微球蛋白、白细胞计数及Ki-67等临床及代谢指标结合构建的多参数模型,其预测性能(C-index最高达0.892与0.877)显著优于传统MIPI及MIPI-c指数。此外,模型具备良好的临床可解释性:注意力热图聚焦于高代谢肿瘤区域,专家组权重可量化各模态贡献,且R-signatures在母细胞样及多形性变异型患者中显著升高,体现其与病理侵袭性的关联。研究最终认为,该非侵入性、可解释的多模态融合策略可有效提升MCL预后判断精度,为风险适应性治疗提供了具备临床转化潜力的工具。
参考文献:Jiang C, Zhang Z, Jiang Z, Ding C, Teng Y, Gao L, Jiang M, Qu L, Tian R. Interpretable multimodal PET/CT-EHR fusion via mixture-of-experts for prognostic stratification in mantle cell lymphoma: a multicenter study. BMC Med. 2026 Apr 16. doi: 10.1186/s12916-026-04865-1.