HGP-MAMBA：结合组织学和生成的蛋白质特征进行基于MAMBA的多模式生存风险预测-编程实验室

论文总结

研究痛点
- 蛋白标志物对癌症预后关键，但检测昂贵、数据稀缺，组织学 + 蛋白多模态融合研究不足。
- 传统跨注意力计算复杂度高，长序列建模效率低。
核心方法
- 提出HGP-Mamba：基于 Mamba 的多模态生存风险预测框架。
- PFE 蛋白特征提取器：从全切片图像（WSI）直接生成 50 种蛋白嵌入，无需实测蛋白数据。
- LiAM 局部感知 Mamba：细粒度捕获组织学与蛋白特征的跨模态依赖。
- GiEM 全局增强 Mamba：滑动窗层级完成高效全局模态融合。
关键创新
- 用预训练模型从 WSI 生成高通量蛋白特征，解决数据稀缺问题。
- 双阶段 Mamba 融合，替代跨注意力，计算效率大幅提升。端到端整合形态与分子信息，适配多癌种预后。
实验结果
- 在 TCGA 四大癌症数据集（COADREAD/KIRC/KIRP/LIHC）取得SOTA，平均 C-index 达0.758。
- 消融实验证实 PFE、LiAM、GiEM 均为必要模块。
- 参数量仅 2.47MB，推理速度比 Transformer 基线快96%+。
结论价值
- 低成本、高效率实现组织形态与虚拟蛋白特征的多模态预后。
- 可扩展到更多模态与临床任务，助力精准肿瘤诊疗。

摘要

多模式学习的最新进展显著改善了癌症生存风险预测。然而，蛋白质标记物和组织病理学图像联合预测预后的潜力仍未被充分发掘，这主要是由于蛋白质表达谱的高成本和可获得性有限。为了应对这一挑战，我们提出了HGP-Mamba，一个基于Mamba的多模式框架，它有效地整合了组织学和生成的蛋白质特征，用于生存风险预测。具体地说，我们引入了一个蛋白质特征提取程序(PFE)，它利用预先训练的基础模型直接从整个幻灯片图像(WSIS)中获得高通量的蛋白质嵌入，从而实现了分子信息的数据高效整合。与捕捉形态模式的组织学嵌入一起，我们进一步引入了用于细粒度特征交互的局部交互感知Mamba(LIAM)和用于在幻灯片水平促进整体通道融合的全局交互增强Mamba(GIEM)，从而捕获复杂的跨通道依赖关系。在四个公共癌症数据集上的实验表明，与现有方法相比，HGP-Mamba在保持优越计算效率的同时，实现了最先进的性能。我们的源代码可在https://github.com/Daijing-ai/hgp-mamba.git上公开获得。

引言

生存风险预测是临床肿瘤学的一项基本任务，目的是估计死亡或复发等危重事件发生的时间，并将其量化个体死亡风险。准确的预测提供了对疾病进展、治疗反应和患者预后的基本见解，最终指导个性化的治疗决策[1]。随着数字病理学的快速发展，全切片图像(WSIS)作为金标准越来越多地被用于生存风险预测。WSIS提供了细胞和组织水平上的形态变化的全面视图，为生存评估提供了关键的基础。考虑到WSIS中的大量块，许多方法采用基于MIL的方法来进行高效的处理和分析，其中基于注意力的MIL模型[2，3，4]旨在捕获全局WSI表示。最近，引入了基于转换器的[5，6]和基于Mamba的[7，8，9]架构，它们利用自我注意机制和状态空间模型[10]，它们都旨在探索实例和长序列模型之间的相互关系。然而，仅用病理图像并不能全面反映癌症发生发展的全过程。因此，开发稳健的多模式方法对于构建准确和可推广的生存分析模型是必要的但也是具有挑战性的[11]。随着分子病理学的进步，组织学和分子标记的多模式数据的联合建模显著提高了生存分析的效率和准确性[12，13]。以前关于多模式融合的研究主要集中在将组织病理学图像与基因组数据配对，使用交叉注意[14，15]或最佳传输[16]等技术。

虽然已经取得了很大的进展，但在生存风险预测中发挥关键作用的蛋白质标记物还没有得到充分的研究。这主要是由于蛋白质标记物的评估既耗时又昂贵，这限制了它们与常规临床工作流程的整合[17]。蛋白质标记物作为细胞过程的直接功能介质，提供了对肿瘤微环境和分子信号通路的独特见解，从而补充了组织学图像提供的形态视角。最近的研究[18，19]显示了将蛋白质标记物预测整合到基于组织病理学的预后建模中的潜力。然而，它们仅限于具有代表性的标记，限制了它们提供全面生物学见解的能力。此外，现有的框架通常专注于特定的癌症类型，它们在其他癌症类型中的更广泛应用仍有待验证。此外，大规模的WSIS和高维蛋白质组学图谱对有效的细粒度相互作用构成了重大挑战。交叉注意机制的二次计算复杂性往往会导致关键补丁级别信息的丢失，并增加过度适应任务无关特征的风险[20]，这限制了其性能和效率，使其难以在临床环境中使用。为了应对上述挑战，我们提出了HGP-Mamba，这是一个基于Mamba的框架，它捕获组织学并生成蛋白质特征，同时实现两种模式的有效集成。我们的模型直接从WSIS中同时嵌入多达50个蛋白质生物标记物，即使在没有测量到蛋白质PRO的情况下也能实现可靠的多模式生存建模档案。此外，我们引入了一种基于Mamba的双阶段融合机制，该机制实现了局部跨通道交互和全局通道内聚，而不需要与交叉注意体系结构相关的大量计算开销。HGP-Mamba弥合了组织形态和分子特征之间的差距，为传统的多模式预后框架提供了一种具有成本效益和可扩展的替代方案。我们的主要贡献概括如下：

-为了解决蛋白质表示学习的挑战，我们开发了一个蛋白质特征提取程序(PFE)，它使用预先训练的基础模型直接从WSIS获得高通量的蛋白质特征，从而缓解了昂贵的临床分析造成的数据稀缺。

-我们引入了分层融合策略，其中包括本地交互感知Mamba(LIAM)和全局交互增强Mamba(GIEM)，前者用于捕获细粒度的模式间依赖关系，后者用于确保整个组织环境中的整体模式集成。

-在四个癌症数据队列中进行的广泛实验表明，与最先进的基线相比，所建议的方法在生存风险预测方面具有优势和效率。

图1.HGP-Mamba概述。(A)提出的HGP-MAMBA的详细内容，包括三个步骤：多模式特征提取、特征交互和增强以及风险预测。(B)本地交互感知Mamba(LIAM)示意图。(C)加强全局互动的Mamba(GIEM)的架构。

方法

HGP-MAMBA的总体结构如图1所示，包括三个主要阶段：多模式特征提取、跨模式交互和增强以及生存风险预测。如图1(A)所示，每个WSI被划分为数千个不重叠的斑块。然后使用两个预先训练的基础模型独立地提取组织学和蛋白质嵌入。随后，采用了局部相互作用感知的Mamba(LIAM)和全局相互作用增强的Mamba(GIEM)来有效地整合和增强组织学和蛋白质表示。最后，将融合后的多峰特征用于生存风险预测。在接下来的部分中，我们首先介绍状态空间模型(SSM)的基本知识，然后描述所提出的HGP-MAMBA框架的核心组件。

状态空间模型（SSMs）

SSMS可以被看作是线性时不变系统，它代表了一类序列模型，该序列模型通过潜在状态h(T)∈RN将一维输入信号x(T)∈R映射到输出响应y(T)∈R。系统动力学正式表示为：

Mamba[7]通过结合选择机制进一步扩展了SSMS，允许模型参数动态依赖于输入，同时利用高效的、硬件感知的并行算法。因此，Mamba通过基于当前令牌沿序列选择性地传播或丢弃信息来实现有效和高效的长序列建模[8]。

图2.我们的蛋白质特征提取程序(PFE)的图解。请注意，ConvNet是ROISE模型的主干。

多模态特征提取

组织学特征

WSIS为肿瘤微环境提供了丰富的形态信息。然而，由于WSIS的规模非常大，不能直接用卷积神经网络来处理，需要首先进行划分。我们首先分割组织区域，然后以20倍的放大倍数将它们分割成256×256个不重叠的块。我们使用一个预先训练的海螺模型[21]，它最初是在大规模的WSI-文本对上训练的，来为每个补丁提取512维的嵌入。来自同一WSI的所有补丁嵌入被收集为一个嵌入集。为了减少特征冗余和计算开销，我们使用多层感知器对特征进行降维，最终得到嵌入fh∈RN×D的组织学，其中N表示面片的数目，D=256是特征的维度。

蛋白质特征

蛋白质图谱为了解与癌症预后相关的分子生物标志物提供了有价值的见解。鉴于多重蛋白质分析的高成本和有限可用性，我们利用ROISE[22]，这是一个预先训练的基础模型，在共染色H&E和免疫染色切片的最大数据集上进行训练。与以前的蛋白质预测框架[18，19]不同，ROISE可以同时推断多达50种不同蛋白质的共表达模式。基于这种能力，我们开发了一个蛋白质特征抽取器(PFE)来直接从WSIS中提取蛋白质特征，如图2所示。具体地说，每个WSI块被划分成大小为128×128的非重叠网格。然后应用ConvNet[23]主干来预测每个网格中50个蛋白质的表达水平。对于每个标记通道，我们计算所有网格上的平均预测强度，得到归一化的1×M特征向量，该特征向量总结了斑块级别的平均表达轮廓[24]。最后，多层感知器将该表示投影到嵌入FP∈RN×D的256维蛋白质中。

局部交互增强的Mamba(LIAM)

为了在保持计算效率的同时实现细粒度的跨模式交互，我们引入了一种新的LiAM模块，如图1(B)所示。vt.给出对于组织学和蛋白质特征Fh和Fp，我们首先通过应用层归一化然后进行线性投影来获得它们的投影表示Xh和Xp。平行地，fh和fp也分别投射到zh和zp。具体公式如下：

最后，残馀连接被结合到每种形式中，以促进梯度流动，从而提高稳定性和收敛。通过这种交互式学习机制，Liam有效地捕获了互补信息，并对局部跨模式依赖进行了建模。

Golobal交互增强的Mamba(GIEM)

在本地跨模式交互之后，我们引入了GIEM模块，它采用了双向Mamba(BiMamba)[25]主干来进一步加强多模式表示，如图1(C)所示。与依赖自我关注来同时处理所有令牌的基于Transformer的方法不同，Giem采用有序扫描策略，该策略保留了Mamba的顺序性质，同时支持高效的全局交互建模。具体地说，在给定多峰特征序列的情况下，我们通过依次扫描组织学特征和蛋白质特征来构建统一的FC∈R2N×D表示。这种有序的安排确保以结构化的方式处理来自两种模式的信息，从而允许Mamba的选择性扫描机制有效地捕获模式内和模式间的依赖关系。

生存风险预测

GIEM模块输出处理后的特征序列f‘c∈R2N×D，然后通过最大汇集来聚集该特征序列以产生全局特征向量。该向量随后被传递到线性分类器以生成最终的生存风险预测。在前人研究[14，15]的基础上，通过将连续时间线分成n个区间，我们将原事件时间回归问题简化为一个分类问题。事件发生的间隔tk被用作分类标签k。该模型预测危险向量H={h1，.。。、hk、。。。，Hn}，其中HK表示事件在第k个间隔内发生的条件概率。每个样本表示为{H，c，k}，其中c∈{0，1}表示审查状态。离散生存函数定义为fsurv(H，k)=qki=1(1−hi)。生存风险预测损失公式为：

实验

数据集和评估指标

我们对来自癌症基因组图谱(TCGA)4的四个癌症队列进行了实验，包括结肠癌和直肠腺癌(COADREAD，n=551)，肾透明细胞癌(KIRC，n=498)，肾乳头状细胞癌(Kirp，n=261)，肝癌(LIHC，n=311)和肺腺癌(LUAD，n=455)。对于有多张幻灯片的病例，随机选择一张进行分析。我们训练模型来预测总体生存(OS)风险，并使用交叉验证的一致性指数(C-index)[26]来评估性能，该指数根据患者的生存时间与实际生存结果相比较来评估生存模型对患者进行排名的程度。

实施详情

我们使用5次交叉验证来评估我们的模型和其他比较方法。我们设置Liam块的数目N1=2和Giem的数目块n2=1。基于验证C指数进行了最多100个周期的训练，并提前停止。每个历元使用的批次大小为1，在反向传播之前，梯度累积了32个步骤。使用ADAM优化器，学习速率为2e-4，权重衰减为1e-5。在训练期间，采用了加权抽样策略来缓解所有任务中的班级不平衡。所有实验均使用运行在单个NVIDIA RTX 4090 GPU上的PyTorch进行。

图3.提出的模型在四种癌症数据集上的Kaplan-Meier生存曲线。

对比结果

为了验证HGP-Mamba的有效性，我们将其与以下方法进行了比较：(1)传统的池化方法，包括Mean Pooling和Max Pooling；(2)基于注意力的方法，包括ABMIL[2]、CLAM[4]及其两个变体CLAM-SB和CLAM-MB；(3)基于Transformer的TransMIL[6]；(4)基于Mamba的方法[8]，包括MambaMIL、BiMambaMIL和SRMambaMIL。表1给出了比较结果，其中我们提出的HGPMamba达到了75.8%的平均C指数，超过了所有其他比较方法。具体地说，HGP-Mamba在KIRC、KRIP和LIHC数据集上的表现优于之前的所有方法，并在COADREAD数据集上与TransMIL并列第一。这些结果强调了HGP-MAMBA在有效集成多模式特征方面的有效性，并突出了多模式学习在生存预测中的优势。

患者分层

为了进一步验证HGP-MAMBA用于生存分析的有效性，我们根据HGP-MAMBA生成的预测风险评分的中位数将所有患者分为低风险组和高风险组。然后进行Kaplan-Meier(Km)分析以可视化两组的生存结果，如图3所示。风险组之间的统计学意义用Log-ranch检验来评估，p值小于0.05被认为显著。如图3所示，所有数据集的p值都远低于0.05，表明HGP-MAMBA在生存风险预测中具有很强的区分能力。

图4。(A)不同多模式融合方法的比较。(B)不同补丁的推断时间比较

消融实验

所提出组件的有效性

我们在表2中进行了消融研究，以评估建议组件的贡献。首先，移除PFE模块将HGP-Mamba降低为类似于BiMambaMIL的MIL方法，导致C-指数显著下降(例如，在Kirp上从0.842降至0.786)。这突出了PFE提供了与原始组织学表现相补充的预后信息。接下来，排除LIAM模块会显著降低模型对细粒度多模式交互进行建模的能力，导致C指数显著下降。Liam利用了一种动态权衡组织学和蛋白质特征之间相互作用的门控机制，可以学习在训练过程中抑制噪音影响。这种设计确保了稳健的生存风险预测。最后，省略GIEM模块会降低通道凝聚力并产生次优性能。总体而言，这些消融证实了PFE、Liam和Giem各自扮演着基本和互补的角色。它们共同提供了肿瘤形态和分子异质性的综合表示，这对于准确的生存风险预测是必不可少的。

多通道融合方法的优越性

为了进一步展示我们的多通道交互和增强模块的优越性，我们将Liam和Giem采用几种基线融合方法进行生存风险预测。首先，我们合并了两个使用ABMIL和特征串联(ABMIL-Cat)[27]和ABMIL和Kronecker乘积融合(ABMIL-KP)的常见晚期融合方案[28]。如图4(A)所示，与HGP-Mamba相比，这两种方法都表现不佳，表明它们捕捉复杂的肿瘤-微环境关系的能力有限。我们还比较了HGP-Mamba与领先的早期融合方法MCAT[14，18，19]。由于GPU内存的限制，在我们的实现中，我们用FlashAttent[29]替换了MCAT的交叉注意模块。我们的方法利用双级Mamba架构，在保持高计算效率的同时实现了卓越的预测性能。并从参数计数和推理时间两个方面进行了效率分析。为了公平起见，比较只关注跨模式交互和增强阶段，排除了多模式特征提取的代价；所有实验都是在相同的条件下进行的。我们将HGP-Mamba与基于Transformer的MCAT进行了基准比较，该MCAT具有两个核心注意机制(共同注意和FlashAttent)。具体地说，我们构建了长度为1,000，5,000，10,000，20,000，50,000和100,000的嵌入序列，嵌入维度为512，同时保持蛋白质嵌入在50维固定。如图4(B)所示，HGP-Mamba的参数占用比Transformer基线小得多(2.47MB)，并且在所有序列长度上都一致地实现了大幅加速。例如，当处理50,000个令牌时，HGP-Mamba只需要34.08ms，与基于FlashAttendant的MCAT(875.26 ms)和共同注意MCAT(988.73 ms)相比，分别减少了96.1%和96.6%的推理时间。这些结果表明，HGP-MAMBA不仅保持了对生存风险的稳定预测性能，而且在跨模式交互的计算效率方面具有很大优势。

蛋白质可视化

为了验证PFE是否捕获了真实的分子信号，我们可视化了TCGA-COADREAD队列中的蛋白质表达模式(例如，PD-L1)。如图5所示，预测的高表达区域(红色)与组织学证实的肿瘤区域显示出很强的空间一致性。详细的ROI分析进一步表明，推断的信号仅限于特定的生物间隔，如肿瘤巢和具有免疫渗透的间质。这种与病理基础事实的一致性表明，HGPMamba成功地弥合了原始形态和潜在的分子异质性之间的差距。

总结

在这项工作中，我们提出了HGP-Mamba，一个基于Mamba的框架，它捕获组织学并生成蛋白质特征，同时支持高效集成两种模式都有。通过利用预先训练的基础模型，HGP-Mamba直接从WSIS中提取高通量蛋白质特征，从而缓解了测量蛋白质图谱的稀缺性。通过基于MAMBA的跨模式交互和增强，该框架有效地捕捉了肿瘤的异质性，并产生了更全面的癌症生存风险预测表示。鉴于其优势和效率，HGP-Mamba可以扩展到涉及不同数据模式的更复杂的任务，促进未来向临床应用的转换。

图5.从TCGA-COADREAD数据集中随机选择的幻灯片上PD-L1的空间表达热图。对于每个样本，左侧面板显示WSI缩略图，中间面板将预测的PD-L1表达热图覆盖在WSI上，右侧面板根据预测的表达水平显示选定的补丁。