【ICCV25-汪烈军-新疆大学】相似性记忆先验是医学图像分割的关键-编程实验室

文章：Similarity Memory Prior is All You Need for Medical Image Segmentation

代码：https://github.com/vpsg-research/Sim-MPNet

单位：新疆大学

一、问题背景：传统模型的医学图像分割困境

当前医学图像分割的主流方法，主要依赖CNN（卷积神经网络）和ViT（视觉Transformer），以及二者的融合模型，但这些方法在面对医学图像时，都存在难以规避的问题：

CNN的局部局限：CNN的局部感受野设计，只能被动识别图像的边缘、角落等局部纹理，无法主动建模“肝脏”“肿瘤”这类语义化的器官/病灶目标，分割大病灶、复杂器官时效果不佳；
ViT的数据依赖：ViT的自注意力机制本应捕捉全局信息，但医学图像标注数据稀缺，导致模型难以学习到有效的位置编码语义关联，最终沦为“伪全局建模”，依旧只关注高频纹理，忽略解剖结构；
共性问题：无先验知识：CNN和ViT都属于数据驱动的“隐式学习”，缺乏针对医学目标的先验知识，无法快速定位和识别图像中的关键特征。

而研究人员从灵长类视觉系统中获得启发——猕猴初级视觉皮层中存在“祖母细胞”，这类细胞仅对特定视觉刺激产生反应，具备极强的目标识别能力。这一生物机制为研究指明了方向：让模型跳出传统计算框架，直接聚焦于医学图像中的类别特征（器官/病灶），为模型赋予“记忆先验”，或许是突破医学图像分割瓶颈的关键。

二、方法创新：Sim-MPNet的核心设计，给AI加“记忆库”

研究团队基于“祖母细胞”的生物启发，设计了Similarity Memory Prior Network（Sim-MPNet）相似性记忆先验网络，核心是为模型构建动态的原型记忆库，让模型能主动匹配、提取并更新医学目标的类别特征，同时搭配双编码器结构，融合局部与全局信息。整个模型的创新点集中在两个核心模块和一套动态更新策略：

1. 动态记忆权重-损失注意力模块（DMW-LA）：AI的“记忆提取器”

这一模块是模型的核心，负责从医学图像中直接抓取器官/病灶的核心类别特征，模拟“祖母细胞”的特异性识别能力：

先通过K-means聚类为原型记忆库初始化相似性记忆先验（各类医学目标的特征模板），模型利用余弦相似性，将图像特征与记忆库中的核心模板匹配，精准定位对应目标；
匹配后通过自注意力机制，提取图像中与模板对应的语义类别特征，让模型直接捕捉医学图像的抽象类别信息，大幅提升分割能力。

2. 权重-损失动态更新策略（W-LD）：让“记忆库”越用越准

为解决传统记忆机制更新灵活度低的问题，团队设计了非随机的W-LD更新策略，让原型记忆库能根据训练情况动态优化：

按特征权重筛选：保留图像中高权重的有效特征，替换记忆库中低权重的无效特征，减少冗余信息；
按训练损失调整：通过对比当前与上一轮训练的损失值，动态调整记忆库的更新范围，损失下降时减小更新范围保留有效特征，损失上升时扩大更新范围剔除无用特征，让记忆库持续积累高价值语义信息。

3. 双相似性全局内部增强模块（DS-GIM）：AI的“细节分辨器”

针对医学图像中不同目标特征相似、难以区分的问题，该模块同时利用余弦相似性和欧氏距离，从特征分布和空间位置两个维度，精细挖掘医学图像的内部特征差异，强化模型对细微纹理、复杂轮廓的分辨能力，让模型能更好地区分相似的器官/病灶。

4. 双编码器结构：融合局部与全局信息

Sim-MPNet采用双编码器设计，一个由DMW-LA和DS-GIM交替堆叠而成，负责类别特征提取；另一个基于MaxViT构建，负责强化全局上下文学习。两个编码器的特征经融合后，结合通道+空间注意力的跳跃连接和解码器，最终实现像素级的精准分割，有效减少信息损失。

三、实验结果：四大公开数据集验证，刷新SOTA

为验证Sim-MPNet的性能，研究团队在ACDC（心脏MRI）、SegPC-2021（骨髓瘤浆细胞）、ISIC-2018（皮肤病变）、Synapse（腹部CT多器官）四大国际公开医学图像分割数据集上开展了全面实验，以Dice相似度（DSC，越高越好）和95%豪斯多夫距离（HD95，越低越好）为核心评价指标，与CNN、ViT、CNN-ViT融合、记忆机制等各类主流SOTA方法对比，结果表现亮眼：

ACDC心脏数据集：Sim-MPNet的DSC达到92.18%，显著高于各类对比模型，精准分割左心室、右心室和心肌，解决了传统模型局部特征捕捉不足的问题；
SegPC-2021细胞数据集：面对紧密连接的浆细胞，模型DSC达83.12%，相较最优对比模型提升2.40%，HD95降低2.42mm，对细胞细胞质、细胞核的分割精度大幅提升；
ISIC-2018皮肤病变数据集：针对大尺度皮肤病变，模型验证了优秀的全局建模能力，DSC达90.85%，相较ViT类最优模型提升0.74%，HD95降低0.52mm；
Synapse腹部多器官数据集：这一数据集包含9类腹部器官，轮廓复杂、差异大，Sim-MPNet取得84.34%的平均DSC和14.85的HD95，均为所有对比模型最优，在左肾、右肾、胆囊等器官上的分割精度均超越现有方法，展现出极强的场景鲁棒性。

同时，消融实验也验证了核心模块的有效性：移除DMW-LA或DS-GIM后，模型在所有数据集上的性能均出现明显下降，证明了相似性记忆先验和双相似性增强机制的核心作用。

四、优势与局限

核心优势

全新的特征提取范式：跳出传统CNN/ViT的学习框架，将生物视觉的“祖母细胞”机制融入模型，通过相似性记忆先验让模型主动识别、记忆医学目标类别特征，而非被动学习纹理，为医学图像分割提供了全新研究思路；
动态灵活的记忆机制：W-LD更新策略让原型记忆库能根据训练情况自适应优化，解决了传统记忆机制灵活性低、易引入冗余信息的问题，适配医学图像目标形态多变的特点；
强鲁棒性与泛化性：在心脏、细胞、皮肤病变、腹部多器官等不同类型、不同复杂度的医学图像数据集上均取得SOTA性能，能适配不同临床场景的分割需求；
精准的细节分辨能力：DS-GIM模块结合两种相似性度量，强化了模型对细微特征差异的捕捉，能有效分割轮廓复杂、特征相似的医学目标。

现存局限

计算成本方面：Sim-MPNet采用双编码器结构，相比单编码器的传统模型，在参数量和计算量（FLOPs）上不占优势，推理效率虽能满足基本需求，但仍有优化空间；
局部特征建模：在部分轮廓极度复杂的小器官（如胰腺）分割中，模型对局部元素的相关性捕捉仍有不足，未能达到最优分割效果，局部建模能力仍可进一步强化；
小样本场景适配：虽模型引入了先验知识，但在极少量标注的小样本医学图像场景中，记忆库的初始化和更新效果仍需进一步验证。

五、一句话总结

新疆大学团队提出的Sim-MPNet网络，将灵长类视觉系统的“祖母细胞”机制与医学图像分割结合，通过构建动态的相似性记忆先验，让模型实现了医学目标类别特征的主动提取与记忆，在四大公开数据集上刷新SOTA，为医学图像分割提供了全新的生物启发式研究范式，也为后续结合先验知识的医学计算机视觉研究奠定了基础。