红外小目标检测新突破！浙大团队提出DQAligner：大位移场景下依然稳定跟踪-编程实验室

红外成像领域的小目标检测一直是个技术难题——目标可能只是几个像素点，还常常淹没在复杂的云层、海面背景或者传感器噪声里。

为了解决这个难题，研究者们开始利用多帧时空信息，但新的问题随之而来：当摄像机或目标快速移动时，传统对齐方法容易“抓瞎”。

最近，来自浙江大学、电子科技大学中山学院以及西班牙埃斯特雷马杜拉大学的研究团队在 IEEE TGRS 2025 上发表了一项创新研究，提出了 DQAligner 框架，为解决大位移红外小目标检测问题提供了全新思路。

论文地址：https://doi.org/10.1109/TGRS.2026.3657842
代码仓库：https://github.com/dengfa02/DQAligner_MIRSTD

一、为什么大位移成了多帧检测的噩梦？

在实际应用中，比如无人机载红外相机或高速移动目标监控，平台抖动和目标机动会导致相邻帧之间出现大幅位移。

研究团队发现了一个有趣的现象：长尾效应。在现有训练集中，绝大多数样本的位移都很小（小于10像素的占84%以上），这导致模型在面对不到16%的大位移场景时表现挣扎。

传统的对齐方案，如光流法或可变形卷积网络，通常感受野有限。当目标跳出这个范围，或者背景中有相似干扰物时，模型就会陷入“对齐焦虑”。

二、DQAligner：从“硬对齐”到“柔性匹配”

DQAligner 的核心思想是从全局视角出发，建立更稳健的特征关联，其创新点主要体现在以下几个方面：

并行骨干网络设计

为了让模型适应“大位移”场景，研究团队引入了全局随机大位移增强策略，模拟平台剧烈抖动。架构上采用并行骨干网络，一次性处理多帧图像。

这种设计将时间维度和Batch维度合并处理，不仅提高了推理效率，还让BatchNorm统计量在时空维度上更稳定，实际上扩大了模型的时间感受野。

快速尺度资源分配模块

多帧加多尺度通常会导致计算量爆炸。为了兼顾效率，DQAligner设计了快速尺度资源分配模块，把复杂的时空注意力拆解为三个支路：

通道分配器：通过全局平均池化提取语义权重
空间分配器：定位关键的空间区域
帧分配器：在时间轴上分配权重

这种设计如同给模型安装了一个“调度中心”，让它知道在哪个尺度、哪一帧、哪个通道该投入更多计算资源。

双向共享运动交互机制

跨帧运动交互模块通过双向共享注意力机制，让参考帧和当前帧互相“对质”。

其核心逻辑是：如果一个点在正向搜索（参考帧到关键帧）和反向搜索中都能匹配上，那它大概率是真实目标。这种共享机制能让随机的背景噪声在梯度更新中互相抵消，而真正稳定的目标信号则会得到加强。

动态感受野金字塔对齐

对于具体的对齐操作，动态感受野金字塔对齐模块采用金字塔结构。它不再使用固定的卷积核，而是通过动态生成器决定感受野的大小（等效感受野从3x3一直覆盖到49x49）。

这种从粗到精的策略能更好地分解复杂的非线性运动。即使目标跑得快，动态感受野也能“跟得上”。

核心创新：类查询存储机制

这是DQAligner最核心的创新。类查询存储就像一个拥有“短期记忆”的记事本，通过隐藏状态迭代学习目标的特征。

具体计算流程如下：

特征提取：从参考帧提取初始特征
递归更新：通过门控单元不断更新这个全局Query
掩码约束：最后用这个Query去“过滤”对齐后的特征，生成运动掩码

这个设计的妙处在于：即使在极端大位移下像素级对齐失败，CQM依然能凭借学到的全局语义信息，直接从当前帧里把目标“搜”出来。这实现了从硬性像素对齐到柔性语义匹配的范式转变。

三、实验结果：性能显著提升

研究团队在两个重量级数据集上进行了测试：NUDT-MIRSDT（模拟静态平台）和IRDST（真实/模拟移动平台）。

在更具挑战性的IRDST数据集上，DQAligner的表现非常抢眼：

IoU达到69.465%
F1分数达到81.982%

参数量仅为0.55M，比很多单帧方法还要轻量

相比之下，之前的多帧SOTA方法如DNANet-DTUM在大位移下的IoU仅为65.49%。

在低信噪比（SCR≤3）的极端情况下，DQAligner的优势更加明显。从ROC曲线可以看出，它的曲线最靠近左上角，意味着在保持高检出率的同时，虚警控制得极好。

可视化结果也印证了这一优势。在一些背景快速移动（如楼房边缘、复杂云层）的场景中，其他方法容易把边缘误判为目标或跟丢目标，而DQAligner能够稳定地锁定真实目标。

四、技术原理深度解析

为什么CQM和DFDA如此有效？研究团队通过详尽的消融实验进行了验证。

实验表明，在不同位移（大、中、小）场景下，DFDA负责初步对齐，而CQM负责进一步精细化定位。特别是在大位移场景下，单纯的对齐已经失效，但经过CQM的约束，目标特征依然能被清晰地提取出来。

CMI模块的作用也通过实验得到证实：有了双向共享注意力，目标的能量被显著放大，而背景噪声被有效抑制。

总结与展望

DQAligner的成功给我们带来了一个重要启发：在处理动态视觉任务时，不一定非要追求像素级的完美对齐。给模型一个“全局视野”，让它学会利用语义一致性去弥补几何对齐的不足，反而能收到奇效。

这种从“硬对齐”向“柔性匹配”的转变，不仅提升了模型对大位移运动的鲁棒性，也为低信噪比下的弱小目标检测提供了一条新路径。

目前，该项目已在GitHub上完整开源，为红外场景下的目标检测研究提供了一个强大的新基准。对于正在被“跟丢”或“虚警”问题困扰的研究者和工程师来说，DQAligner无疑是一个值得尝试的创新方案。

红外小目标检测新突破！浙大团队提出DQAligner：大位移场景下依然稳定跟踪

一、为什么大位移成了多帧检测的噩梦？

二、DQAligner：从“硬对齐”到“柔性匹配”

并行骨干网络设计

快速尺度资源分配模块

双向共享运动交互机制

动态感受野金字塔对齐

核心创新：类查询存储机制

三、实验结果：性能显著提升

四、技术原理深度解析

总结与展望

Secretin (human) ；HSDGTFTSERLSRLEGGARLQRLGQGLV-NH₂

探索六轴EtherCAT总线伺服涂布收卷机程序的奇妙世界

*终端渲染天花板：isoneback小函数诞生记——ai终端渲染状态机设定编码序列re解析复杂实现催生我的简洁创造

【技术管理的第一次转身】从问题感知到方案落地

西门子PLC博途：三种自动流程程序写法大揭秘

Win11 临时文件清理实战