TGRS 2025 | 多维度对齐显威力！CBD 框架让遥感目标计数轻松实现跨域迁移-编程实验室

在遥感图像分析中，目标计数是一项关键任务，广泛应用于交通管理、环境监测和城市规划等领域。然而，不同数据集之间的拍摄高度、地理背景和天气条件差异，往往导致深度模型性能大幅下降。近日，Jiayi Wang等人提出的"跨域计数（CBD）"框架为解决这一难题提供了全新思路，该框架通过多维度对齐策略，实现了从有标签源域到无标签目标域的可靠知识迁移。

论文信息

题目： Counting Beyond Domains: Toward Alignment in Unsupervised Domain Adaptation in Remote Sensing Object Counting

跨域计数：面向遥感目标计数中无监督域对齐的探索

作者：Jiayi Wang, Guanchen Ding, Daiqin Yang, Zhenzhong Chen, Chang Wen Chen

源码：https://github.com/jwang-rs/CBD-pytorch

为何需要跨域对齐？

遥感图像的域差异主要体现在三个方面：

尺度差异：不同空间分辨率导致目标大小悬殊（如同一车辆在高分辨率图像中占200像素，在低分辨率中仅占20像素）
风格差异：光照、天气、传感器类型等造成的外观变化
伪标签噪声：无监督适应中生成的伪标签存在不可避免的误差

传统方法往往只关注单一维度的对齐，而CBD框架创新性地将三者统一考虑，通过三个协同模块实现全面域适应。

CBD框架的核心创新

整体架构设计

CBD框架采用模块化串联设计，三个核心模块依次作用：文本引导的尺度对齐（TGSA）→ 鲁棒语义对齐（RSA）→ 基于AdaIN的风格对齐（ASA）。这种顺序设计确保每个步骤为后续处理奠定基础，避免误差累积。

CBD框架整体流程图

1. 文本引导的尺度对齐（TGSA）

尺度差异是遥感图像最显著的域偏移之一。TGSA模块通过两步策略解决这一问题：

区域级候选感知（RCP）：利用CLIP模型生成文本-图像相似性图，通过Otsu二值化定位目标可能区域，减少复杂背景干扰
目标级尺度估计（OSE）：结合OWLv2目标定位模型，经非极大值抑制（NMS）优化边界框，计算目标平均大小并确定缩放因子

TGSA模块工作原理

通过对齐地面采样距离（GSD），使源域和目标域的目标在物理尺寸上具有可比性，大幅降低后续对齐难度。

2. 鲁棒语义对齐（RSA）

为解决伪标签噪声问题，RSA采用由粗到精的两阶段检索：

粗粒度语义检索（CSR）：利用DINOv2提取鲁棒语义特征，通过扩散检索算法（而非简单KNN）找到语义相似的候选图像块，利用数据内在流形结构提升匹配可靠性
细粒度分布检索（FDR）：基于结构相似性指数（SSIM）比对伪标签分布，筛选出最匹配的源-目标块对

RSA模块检索流程

这种双重过滤机制显著提升了配对质量，有效抑制了伪标签噪声。

3. 基于AdaIN的风格对齐（ASA）

在完成尺度和语义对齐后，ASA模块通过自适应实例归一化技术：

保留源域图像块的内容特征（确保计数准确性）
融合目标域图像块的风格特征（匹配光照、天气等属性）

使生成的密度图既保持内容真实性，又具备目标域的风格一致性，进一步缩小域间差距。

实验验证：全面超越现有方法

研究团队在5个遥感数据集（PUCPR+、CARPK、COWC、RSOC船只、NWPU船只）上进行了大量实验，结果表明：

定量性能领先

在车辆计数任务的四组跨域实验中，CBD框架的平均绝对误差（MAE）和均方根误差（RMSE）均显著低于现有方法。以CARPK→PUCPR+为例，CBD的MAE为15.2，远低于DAOT的28.7和FIDTM的34.9。

车辆计数实验结果

在船只计数任务中，CBD同样表现最佳，尤其在RSOC→NWPU设置下，MAE比MPCount降低23.6%。

船只计数实验结果

消融实验验证各模块价值

通过逐一移除模块的对比实验发现：

TGSA模块贡献最大性能提升（MAE降低约30%），证明尺度对齐的重要性
三个模块协同作用时效果最佳，验证了整体框架设计的合理性

消融实验结果

定性结果直观展示

可视化结果显示，CBD生成的密度图在复杂场景中仍能准确捕捉目标分布：

在尺度变化显著的CO2CA场景中，准确识别不同大小的车辆
在背景复杂的N2R场景中，有效区分船只与水面干扰

总结与展望

CBD框架通过创新的三阶段对齐策略，首次实现了遥感目标计数中尺度、语义和风格的全面协同对齐，为无监督域适应提供了新范式。其模块化设计不仅保证了各组件的独立优化，也通过合理的顺序安排实现了1+1>2的效果。

当然，该方法仍存在局限性：目前仅支持同类别跨域适应，在极端视角或微小目标场景下性能有待提升。未来研究可探索类别无关的适应策略，以及针对特殊场景的增强机制。

该研究为遥感图像分析提供了重要参考，其多维度对齐思路也可为其他视觉任务的域适应问题提供借鉴。代码已开源，感兴趣的读者可深入研究。

TGRS 2025 | 多维度对齐显威力！CBD 框架让遥感目标计数轻松实现跨域迁移