news 2026/5/1 5:01:24

TGRS 2025 | 多维度对齐显威力!CBD 框架让遥感目标计数轻松实现跨域迁移

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TGRS 2025 | 多维度对齐显威力!CBD 框架让遥感目标计数轻松实现跨域迁移

在遥感图像分析中,目标计数是一项关键任务,广泛应用于交通管理、环境监测和城市规划等领域。然而,不同数据集之间的拍摄高度、地理背景和天气条件差异,往往导致深度模型性能大幅下降。近日,Jiayi Wang等人提出的"跨域计数(CBD)"框架为解决这一难题提供了全新思路,该框架通过多维度对齐策略,实现了从有标签源域到无标签目标域的可靠知识迁移。

论文信息

题目: Counting Beyond Domains: Toward Alignment in Unsupervised Domain Adaptation in Remote Sensing Object Counting
跨域计数:面向遥感目标计数中无监督域对齐的探索
作者:Jiayi Wang, Guanchen Ding, Daiqin Yang, Zhenzhong Chen, Chang Wen Chen
源码:https://github.com/jwang-rs/CBD-pytorch

为何需要跨域对齐?

遥感图像的域差异主要体现在三个方面:

  • 尺度差异:不同空间分辨率导致目标大小悬殊(如同一车辆在高分辨率图像中占200像素,在低分辨率中仅占20像素)

  • 风格差异:光照、天气、传感器类型等造成的外观变化

  • 伪标签噪声:无监督适应中生成的伪标签存在不可避免的误差

传统方法往往只关注单一维度的对齐,而CBD框架创新性地将三者统一考虑,通过三个协同模块实现全面域适应。

CBD框架的核心创新

整体架构设计

CBD框架采用模块化串联设计,三个核心模块依次作用:文本引导的尺度对齐(TGSA)→ 鲁棒语义对齐(RSA)→ 基于AdaIN的风格对齐(ASA)。这种顺序设计确保每个步骤为后续处理奠定基础,避免误差累积。

CBD框架整体流程图

1. 文本引导的尺度对齐(TGSA)

尺度差异是遥感图像最显著的域偏移之一。TGSA模块通过两步策略解决这一问题:

  • 区域级候选感知(RCP):利用CLIP模型生成文本-图像相似性图,通过Otsu二值化定位目标可能区域,减少复杂背景干扰

  • 目标级尺度估计(OSE):结合OWLv2目标定位模型,经非极大值抑制(NMS)优化边界框,计算目标平均大小并确定缩放因子

TGSA模块工作原理

通过对齐地面采样距离(GSD),使源域和目标域的目标在物理尺寸上具有可比性,大幅降低后续对齐难度。

2. 鲁棒语义对齐(RSA)

为解决伪标签噪声问题,RSA采用由粗到精的两阶段检索:

  • 粗粒度语义检索(CSR):利用DINOv2提取鲁棒语义特征,通过扩散检索算法(而非简单KNN)找到语义相似的候选图像块,利用数据内在流形结构提升匹配可靠性

  • 细粒度分布检索(FDR):基于结构相似性指数(SSIM)比对伪标签分布,筛选出最匹配的源-目标块对

RSA模块检索流程

这种双重过滤机制显著提升了配对质量,有效抑制了伪标签噪声。

3. 基于AdaIN的风格对齐(ASA)

在完成尺度和语义对齐后,ASA模块通过自适应实例归一化技术:

  • 保留源域图像块的内容特征(确保计数准确性)

  • 融合目标域图像块的风格特征(匹配光照、天气等属性)

使生成的密度图既保持内容真实性,又具备目标域的风格一致性,进一步缩小域间差距。

实验验证:全面超越现有方法

研究团队在5个遥感数据集(PUCPR+、CARPK、COWC、RSOC船只、NWPU船只)上进行了大量实验,结果表明:

定量性能领先

在车辆计数任务的四组跨域实验中,CBD框架的平均绝对误差(MAE)和均方根误差(RMSE)均显著低于现有方法。以CARPK→PUCPR+为例,CBD的MAE为15.2,远低于DAOT的28.7和FIDTM的34.9。

车辆计数实验结果

在船只计数任务中,CBD同样表现最佳,尤其在RSOC→NWPU设置下,MAE比MPCount降低23.6%。

船只计数实验结果

消融实验验证各模块价值

通过逐一移除模块的对比实验发现:

  • TGSA模块贡献最大性能提升(MAE降低约30%),证明尺度对齐的重要性

  • 三个模块协同作用时效果最佳,验证了整体框架设计的合理性

消融实验结果

定性结果直观展示

可视化结果显示,CBD生成的密度图在复杂场景中仍能准确捕捉目标分布:

  • 在尺度变化显著的CO2CA场景中,准确识别不同大小的车辆

  • 在背景复杂的N2R场景中,有效区分船只与水面干扰

总结与展望

CBD框架通过创新的三阶段对齐策略,首次实现了遥感目标计数中尺度、语义和风格的全面协同对齐,为无监督域适应提供了新范式。其模块化设计不仅保证了各组件的独立优化,也通过合理的顺序安排实现了1+1>2的效果。

当然,该方法仍存在局限性:目前仅支持同类别跨域适应,在极端视角或微小目标场景下性能有待提升。未来研究可探索类别无关的适应策略,以及针对特殊场景的增强机制。

该研究为遥感图像分析提供了重要参考,其多维度对齐思路也可为其他视觉任务的域适应问题提供借鉴。代码已开源,感兴趣的读者可深入研究。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 18:08:08

27、XML 序列化与 LINQ 实战应用

XML 序列化与 LINQ 实战应用 1. XML 序列化基础 XML 序列化是将对象转换为 XML 格式的过程,反之则是反序列化。以下是一个简单的 XML 序列化示例: <?xml version="1.0" encoding="utf-16"?> <Customer xmlns:xsi="http://www.w3.org…

作者头像 李华
网站建设 2026/5/1 5:00:54

31、创建ASP.NET Web表单:从基础到数据绑定的全面指南

创建ASP.NET Web表单:从基础到数据绑定的全面指南 1. Web表单生命周期 Web表单的生命周期包含多个关键阶段,每个阶段都有其特定的任务和功能。以下是主要阶段及其功能的详细介绍: | 阶段 | 功能描述 | | — | — | | Load | 必要时调用 CreateChildControls() 方法来…

作者头像 李华
网站建设 2026/4/21 1:12:01

36、深入理解反射与多线程编程

深入理解反射与多线程编程 在编程领域,反射和多线程是两项强大且实用的技术。反射允许在运行时动态地获取类型信息并调用方法,而多线程则能让程序同时执行多个任务,提高程序的性能和响应能力。 反射与后期绑定 反射是一种在运行时获取类型信息并操作对象的机制。后期绑定…

作者头像 李华
网站建设 2026/4/28 2:18:54

GPT-SoVITS训练过程中loss波动原因分析与解决办法

GPT-SoVITS训练过程中loss波动原因分析与解决办法 在当前个性化语音合成需求爆发的背景下&#xff0c;仅用几分钟语音数据就能“克隆”出高度拟人化音色的技术正变得炙手可热。GPT-SoVITS 作为中文社区中最活跃的开源语音克隆项目之一&#xff0c;凭借其“小样本、高保真”的特…

作者头像 李华
网站建设 2026/4/19 15:18:09

42、.NET与COM编程:从控件导入到指针应用

.NET与COM编程:从控件导入到指针应用 在软件开发领域,很多公司在过去投入了大量资源开发和购买COM组件与ActiveX控件。如今,.NET为这些遗留组件提供了支持,让它们能够在.NET应用程序中继续发挥作用。 1. 导入ActiveX控件 ActiveX控件是一种COM组件,通常可以添加到窗体中…

作者头像 李华
网站建设 2026/4/26 15:19:45

GPT-SoVITS能否生成歌唱语音?初步尝试与局限性说明

GPT-SoVITS能否生成歌唱语音&#xff1f;初步尝试与局限性说明 在AI语音技术飞速发展的今天&#xff0c;我们已经可以轻松用几分钟的录音“克隆”出一个人的声音&#xff0c;用于配音、虚拟主播甚至有声书朗读。而当这项能力被推向极致时&#xff0c;一个问题自然浮现&#xff…

作者头像 李华