news 2026/6/14 20:01:37

【武汉大学-AAAI26】S5: 遥感中的可扩展半监督语义分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【武汉大学-AAAI26】S5: 遥感中的可扩展半监督语义分割

文章:S5: Scalable Semi-Supervised Semantic Segmentation in Remote Sensing

代码:https://github.com/MiliLab/S5

单位:武汉大学


一、问题背景:遥感分析的“标注困境”与“规模瓶颈”

遥感图像语义分割是图像理解的核心任务,目标是给图像中每个像素精准分类,从而自动识别土地覆盖信息。但传统方法存在两大难题:

  • 标注成本高:像素级人工标注耗时耗力,高质量训练样本获取难度大,严重限制了模型性能;

  • 数据利用率低:地球上每天产生海量遥感影像,但大多因缺乏标注而被闲置,现有半监督学习方法(S4)又受限于小规模数据集和模型,无法发挥海量数据的价值;

  • 模型通用性差:现有遥感基础模型(RSFMs)要么依赖稀缺的标注数据,要么难以适配多个不同场景的任务,参数冗余且部署效率低。

这些问题导致遥感图像分析的规模化应用一直难以推进,亟需一种能高效利用无标注数据、兼顾性能与通用性的新方案。

二、方法创新:S5框架的三大核心设计

针对上述痛点,研究团队提出了S5(Scalable Semi-Supervised Semantic Segmentation)框架,通过“数据集构建-模型预训练-多任务微调”的全流程创新,实现了遥感半监督学习的规模化突破:

1. 百万级数据集RS4P-1M:挑出来的“优质数据”

要训好模型,先要有好数据。S5整合了MillionAID、SAMRS等公开数据集,通过“低熵过滤+多样性扩展”策略,筛选出100万张高质量无标注遥感图像,构建了RS4P-1M数据集:

  • 低熵过滤:优先选择模型预测“有把握”的图像,减少噪声数据影响;

  • 多样性扩展:通过聚类算法确保图像覆盖城市、农田、海洋等不同地理场景,避免语义冗余。 这一数据集既保证了伪标签质量,又兼顾了场景多样性,为后续训练打下坚实基础。

2. S4P预训练:让模型“吃透”无标注数据

S5将半监督学习(S4)升级为规模化预训练范式(S4P),采用高效的FixMatch算法:

  • 对无标注图像做两种处理:轻度增强(缩放、翻转)和重度增强(颜色调整、模糊、裁剪);

  • 让模型对同一张图的两种版本预测结果保持一致,同时用少量标注数据纠正偏差,确保学习到的特征既通用又精准;

  • 模型初始化采用MAE预训练权重,进一步提升特征提取能力。

3. MoE-MDF微调:一个模型搞定多个任务

针对传统模型“一个数据集训一个模型”的低效问题,S5提出基于“专家混合(MoE)”的多数据集微调策略:

  • 共享专家:学习所有遥感任务的通用规律(如“道路多为长条状”);

  • 专属专家:针对不同数据集的特点(如城市 vs 农村场景)适配特定特征;

  • 无需额外参数和推理延迟,就能让一个模型高效适配多个语义分割和目标检测任务,大幅降低部署成本。

三、实验结果:多项任务刷新SOTA,性能与效率双优

研究团队在6个主流遥感 benchmark(4个语义分割+2个目标检测)上做了全面测试,S5框架的表现堪称“惊艳”:

1. 语义分割任务

在Vaihingen、Potsdam等数据集上,S5的ViT-H模型mIoU(平均交并比)最高达到80.85%,OpenEarthMap数据集上更是突破70%,远超RVSA、SAMRS等现有模型;

2. 目标检测任务

在DIOR-R、DOTA-v2.0数据集上,S5的ViT-L模型mAP(平均精度)达到75.21%,比同类模型参数少一半却性能更优,对飞机、桥梁等旋转目标的检测精度显著提升;

3. 参数效率突出

S5的ViT-L模型处理多数据集时,分割参数仅为现有模型的1/3,却能保持更优性能,兼顾了“轻量性”和“强性能”;

4. 泛化能力超强

不仅在遥感图像任务中表现出色,还能迁移到自然图像分割场景,在Cityscapes、COCO等数据集上比MAE预训练模型提升2%以上,证明了其跨领域适配能力。

四、优势与局限:客观看待S5的价值与未来

核心优势

  • 数据利用高效:首次将半监督学习规模化应用于遥感领域,激活了海量无标注数据的价值,大幅降低标注成本;

  • 模型通用灵活:MoE-MDF策略让一个模型适配多个任务,参数冗余少,部署效率高;

  • 性能全面领先:在多个主流 benchmark 上刷新SOTA,兼顾精度与速度,实用性强;

  • 开源共享:后续将公开数据集、代码和模型,助力遥感AI领域的整体发展。

现存局限

  • 数据集依赖现有资源:RS4P-1M基于公开数据集构建,部分场景的覆盖可能仍有不足;

  • 伪标签存在噪声:尽管经过筛选,无标注数据生成的伪标签仍可能包含少量错误,对极端场景的识别精度有一定影响;

  • 训练成本较高:百万级数据集的预训练需要较多计算资源,对中小团队的门槛较高。

五、一句话总结

S5框架通过百万级优质数据集、规模化半监督预训练和多任务高效微调的创新组合,首次实现了遥感半监督学习的规模化应用,让海量无标注遥感数据“物尽其用”,为遥感图像分析的低成本、高通用、规模化推进提供了全新解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 16:00:34

菜鸟小师妹对着无刷电机一脸迷茫,老王神秘兮兮的递过来一颗芯片......

大家好,我是刚加入芯片之家研发部的小美。我的第一个任务就是负责一个新的无刷电机项目。当我看到堆满桌子的各种分立元件、MCU、驱动IC、运放 、LDO、MOS时,头都大了。硬件电路板画得密密麻麻,软件调试更加抓狂。就在我一筹莫展之际&#xf…

作者头像 李华
网站建设 2026/6/14 6:33:54

4、Linux 文件操作命令全解析

Linux 文件操作命令全解析 在 Linux 系统中,文件和目录的操作是日常使用的基础。本文将详细介绍几个常用的文件操作命令,包括复制、移动、重命名和删除等操作,以及它们的一些实用选项,帮助你更好地管理文件和目录。 1. 详细复制文件(cp -v) 在使用 cp 命令复制文件时…

作者头像 李华
网站建设 2026/6/15 4:40:17

老旧电脑硬件升级万字指南:焕发新生,性能飞跃

引言:为何升级而非更换?在电子设备快速迭代的今天,许多人面临着一个选择:是花费数千元购买新电脑,还是以更少的成本升级现有设备?对于预算有限、注重性价比或对现有设备有情感连接的用户来说,硬…

作者头像 李华
网站建设 2026/6/12 14:47:22

42、调试器使用指南:深入探索与实践

调试器使用指南:深入探索与实践 1. 调试器启动与命令概述 在本调试教程中,假定调试器是通过命令行标志 -D 1 启动的。调试器的命令简洁且实用,以下是这些命令的详细介绍: | 命令 | 描述 | | ---- | ---- | | s | 进入过程 | | n, N | 跳过过程 | | r | 从过程返回…

作者头像 李华
网站建设 2026/6/12 1:29:20

44、交互式编程中的终端模拟与事件处理

交互式编程中的终端模拟与事件处理 在交互式编程的世界里,用户交互和进程控制是至关重要的环节。本文将详细介绍在交互式环境中,如何实现用户选择功能、处理事件循环、运用 expect 相关命令,以及构建终端模拟器。 用户选择功能 在程序中,我们常常需要让用户选择特定的…

作者头像 李华
网站建设 2026/6/13 13:16:55

EmotiVoice与VITS、XTTS等模型的横向对比分析

EmotiVoice与VITS、XTTS等模型的横向对比分析 在虚拟主播深夜直播带货、游戏NPC因剧情转折突然语气一变、AI有声书自动为不同角色切换情绪朗读的今天,我们早已告别了TTS“机械女声”的时代。语音合成不再只是“把字念出来”,而是要传递情绪、塑造人格、建…

作者头像 李华