news 2026/6/15 14:20:58

【西安交通大学-曹相湧组-arXiv25】SegEarth-OV3:探索SAM 3在遥感图像开放词汇语义分割中的应用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【西安交通大学-曹相湧组-arXiv25】SegEarth-OV3:探索SAM 3在遥感图像开放词汇语义分割中的应用

文章:SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images

代码:https://github.com/earth-insights/SegEarth-OV-3

单位:西安交通大学


一、问题背景:遥感分割的“老大难”怎么破?

传统的遥感影像语义分割面临三大痛点:

  1. 类别受限:只能识别训练时设定的固定类别,遇到“光伏板”“受灾区域”这类新场景需求就束手无策;

  2. 定位不准:基于 CLIP 等模型的方法,容易出现边界粗糙的问题,分不清密集的小目标(比如停车场的车辆);

  3. 流程复杂:为了提升精度,很多方法需要整合多个模型,步骤繁琐且耗时,还容易出现“识别和分割脱节”的情况。

而遥感影像的特殊性——既有大片连续的“无界区域”(比如公路、荒地),又有密集分布的“可数目标”(比如建筑、船舶),更让这些问题雪上加霜。

二、方法创新:两大核心策略,让 SAM 3 适配遥感场景

SegEarth-OV3 没有对 SAM 3 模型做复杂修改,而是针对遥感影像的特点,设计了两个“轻量又高效”的适配策略:

1. 双头部融合:兼顾“大片区域”和“小目标”

SAM 3 本身有两个“拿手绝活”:一个是擅长分割单个物体的“实例头”(能精准勾勒建筑、车辆的边界),另一个是擅长覆盖大片连续区域的“语义头”(能完整标注公路、农田)。

研究者们把这两个头部的结果结合起来:用“实例头”抓小目标的精细边界,用“语义头”保大片区域的完整性,通过简单的融合规则,既不遗漏细节,又不缺失全局,完美适配遥感影像的双重特性。

2. 存在性过滤:告别“无中生有”的误判

遥感影像通常只覆盖几百米范围,但要识别的类别可能包含全球所有土地类型(比如沙漠、冰川)。大部分类别其实不在当前影像中,容易导致模型“ hallucinate ”(无中生有),比如把荒地误判为运动场。

SegEarth-OV3 利用 SAM 3 的“存在性评分”功能,自动判断“这个类别在图里是否真的存在”,过滤掉那些不可能出现的类别,大大减少误判,让结果更靠谱。

整个流程特别简单:输入影像和要识别的类别名称,模型自动完成“整合小目标→融合双头部结果→过滤无效类别”,全程无需额外训练,开箱即用!

三、实验结果:性能碾压,多项指标创新高

研究者们在 17 个遥感数据集(涵盖卫星图、航拍图、无人机图)和 3 个通用场景数据集上做了测试,结果让人惊艳:

1. 多类别分割:平均精度提升 12.7%

在 8 个遥感多类别分割数据集上,SegEarth-OV3 平均 mIoU 达到 53.4%,远超之前最好的无训练方法(40.7%),甚至超过了部分专门用遥感数据训练过的模型。在 UDD5 数据集上,精度更是达到 71.7%,超过了全监督训练的基准模型。

2. 单类别提取:效果翻倍

  • 建筑提取:在 WHU Aerial 数据集上达到 86.9% IoU,比之前的最佳结果提升 37.7%;

  • 洪水检测:在 WBS-SI 数据集上达到 75.6% IoU,提升 15.4%;

  • 道路提取:在 CHN6-CUG 数据集上达到 49.6% IoU,远超传统方法。

3. 通用场景也能打

不仅在遥感影像上表现出色,在 Pascal VOC20、Cityscapes 等通用场景数据集上,SegEarth-OV3 也刷新了纪录:Pascal VOC20 上达到 96.8% mIoU,Cityscapes 上提升 18.6%,证明了方法的通用性。

四、优势与局限:亮点突出,仍有提升空间

核心优势:

  1. 无需训练,开箱即用:不用标注海量遥感数据,输入类别名称就能识别,大大降低使用成本;

  2. 精度超高,边界精准:完美解决“小目标密集+大片区域”的分割难题,误判率极低;

  3. 流程简单,效率更高:无需整合多个模型,一个框架搞定分割和识别,运行更高效。

现存局限:

  1. 对极特殊的遥感场景(比如高分辨率冰雪覆盖区、云雾遮挡区)的适配还需优化;

  2. 文本提示的设计(比如是否用同义词)目前靠人工调整,尚未实现自动化优化;

  3. 处理超大分辨率影像(比如超过 10 万像素)时,速度还有提升空间。

五、一句话总结

SegEarth-OV3 基于 SAM 3 模型,用“双头部融合+存在性过滤”两大简单策略,让遥感影像的开放词汇语义分割实现“无需训练、精准识别、开箱即用”,既突破了传统方法的类别限制和精度瓶颈,又简化了流程,为城市规划、灾害监测等领域提供了更高效的工具!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 5:15:26

高速波特率(4Mbps)配置方案:STM32实战应用

如何让STM32跑出4Mbps串口?实战避坑全记录最近在做一个工业边缘网关项目,主控是STM32F407,需要把传感器阵列采集的大量数据实时转发给Wi-Fi模块上传云端。原本用115200bps串口通信,结果发现每传1KB就要87ms——系统刚启动就卡成PP…

作者头像 李华
网站建设 2026/6/14 11:32:55

Keil+C51联合调试在Proteus中的实战案例解析

从零开始掌握Keil与Proteus联合调试:一个LED闪烁案例的深度实战你有没有过这样的经历?写完一段单片机代码,烧进芯片后却发现外设毫无反应。是程序逻辑错了?还是电路焊反了?又或者晶振没起振?一个个排查下来…

作者头像 李华
网站建设 2026/6/6 21:12:03

银行智能投顾服务:投资建议生成模型通过TensorRT快速响应

银行智能投顾服务:投资建议生成模型通过TensorRT快速响应 在手机上轻点几下,用户就能获得量身定制的资产配置方案——这正是现代银行智能投顾系统带来的体验。然而,看似简单的交互背后,隐藏着巨大的技术挑战:如何让一个…

作者头像 李华
网站建设 2026/6/12 16:43:17

工控场景下STLink驱动安装失败原因全面讲解

工控现场踩过的坑:STLink驱动装不上?一文讲透根源与解法 你有没有遇到过这样的场景—— 产线批量烧录固件,八块PLC板子整齐插好,启动脚本后却发现一半设备“失联”; 调试关键节点时,Keil突然报错&#xf…

作者头像 李华
网站建设 2026/6/12 15:31:45

水资源管理平台:水质预测模型借助TensorRT持续推演

水资源管理平台:水质预测模型借助TensorRT持续推演 在城市水务系统日益复杂的今天,一次突发的工业排污事件可能在数小时内污染整条河流。传统的水质监测依赖人工采样和实验室分析,等结果出来时,污染早已扩散。这种“事后响应”模式…

作者头像 李华