news 2026/5/1 5:49:10

【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

文章:SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images

代码:https://github.com/earth-insights/SegEarth-R2

单位:西安交通大学



Attention:The LaSeRS dataset will be used as part of theAIRS 2026contest, thus its release is delayed. Stay tuned! Important information will be updated on https://github.com/earth-insights/SegEarth-R2

一、问题背景:现有AI“听不懂”复杂遥感指令

遥感图像的语言引导分割技术,是灾害响应、环境监测、城市规划等领域的核心支撑,它需要AI将自然语言指令精准映射到像素级的目标区域。但长期以来,这项技术面临四大关键瓶颈:

  1. 粒度层级复杂:从“飞机”这类大类到“飞机发动机”等部件级细分,目标尺度跨度极大,现有模型难以兼顾;

  2. 多目标并行难:单一指令需同时识别多个目标(如“找避难所+避危险建筑”),传统模型只能逐一处理;

  3. 隐含意图难推断:指令常包含隐含逻辑(如“地震逃生方向”需推断“开阔地=安全”),而非直接标注类别;

  4. 语言风格多变:指令可长可短、可详可略,模型鲁棒性不足。

更关键的是,现有数据集多聚焦简单单目标场景,缺乏覆盖上述复杂维度的训练资源,导致AI在真实场景中“水土不服”,难以落地实用。

二、方法创新:两大核心突破,兼顾全面性与高效性

为破解上述难题,研究团队推出“数据集+模型”的完整解决方案,双管齐下突破技术瓶颈:

1. 首个全能数据集LaSeRS:覆盖四大复杂维度

LaSeRS是首个专门针对遥感复杂语言引导分割的大规模数据集,堪称AI的“全能训练题库”:

  • 规模庞大:包含40396张高质量像素掩码、30830组问答对,覆盖122类目标,是现有数据集类别数量的5倍以上;

  • 维度全面:系统涵盖层级粒度(概念+分割双层级)、多目标、推理需求(显式+隐式)、语言变异性(长+短指令)四大核心场景;

  • 质量过硬:通过“自动筛选+人工审核”的半自动化流程构建,既保证标注精度(含掩码、边界框等多类型标注),又确保指令与场景的逻辑一致性。

2. 高效模型SegEarth-R2:精准应对复杂场景

针对LaSeRS数据集的挑战,研究团队设计了30亿参数的MLLM架构SegEarth-R2,核心亮点的两大创新机制:

  • 空间注意力监督:解决小目标/部件级分割不准的痛点,通过直接监督模型内部的视觉-语言注意力映射,强制模型聚焦目标区域,避免细节丢失;

  • 灵活分割查询机制:摒弃传统“先生成候选再筛选”的低效模式,通过动态输出[SEG]令牌,直接适配单/多目标场景,既提升速度又减少冗余计算。

模型整体架构简洁高效,由视觉编码器提取多尺度特征,LLM负责指令理解与推理,分割头基于[SEG]令牌生成精准掩码,实现“理解-推理-分割”端到端完成。

三、实验结果:刷新多项纪录,性能全面领先

在LaSeRS及三大主流遥感基准测试(RRSIS-D、RefSegRS、EarthReason)中,SegEarth-R2表现惊艳:

  1. LaSeRS数据集上:平均gIoU/cIoU达57.2/67.9,在部件级分割任务中以20个百分点的优势超越第二名,单目标任务排名第一,多目标任务位列第二(仅落后80亿参数模型);

  2. 跨数据集泛化:在RRSIS-D测试集gIoU达67.9,RefSegRS测试集达74.8,EarthReason推理分割平均得分70.9,均刷新当前最优纪录;

  3. 效率优势显著:仅30亿参数,比70亿、130亿参数的竞品更轻巧,推理时间减少34.1%,计算成本降低27.4%,兼顾性能与部署可行性。

四、优势与局限:看清技术落地的潜力与方向

核心优势

  1. 场景覆盖最全:首次实现四大复杂维度的全覆盖,真正适配真实遥感应用需求;

  2. 性价比突出:参数规模小但性能领先,降低算力门槛,更适合实际部署;

  3. 泛化能力强:在多个公开基准上均表现优异,证明模型的通用性与稳健性;

  4. 开源开放:数据集与代码均已公开,为行业提供高质量基准与工具。

现存局限

  1. 多目标场景下,相比80亿参数的GeoPixel模型仍有差距,复杂推理能力受参数规模限制;

  2. 对极端长尾分布的细分类别,分割精度仍有提升空间;

  3. 模型推理速度虽优于传统方法,但在实时性要求极高的场景(如灾害应急响应),仍需进一步优化。

五、一句话总结

LaSeRS数据集填补了遥感复杂语言引导分割的训练资源空白,SegEarth-R2模型以两大创新机制实现“精准+高效”的双重突破,共同推动遥感AI从“听懂简单指令”迈向“应对复杂真实场景”,为灾害救援、城市规划等领域提供更实用的技术支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 0:47:06

15、Drupal主题开发全攻略

Drupal主题开发全攻略 1. 主题调试工具 在图形用户界面中创建可视化表示时,需要一套与编写代码、开发和测试算法不同的调试工具。虽然在主题开发的某些部分仍可使用Visual Studio中的单步调试器,但可能更希望确切了解发送到浏览器的代码类型,以便进行调整,使其符合预期。…

作者头像 李华
网站建设 2026/4/28 22:16:32

如何用GPT-SoVITS生成儿童语音?年龄特征控制技巧分享

如何用 GPT-SoVITS 生成儿童语音?音色与年龄特征的精准控制实战指南 在智能教育、动画配音和儿童陪伴机器人日益普及的今天,一个真实自然、富有“童趣”的 AI 声音,往往能极大提升产品的亲和力与用户体验。然而,大多数现成的文本转…

作者头像 李华
网站建设 2026/4/29 1:53:33

33、Git远程操作与冲突解决全解析

Git远程操作与冲突解决全解析 1. 远程仓库同步与拉取操作 在Git中,当我们从远程仓库获取更新后,需要同步本地分支。通过合并操作,我们可以让本地仓库、本地分支以及工作目录中的文件都拥有来自远程的最新更新。例如,在一次合并前后的本地仓库状态变化如下: origin/mas…

作者头像 李华
网站建设 2026/5/1 6:51:10

38、Git 中工作树、子模块和子树的使用指南

Git 中工作树、子模块和子树的使用指南 在本地环境中管理多个工作区和仓库实例时,Git 提供了多种实用功能,如工作树(Worktrees)、子模块(Submodules)和子树(Subtrees)。下面将详细介绍这些功能的使用方法。 1. 添加子树 在 Git 中添加子项目作为子树,最基本的操作是…

作者头像 李华
网站建设 2026/5/1 6:54:48

基于SEGGER工具链的jscope使用教程核心要点

如何用 jScope 实现嵌入式系统的“软件示波器”级调试? 在调试电机控制算法时,你是否曾为无法实时观察 PID 输出波动而反复插拔示波器探头? 在优化滤波器参数时,是否因串口打印延迟太高而错过关键瞬态响应? 如果你手…

作者头像 李华
网站建设 2026/5/1 5:47:19

语音风格迁移实验:用GPT-SoVITS模仿新闻播报与讲故事语气

语音风格迁移实验:用GPT-SoVITS模仿新闻播报与讲故事语气 在今天的智能音频世界里,你有没有想过——一段只有1分钟的录音,就能让AI“学会”你的声音,并用它来讲故事、读新闻,甚至说外语?这不再是科幻电影的…

作者头像 李华