文章:SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images
代码:https://github.com/earth-insights/SegEarth-R2
单位:西安交通大学
Attention:The LaSeRS dataset will be used as part of theAIRS 2026contest, thus its release is delayed. Stay tuned! Important information will be updated on https://github.com/earth-insights/SegEarth-R2
一、问题背景:现有AI“听不懂”复杂遥感指令
遥感图像的语言引导分割技术,是灾害响应、环境监测、城市规划等领域的核心支撑,它需要AI将自然语言指令精准映射到像素级的目标区域。但长期以来,这项技术面临四大关键瓶颈:
粒度层级复杂:从“飞机”这类大类到“飞机发动机”等部件级细分,目标尺度跨度极大,现有模型难以兼顾;
多目标并行难:单一指令需同时识别多个目标(如“找避难所+避危险建筑”),传统模型只能逐一处理;
隐含意图难推断:指令常包含隐含逻辑(如“地震逃生方向”需推断“开阔地=安全”),而非直接标注类别;
语言风格多变:指令可长可短、可详可略,模型鲁棒性不足。
更关键的是,现有数据集多聚焦简单单目标场景,缺乏覆盖上述复杂维度的训练资源,导致AI在真实场景中“水土不服”,难以落地实用。
二、方法创新:两大核心突破,兼顾全面性与高效性
为破解上述难题,研究团队推出“数据集+模型”的完整解决方案,双管齐下突破技术瓶颈:
1. 首个全能数据集LaSeRS:覆盖四大复杂维度
LaSeRS是首个专门针对遥感复杂语言引导分割的大规模数据集,堪称AI的“全能训练题库”:
规模庞大:包含40396张高质量像素掩码、30830组问答对,覆盖122类目标,是现有数据集类别数量的5倍以上;
维度全面:系统涵盖层级粒度(概念+分割双层级)、多目标、推理需求(显式+隐式)、语言变异性(长+短指令)四大核心场景;
质量过硬:通过“自动筛选+人工审核”的半自动化流程构建,既保证标注精度(含掩码、边界框等多类型标注),又确保指令与场景的逻辑一致性。
2. 高效模型SegEarth-R2:精准应对复杂场景
针对LaSeRS数据集的挑战,研究团队设计了30亿参数的MLLM架构SegEarth-R2,核心亮点的两大创新机制:
空间注意力监督:解决小目标/部件级分割不准的痛点,通过直接监督模型内部的视觉-语言注意力映射,强制模型聚焦目标区域,避免细节丢失;
灵活分割查询机制:摒弃传统“先生成候选再筛选”的低效模式,通过动态输出[SEG]令牌,直接适配单/多目标场景,既提升速度又减少冗余计算。
模型整体架构简洁高效,由视觉编码器提取多尺度特征,LLM负责指令理解与推理,分割头基于[SEG]令牌生成精准掩码,实现“理解-推理-分割”端到端完成。
三、实验结果:刷新多项纪录,性能全面领先
在LaSeRS及三大主流遥感基准测试(RRSIS-D、RefSegRS、EarthReason)中,SegEarth-R2表现惊艳:
LaSeRS数据集上:平均gIoU/cIoU达57.2/67.9,在部件级分割任务中以20个百分点的优势超越第二名,单目标任务排名第一,多目标任务位列第二(仅落后80亿参数模型);
跨数据集泛化:在RRSIS-D测试集gIoU达67.9,RefSegRS测试集达74.8,EarthReason推理分割平均得分70.9,均刷新当前最优纪录;
效率优势显著:仅30亿参数,比70亿、130亿参数的竞品更轻巧,推理时间减少34.1%,计算成本降低27.4%,兼顾性能与部署可行性。
四、优势与局限:看清技术落地的潜力与方向
核心优势
场景覆盖最全:首次实现四大复杂维度的全覆盖,真正适配真实遥感应用需求;
性价比突出:参数规模小但性能领先,降低算力门槛,更适合实际部署;
泛化能力强:在多个公开基准上均表现优异,证明模型的通用性与稳健性;
开源开放:数据集与代码均已公开,为行业提供高质量基准与工具。
现存局限
多目标场景下,相比80亿参数的GeoPixel模型仍有差距,复杂推理能力受参数规模限制;
对极端长尾分布的细分类别,分割精度仍有提升空间;
模型推理速度虽优于传统方法,但在实时性要求极高的场景(如灾害应急响应),仍需进一步优化。
五、一句话总结
LaSeRS数据集填补了遥感复杂语言引导分割的训练资源空白,SegEarth-R2模型以两大创新机制实现“精准+高效”的双重突破,共同推动遥感AI从“听懂简单指令”迈向“应对复杂真实场景”,为灾害救援、城市规划等领域提供更实用的技术支撑。