【南洋理工-文碧汉-arXiv26】RSGround-R1:通过空间推理重新思考遥感视觉定位-编程实验室

文章：RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

代码：暂无

单位：南洋理工大学电气工程与电子工程学院、上海财经大学计算与经济交叉学科教育部重点实验室

传统视觉定位（比如在日常照片中找东西）靠颜色、纹理等“外貌特征”就能实现，但遥感图像的特殊性让任务难度陡增：

空间尺度极大，目标模糊且不唯一：航拍图动辄覆盖数平方公里，目标物体（如车辆、小型运动场）占比极小，且同类物体密集分布，单靠视觉特征难以区分；
依赖空间关系描述，AI推理能力不足：描述目标时几乎不用“红色”“圆形”等语义属性，反而依赖“左下角”“在XX右侧”等位置关系，但现有多模态大模型（MLLMs）普遍缺乏精准的空间推理能力，常出现定位偏差或逻辑混乱。

更关键的是，现有模型常用的“交并比（IoU）奖励机制”存在缺陷：如果预测位置与实际目标完全不重叠，模型会得到“零分”，却无法判断自己是“差一点”还是“差很远”，难以逐步优化；同时，模型对同一描述的多次预测结果可能差异巨大，稳定性极差。

针对这些痛点，研究团队提出了RSGround-R1框架，通过“基础训练+强化优化+稳定性约束”的三阶段设计，让AI真正学会“空间思考”：

就像教孩子找东西要先找参照物、再判断相对位置，团队构建了包含3万条样本的“思维链（CoT）数据集”。每条样本都附带详细推理过程，比如描述“左下角的风车”，会明确标注“先定位图像整体区域→锁定‘左下角’范围→识别风车目标”的步骤，让模型摆脱“直接猜坐标”的盲目性，建立结构化的空间推理逻辑。

摒弃传统IoU的“非黑即白”奖励，设计了基于高斯核的“位置奖励（R_pos）”：预测位置越靠近目标，得分越高，哪怕没有完全重叠也能获得正向反馈。比如预测框离目标10像素比离100像素得分高，让模型能像“瞄准靶心”一样逐步微调位置，即使从完全错误的起点也能逐步逼近正确答案。

为解决多次预测结果分散的问题，团队引入了空间一致性约束：通过计算同一查询下多次预测的“平均准确率”和“方差”，对预测分散的样本赋予更高训练权重，引导模型优先学习稳定的定位逻辑，避免反复横跳，提升结果的可靠性。

在DIOR-RSVG、VRSBench-VG等主流遥感定位数据集上，RSGround-R1表现亮眼：

核心指标全面领先：在DIOR-RSVG数据集上，定位准确率（Acc@0.5）达到71.81%，比单纯使用强化学习（GRPO）的模型高出5%以上，且仅用40%的训练数据、训练0.4个epoch就实现了这一效果；
泛化能力超强：在无数据重叠的FAST-T、SOTA-T等跨域数据集上，依然保持领先优势，尤其是在SOTA-T数据集上，位置推理稳定性提升显著，证明模型学到的空间逻辑可迁移；
组件效果明确：消融实验显示，思维链训练（CoT-SFT）、位置奖励（R_pos）、空间一致性约束（L_SC）分别能带来3%、1.5%、3.3%的准确率提升，三者协同作用实现最优效果。

从定性结果看，RSGround-R1能输出清晰的推理轨迹，而传统模型常直接给出坐标，缺乏逻辑支撑，且定位偏差明显（如图4所示，RSGround-R1预测框与真实目标几乎完全重叠，而基线模型偏差显著）。