news 2026/6/15 17:09:53

【南洋理工-文碧汉-arXiv26】RSGround-R1:通过空间推理重新思考遥感视觉定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【南洋理工-文碧汉-arXiv26】RSGround-R1:通过空间推理重新思考遥感视觉定位

文章:RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

代码:暂无

单位:南洋理工大学电气工程与电子工程学院、上海财经大学计算与经济交叉学科教育部重点实验室


一、问题背景:遥感定位的两大核心难题

传统视觉定位(比如在日常照片中找东西)靠颜色、纹理等“外貌特征”就能实现,但遥感图像的特殊性让任务难度陡增:

  1. 空间尺度极大,目标模糊且不唯一:航拍图动辄覆盖数平方公里,目标物体(如车辆、小型运动场)占比极小,且同类物体密集分布,单靠视觉特征难以区分;

  2. 依赖空间关系描述,AI推理能力不足:描述目标时几乎不用“红色”“圆形”等语义属性,反而依赖“左下角”“在XX右侧”等位置关系,但现有多模态大模型(MLLMs)普遍缺乏精准的空间推理能力,常出现定位偏差或逻辑混乱。

更关键的是,现有模型常用的“交并比(IoU)奖励机制”存在缺陷:如果预测位置与实际目标完全不重叠,模型会得到“零分”,却无法判断自己是“差一点”还是“差很远”,难以逐步优化;同时,模型对同一描述的多次预测结果可能差异巨大,稳定性极差。

二、方法创新:三步打造空间推理“强心脏”

针对这些痛点,研究团队提出了RSGround-R1框架,通过“基础训练+强化优化+稳定性约束”的三阶段设计,让AI真正学会“空间思考”:

1. Chain-of-Thought SFT:教AI“一步步推理位置”

就像教孩子找东西要先找参照物、再判断相对位置,团队构建了包含3万条样本的“思维链(CoT)数据集”。每条样本都附带详细推理过程,比如描述“左下角的风车”,会明确标注“先定位图像整体区域→锁定‘左下角’范围→识别风车目标”的步骤,让模型摆脱“直接猜坐标”的盲目性,建立结构化的空间推理逻辑。

2. 位置奖励机制:给AI“渐进式反馈”

摒弃传统IoU的“非黑即白”奖励,设计了基于高斯核的“位置奖励(R_pos)”:预测位置越靠近目标,得分越高,哪怕没有完全重叠也能获得正向反馈。比如预测框离目标10像素比离100像素得分高,让模型能像“瞄准靶心”一样逐步微调位置,即使从完全错误的起点也能逐步逼近正确答案。

3. 空间一致性优化:让AI“预测不跑偏”

为解决多次预测结果分散的问题,团队引入了空间一致性约束:通过计算同一查询下多次预测的“平均准确率”和“方差”,对预测分散的样本赋予更高训练权重,引导模型优先学习稳定的定位逻辑,避免反复横跳,提升结果的可靠性。

三、实验结果:多项指标刷新SOTA

在DIOR-RSVG、VRSBench-VG等主流遥感定位数据集上,RSGround-R1表现亮眼:

  • 核心指标全面领先:在DIOR-RSVG数据集上,定位准确率(Acc@0.5)达到71.81%,比单纯使用强化学习(GRPO)的模型高出5%以上,且仅用40%的训练数据、训练0.4个epoch就实现了这一效果;

  • 泛化能力超强:在无数据重叠的FAST-T、SOTA-T等跨域数据集上,依然保持领先优势,尤其是在SOTA-T数据集上,位置推理稳定性提升显著,证明模型学到的空间逻辑可迁移;

  • 组件效果明确:消融实验显示,思维链训练(CoT-SFT)、位置奖励(R_pos)、空间一致性约束(L_SC)分别能带来3%、1.5%、3.3%的准确率提升,三者协同作用实现最优效果。

从定性结果看,RSGround-R1能输出清晰的推理轨迹,而传统模型常直接给出坐标,缺乏逻辑支撑,且定位偏差明显(如图4所示,RSGround-R1预测框与真实目标几乎完全重叠,而基线模型偏差显著)。

四、优势与局限

核心优势

  1. 数据效率高:仅用40%训练数据和少量训练轮次,就能超越全量数据训练的传统模型;

  2. 可解释性强:思维链推理过程透明,不仅能定位目标,还能说明“为什么这么找”,便于实际场景验证;

  3. 通用性广:适配不同类型、不同传感器的遥感图像,跨域泛化能力解决了实际应用中“数据分布差异大”的痛点。

现存局限

  1. 依赖高质量标注:思维链数据集的构建需要精准的目标坐标和推理步骤标注,大规模扩展成本较高;

  2. 计算开销略高:三阶段训练流程比传统模型更复杂,对硬件资源有一定要求;

  3. 极端场景表现待验证:在超大规模图像(如覆盖数百平方公里)或极稀疏目标(如单张图仅1个小目标)场景中,性能尚未充分测试。

五、一句话总结

RSGround-R1通过“思维链训练+渐进式位置奖励+空间一致性约束”的创新设计,首次系统性解决了遥感图像定位中的空间推理难题,用更少数据实现了更高精度、更稳定的定位效果,为地理空间分析、遥感智能解译提供了全新思路。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 10:35:10

2 天,用函数计算 AgentRun 爆改一副赛博朋克眼镜

作者:简志 背景 一年前,我购入了 Meta Ray-ban 眼镜,Meta 对于眼镜本体的开发及 App 更新很快,但由于没有中文支持和开放的 SDK 导致对国内用户非常不友好。2025 年 11 月,Meta 终于放出了 Device Access Toolkit 让…

作者头像 李华
网站建设 2026/6/15 12:40:53

2026 年,鸿蒙是普通开发者最后一次上车机会?

从一个真实 App「学习小栈」,看懂 HarmonyOS 的红利期如果你是 Android / 前端 / 独立开发者,2026 年还在犹豫要不要学 HarmonyOS——那你真正该担心的,不是“学不会”,而是“没机会”。因为这一次,窗口期真的不长了。…

作者头像 李华
网站建设 2026/5/9 6:53:32

Go 微服务分布式事务 TCC 模式实战全指南

Go 微服务分布式事务 TCC 模式实战全指南 适用场景:高并发核心资源(库存 / 资金 / 配额)一致性控制 在微服务架构下,跨服务的数据一致性始终是一个绕不开的问题。传统依赖数据库事务的方式,在分布式环境中要么不可行,要么性能代价极高。 TCC(Try-Confirm-Cancel)模式,…

作者头像 李华
网站建设 2026/6/15 11:49:33

基于CODESYS平台的S7客户端通讯源码解析与西门子PLC的互操作性研究

基于CODESYS平台的S7客户端与西门子PLC通讯源码工业现场的数据通讯就像车间里的八卦,设备之间总得互相传点悄悄话。今天咱们聊聊CODESYS平台下用C语言搞S7协议通讯的黑科技——别看西门子PLC平时一副高冷样,其实撩拨起来也没那么难。先甩段硬核代码镇楼&…

作者头像 李华
网站建设 2026/6/15 11:41:15

小红书运营资源合集

小红书运营课,从0到1运营一个赚钱的小红书账号 文件大小: 10.9GB内容特色: 10.9GB实战教程,0-1起号涨粉变现全流程适用人群: 想靠小红书副业或创业的新手与进阶运营核心价值: 快速掌握爆款逻辑,实现账号盈利闭环下载链接: https://pan.quark…

作者头像 李华
网站建设 2026/6/15 11:45:43

78678456845

456456354645

作者头像 李华