news 2026/4/30 17:34:15

【南京大学-李文斌-arXiv25】超高分辨率遥感多模态大语言模型基准测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【南京大学-李文斌-arXiv25】超高分辨率遥感多模态大语言模型基准测试

文章:A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs

代码:https://github.com/Yunkaidang/RSHR

单位:南京大学


一、问题背景:现有基准的四大“硬伤”

  1. 分辨率严重脱节:多数遥感基准用512×512或1024×1024的小图,与真实卫星/无人机拍摄的4K+超高清图像差距巨大,无法测试模型对大场景的理解能力。

  2. 语言先验干扰严重:很多问题不用看图像,纯文本模型靠常识就能答对——比如某基准中纯文本模型推理准确率达51.6%,甚至超过了多模态模型的45.2%,根本测不出真实视觉理解能力。

  3. 任务设计单一:大多局限于单轮选择题,缺乏多轮对话、多图对比等真实遥感分析场景,实用性不足。

  4. 缺乏严格校验:大量问答对自动生成,没有经过人工审核,存在“图像中明明只有10辆车,答案却写300辆”的离谱情况。

二、方法创新:RSHR-Bench的三大核心突破

1. 超高清图像 corpus 构建

精选5329张全场景遥感图像,长边均≥4000像素,最高达3亿像素(300MP),涵盖卫星影像、无人机航拍等真实数据源,完整保留原生分辨率和场景上下文。

2. 多元任务体系设计

包含四大任务家族,覆盖9类感知任务(颜色识别、形状判断、计数等)和4类推理任务(异常检测、未来预测等),支持多轮对话和多图对比,完美贴合实际应用场景:

  • 选择题问答:固定选项测试决策能力

  • 开放式问答:无选项约束,考验自由表达与理解

  • 图像描述:要求精准描述全局与区域细节

  • 单图综合评估:每图配10个问题,全面考核感知与推理

3. 双阶段校验确保质量

先通过纯文本大模型进行“对抗性过滤”,剔除无需图像就能解答的问题;再经6名专业标注员300小时人工审核,修正歧义、确保答案必须依赖视觉信息,最终形成高质量问答对超1.2万条。

三、实验结果:现有模型集体“露短板”

测试了14款主流模型(含通用大模型GPT-4o、遥感专用模型GeoLLaVA-8K等),结果令人意外:

  1. 整体表现拉胯:所有模型在四大任务中准确率普遍偏低,纯文本模型仍能靠常识答对30%以上推理题,凸显现有模型对超高清遥感场景的适配不足。

  2. 短板集中凸显:计数、小目标识别、多区域对比任务表现最差,超高清图像下模型检测召回率大幅下降。

  3. 闭源模型略胜一筹:GPT-5、GPT-4o等闭源模型在推理任务中准确率领先(最高74%),但与人类92.94%的准确率仍有巨大差距;开源模型平均准确率仅25%左右, compositional reasoning 能力严重不足。

四、优势与局限

核心优势

  • 分辨率保真:首次实现亿级像素图像的标准化评测,贴合真实应用场景。

  • 任务全面:覆盖从基础感知到复杂推理的全链路能力,支持多轮/多图交互。

  • 质量可控:LLM+人工双校验,彻底摆脱语言先验干扰,评测结果更可信。

现存局限

  • 数据来源仍有拓展空间:虽包含卫星、无人机数据,但特定场景(如极地、海洋)覆盖不足。

  • 模型适配成本高:超高清图像对模型算力和输入处理能力要求极高,部分开源模型因显存限制无法充分测试。

  • 暂无动态场景数据:缺乏时序变化的遥感图像,无法评估模型对场景演变的跟踪能力。

五、一句话总结

RSHR-Bench填补了超高清遥感多模态模型评测的空白,用严格的设计和真实的场景,揭示了当前大模型的能力短板,为后续技术突破提供了可靠的“风向标”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 17:54:45

Keil5编译器5.06下载后的首次使用操作指南

从零开始搭建Keil5开发环境:编译器5.06的完整实战指南最近有几位刚接触嵌入式开发的朋友问我:“Keil5编译器5.06下载后,为什么新建工程总是报错?”、“头文件找不到怎么办?”、“明明代码写对了,怎么烧录进…

作者头像 李华
网站建设 2026/4/21 12:09:21

数据预处理流水线自动化:ms-swift中ETL工具集成方案

数据预处理流水线自动化:ms-swift中ETL工具集成方案 在大模型研发日益工业化的今天,一个常被低估却至关重要的环节正悄然决定着项目的成败——数据准备。我们常常看到团队花费数周时间调试训练脚本,最终却发现性能瓶颈竟源于低效的数据加载或…

作者头像 李华
网站建设 2026/4/24 7:35:34

嵌入式代码合规性革命:用Cppcheck MISRA插件重塑代码安全防线

嵌入式代码合规性革命:用Cppcheck MISRA插件重塑代码安全防线 【免费下载链接】cppcheck static analysis of C/C code 项目地址: https://gitcode.com/gh_mirrors/cpp/cppcheck 你是否曾经在深夜加班,只为修复那些看似简单却难以发现的代码缺陷&…

作者头像 李华
网站建设 2026/4/25 17:31:09

Stockfish.js:浏览器端国际象棋AI引擎终极指南

Stockfish.js:浏览器端国际象棋AI引擎终极指南 【免费下载链接】stockfish.js The Stockfish chess engine in Javascript 项目地址: https://gitcode.com/gh_mirrors/st/stockfish.js 在数字娱乐日益普及的今天,国际象棋作为经典智力运动正迎来全…

作者头像 李华
网站建设 2026/4/23 13:45:45

STM32F1系列中RS485 Modbus协议源代码移植指南

手把手教你把 Modbus RTU 移植到 STM32F1:从零构建 RS485 通信从站在工业现场,你是否遇到过这样的场景——多个传感器分布在几十米甚至上百米外,需要统一上传数据,但用 Wi-Fi 不稳定、CAN 成本高、RS232 又只能点对点?…

作者头像 李华
网站建设 2026/4/30 19:33:06

自定义数据集如何接入ms-swift?结构规范与格式转换全指导

自定义数据集如何接入 ms-swift?结构规范与格式转换全指导 在大模型落地的实践中,最常遇到的问题往往不是“模型能不能训”,而是“我的业务数据怎么喂进去”。无论是客服对话日志、内部知识库条目,还是图文混排的产品描述&#xf…

作者头像 李华