arXiv 2025|RGB-Th-Bench：第一个专注于可见光–热成像理解的密集型视觉语言模型基准-编程实验室

一、论文信息

论文标题：RGB-Th-Bench: A Dense Benchmark for Visual-Thermal Understanding of Vision-Language Models
作者：Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen
机构：Aalto University，KTH Royal Institute of Technology，Detectium Oy
会议：arXiv

二、论文摘要

Vision-Language Models（VLMs）近年来取得了突破性进展，但现有的大多数评测基准几乎全部集中在 RGB 图像领域。对于RGB–热成像（RGB-Thermal）配对图像的理解，目前仍是研究中的巨大空白。为了填补这一空缺，论文提出了第一个专注于 RGB–热成像理解能力的密集型 VLM 基准——RGB-Th-Bench

三、论文创新点

3.1 首个专注于 RGB–Thermal 理解的密集型 VLM 基准

论文明确指出：现有 VLM benchmark 几乎全是 RGB 图像，而 RGB–热成像（RGB-Thermal）能力从未被系统评测。
RGB-Th-Bench 是第一份：
1.同时包含“RGB + Thermal 配对图像”
2.专注于热成像理解、多模态对齐
3.覆盖 14 个核心技能维度
4.每个样本提供 56 个 QA（极高密度）
这是对现有 VLM 评测空白的首次补齐。

3.2 首个在热成像任务中使用多维度、高密度 YES/NO QA 的设计

RGB-Th-Bench 的独特性包括：
1.每个维度 4 个独立问题
2.每个 RGB–Thermal 样本 56 个问题
3.QA 全部基于 “Yes/No”，避免复杂语言干扰
4.允许构建负向问题、互斥问题，用于检测 hallucination
该设计使得 benchmark 能：严格测试鲁棒性，检测模型是否稳定理解热图像并且检测模型是否能跨 RGB 与 Thermal 建立一致语义
这些密度和 QA 体系是现有 benchmark 都不具备的。

3.3设计了 RGB-Txt 与 RGB-Th-Txt 两种 Prompt-Groups，可分离 RGB 影响

这是论文非常关键的创新：
RGB-Txt：只输入 RGB 图像 → 测模型基本视觉能力
RGB-Th-Txt：输入 RGB + Thermal → 测模型热成像理解能力
这样可以：分离 thermal 理解表现是否被 RGB 基础能力限制造成并衡量 RGB → RGB-Thermal 的增益或损失，找到模型热成像理解中的真实瓶颈
论文实验也证明：
所有模型的热成像表现都受到其RGB 水平限制

四、论文动机

1.当前几乎所有 VLM 基准都基于 RGB → 无法评估热成像理解
2.热成像数据稀缺、难标注、无文本——模型无法学到热成像理解能力
3. 热成像理解依赖 RGB 能力，模型表现需要分离与验证

五、实验方法和数据分析

5.1 数据来源与规模

RGB-Th-Bench 包含：
1.58 张图像（29 对 RGB–热成像配对）
2.1624 条手工设计的专家标注 Yes/No 问题
3.14 个技能维度
4.每对图像共 56 个问题
所有图像均来自作者内部资料或使用 FLIR ONE Edge Pro 设备拍摄，不包含任何来自现有公共数据集的图像，确保评测公平性。

5.2评测指标设计

RGB-Th-Bench 提供两个严格的指标：

Question-level Accuracy (QAcc)
计算所有问题的正确率
随机基线为 50%
Skill-level Accuracy (SAcc)
每个技能维度的四个问题都答对才算 “Pass”
随机基线仅为 6.25%
更能反映模型是否真正理解某项技能

论文强调：SAcc 是更严格、更能发现模型弱点的指标。

5.3实验与分析

展示了 2 个数据样本（含 RGB-thermal 图像对）对应的 16 个问答（Q/A）示例，覆盖 4 个技能维度，同时呈现了 3 个代表性 VLM（GPT4-o、MiniCPM-o-2.6、Qwen2.5-VL-7B）的回答结果，包含问题（Q）、真实标签（GT）和模型响应。

1.闭源模型性能断层领先：GPT4o-20241120 在 QAcc、SAcc 及所有技能维度的表现均大幅超过其他模型，是当前多模态能力最全面的模型之一。
2.开源模型 “偏科” 明显：开源模型的问题理解（QAcc）已接近闭源水平，但选项匹配（SAcc）差距显著；且不同模型仅在特定技能维度（如 Scene、ObjPr）表现突出，无 “全优模型”。
3.复杂任务挑战更大：“RGB-Th-Txt” 这类多模态嵌套任务的模型得分，普遍低于 “RGB-Txt” 单模态融合任务，对跨模态推理能力要求更高。
4.模型能力有效性已验证：绝大多数模型的 QAcc、SAcc 均显著超过随机基线，证明当前多模态模型的跨模态理解能力具备实用价值。
5.模型间差距极大：顶尖开源模型与落后模型的性能差异悬殊，部分模型（如 Chameleon-7B）表现接近 / 低于基线。

六、总结

RGB-Th-Bench 的出现填补了 VLM 评测的重要缺口。它不仅揭示了模型在热成像理解上的不足，也为未来的多模态研究提供了标准化、严谨且高密度的评测工具。

Python 期末复习知识点汇总

Python 期末知识点汇总本文聚焦 Python 期末考核核心知识点，从基础到进阶分层梳理，覆盖语法、数据结构、流程控制、函数、面向对象、文件操作、异常处理等高频考点，适合期末复习冲刺。一、基础语法（必考） 1. 编码规范…

李华

线程、并发与互斥：解锁多任务编程的核心逻辑

线程、并发与互斥：解锁多任务编程的核心逻辑一、线程：多任务执行的最小单元线程是操作系统调度的基本单位，它依附于进程存在，共享进程的内存空间（代码段、数据段、堆等），但拥有独立的程序计数…

李华

Day35文件的规范拆分和写法

credit_default_prediction/ │ ├── data/ # 数据文件夹 │ ├── raw/ # 原始数据 │ └── processed/ # 处理后的数据 │ ├── src/ # 源代码 │ ├── __init__.py │ ├── data/ …

李华

GPT-5.2来了，老金详细给你说说它为什么是王

加我进AI讨论学习群，公众号右下角“联系方式”文末有老金的开源知识库地址全免费昨晚凌晨2点，OpenAI偷偷摸摸上线了GPT-5.2。没发布会，没预热，甚至连个官方推特都没发。作为老金最喜欢的模型，没有之一的，必…

李华

上海“娃哈哈”桶装水将改名 “沪小娃“ ！

近日上海娃哈哈推出全新品牌 "沪小娃" 桶装水，说是"娃哈哈"商标授权已到期，且未能获得新的授权，被集团要求停止使用原有品牌，称此举是为了活下去的无奈之举，承认打造新品牌难度很大。普推知商标老…

李华

小白从零开始勇闯人工智能Linux初级篇(Navicat Premium及MySQL库(安装与环境配置))

引言在人工智能中，无论是机器学习、深度学习还是各种AI应用，都离不开数据的支撑。数据库是存储、管理和操作数据的核心工具。而MySQL作为世界上最流行的开源关系型数据库，在各类AI项目中都有着广泛的应用，没有数据库，A…

李华