这篇论文《GRIT: Grounded Reasoning with Images and Texts》,核心是解决当前多模态大模型在视觉推理时的一个关键缺陷:推理过程与视觉内容脱节。
简单说,就是让模型在“思考”时,不仅能像人一样絮叨(生成文字推理链),还能像人一样用手指指着(输出坐标框)它正在看的区域,从而让思考过程更透明、更可靠。
下面从问题和解决方案两方面来解析:
🧩 解决的核心问题:思考过程“看不见”图像
现有的开源视觉推理模型,虽然能生成一步步的文字推理链(Chain-of-Thought),但它们更像一个盲人在思考,因为推理过程只包含纯文本,从不明确指出它是基于图像的哪个部分得出当前结论。这导致:
- 推理不透明:你无法直接验证它的思考依据,难以判断它是在“真推理”还是“编故事”。
- 视觉感知与逻辑推理脱节:模型内部的定位能力(能看见)和语言推理能力(能思考)是分离的,没有被整合到一个统一的思考过程中。
💡 解决方案:GRIT框架,让模型“边指边说”
GRIT 提出一种名为**“视觉-文本交织的接地推理”** 的新范式,并配套高效的训练方法,让模型学会“边指边说”。
1. 核心推理范式:在思维链里插入“坐标框”
GRIT 不改变模型的输入,只改变模型的输出格式。它要求模型在输出文字推理时,自由地穿插具体的边界框坐标,来指代它当前正在分析的图像区域。整个推理过程就像这样:<think>要回答这个问题,我先要找到图中的猫。猫在这个位置: (100, 200, 300, 400)。接下来我要看猫旁边是什么...</think>
这种方式把“思考”和“视觉定位”无缝地编织在一起,形成了一个清晰、可验证的视觉推理链条。
2. 高效训练方法:GRPO-GR算法,仅需20个样本
为了让模型掌握上述能力,GRIT 设计了一套基于强化学习的高效训练算法GRPO-GR。其最大的亮点是极致的数据效率:
- 所需数据极少:只需20个“图片-问题-答案”三元组,无需任何人工标注的中间推理步骤或边界框真值。
- 奖励设计精妙:训练信号主要来自两个部分:
- 答案准确性奖励:用 GPT-4o 等外部评判模型来评价模型给出的最终答案是否正确。这是最核心的信号。
- 推理格式奖励:鼓励模型的输出符合定义好的“接地推理”格式,比如正确使用
<think>标签,并在推理内容中生成语法正确的边界框坐标。它不评判坐标是否准确,只评判“你有没有按格式要求去指”。
通过这两类奖励的引导,模型就在强化学习的试错过程中,自己摸索出如何通过在思维链里插入坐标框来提高最终答案的准确率。
🚀 效果与结论
实验表明,经过 GRIT 训练的模型:
- 推理更准确:在多项视觉问答和推理基准上,性能显著优于基础模型和仅靠提示词的思维链方法。
- 推理过程更可靠:生成的坐标框与文本推理内容高度相关,实现了真正的“接地”思考。分析显示,这些坐标框的生成确实能增强模型对图像区域的注意力,印证了其正向作用。
- 能力可泛化:即使只在少量计数和空间关系数据上训练,模型也能将这种“边指边说”的能力泛化到其他类型的视觉任务上。