GRIT: Grounded Reasoning with Images and Texts论文精读-编程实验室

这篇论文《GRIT: Grounded Reasoning with Images and Texts》，核心是解决当前多模态大模型在视觉推理时的一个关键缺陷：推理过程与视觉内容脱节。

简单说，就是让模型在“思考”时，不仅能像人一样絮叨（生成文字推理链），还能像人一样用手指指着（输出坐标框）它正在看的区域，从而让思考过程更透明、更可靠。

下面从问题和解决方案两方面来解析：

🧩 解决的核心问题：思考过程“看不见”图像

现有的开源视觉推理模型，虽然能生成一步步的文字推理链（Chain-of-Thought），但它们更像一个盲人在思考，因为推理过程只包含纯文本，从不明确指出它是基于图像的哪个部分得出当前结论。这导致：

推理不透明：你无法直接验证它的思考依据，难以判断它是在“真推理”还是“编故事”。
视觉感知与逻辑推理脱节：模型内部的定位能力（能看见）和语言推理能力（能思考）是分离的，没有被整合到一个统一的思考过程中。

💡 解决方案：GRIT框架，让模型“边指边说”

GRIT 提出一种名为**“视觉-文本交织的接地推理”** 的新范式，并配套高效的训练方法，让模型学会“边指边说”。

1. 核心推理范式：在思维链里插入“坐标框”

GRIT 不改变模型的输入，只改变模型的输出格式。它要求模型在输出文字推理时，自由地穿插具体的边界框坐标，来指代它当前正在分析的图像区域。整个推理过程就像这样：
<think>
要回答这个问题，我先要找到图中的猫。
猫在这个位置： (100, 200, 300, 400)。
接下来我要看猫旁边是什么...
</think>
这种方式把“思考”和“视觉定位”无缝地编织在一起，形成了一个清晰、可验证的视觉推理链条。

2. 高效训练方法：GRPO-GR算法，仅需20个样本

为了让模型掌握上述能力，GRIT 设计了一套基于强化学习的高效训练算法GRPO-GR。其最大的亮点是极致的数据效率：

所需数据极少：只需20个“图片-问题-答案”三元组，无需任何人工标注的中间推理步骤或边界框真值。
奖励设计精妙：训练信号主要来自两个部分：
- 答案准确性奖励：用 GPT-4o 等外部评判模型来评价模型给出的最终答案是否正确。这是最核心的信号。
- 推理格式奖励：鼓励模型的输出符合定义好的“接地推理”格式，比如正确使用<think>标签，并在推理内容中生成语法正确的边界框坐标。它不评判坐标是否准确，只评判“你有没有按格式要求去指”。

通过这两类奖励的引导，模型就在强化学习的试错过程中，自己摸索出如何通过在思维链里插入坐标框来提高最终答案的准确率。

🚀 效果与结论

实验表明，经过 GRIT 训练的模型：

推理更准确：在多项视觉问答和推理基准上，性能显著优于基础模型和仅靠提示词的思维链方法。
推理过程更可靠：生成的坐标框与文本推理内容高度相关，实现了真正的“接地”思考。分析显示，这些坐标框的生成确实能增强模型对图像区域的注意力，印证了其正向作用。
能力可泛化：即使只在少量计数和空间关系数据上训练，模型也能将这种“边指边说”的能力泛化到其他类型的视觉任务上。

基于MCP协议与向量检索，为AI编程助手构建跨会话持久记忆

1. 项目概述：为AI编程助手构建持久记忆如果你和我一样，日常重度依赖Cursor、Claude Code、Windsurf这类AI编程助手，那你一定遇到过这个让人头疼的场景：昨天在Cursor里花了半小时跟AI解释清楚了一个复杂模块的业务逻辑和设计思路&a…

李华

Go语言Goroutine调度器GMP模型深度解析

Go语言Goroutine调度器GMP模型深度解析从源码到实战，彻底搞懂Go调度器的工作原理前言很多Go开发者写了几年代码，对Goroutine的理解还停留在"轻量级线程"这个层面。面试被问到GMP模型时，只能说出G是协程、M是线程、P是处理器，但具体怎么调度的？为什么Gorouti…

李华

STM32F103 IAP实战：从Bootloader设计到远程固件更新

1. 为什么你的STM32需要IAP升级？ 第一次接触IAP（In-Application Programming）这个概念时，我正蹲在工厂车间的设备旁边，手里拿着需要升级的STM32板子发愁。产线上30台设备需要更新程序，而每台设备都要拆外壳…

李华

创梦汤锅学习日记day1

今天是2026年5月12日，很久没有发布过博客了，从今天开始，我将先开启长达3个月的从技术到项目落地到综合扩展实践的发展路线。我将总结自己的学习经历，发布自己的心得。从技术上，目前主要走游戏开发方向，基于…

李华

阴阳师百鬼夜行AI自动化：3分钟配置实现全智能碎片收集

阴阳师百鬼夜行AI自动化：3分钟配置实现全智能碎片收集【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 还在为手动刷百鬼夜行而烦恼吗？每天重复点击、熬夜…

李华

a16z领投2275万美元，AI招聘初创公司Ethos如何破传统专家网络匹配困局？

a16z领投2275万美元，Ethos A轮融资助力全球扩张5月12日消息，据TechCrunch报道，伦敦AI招聘初创公司Ethos宣布完成2275万美元A轮融资。此轮融资由知名风投机构a16z领投，General Catalyst等机构跟投。这笔资金将主要用于扩展AI智能体…

李华