【论文自动阅读】LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning-编程实验室

快速了解部分

基础信息（英文）：

1.题目: LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning
2.时间: 2024
3.机构: Berkeley AI Research (BAIR), UC Berkeley
4.3个英文关键词: LMMs, Vision Action Instruction Tuning, Robot Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为LLARVA的模型，通过将机器人的动作转化为2D视觉轨迹并与语言指令结合，让机器人能通过视觉和语言理解来学习和执行各种任务。

研究痛点：现有研究不足 / 要解决的具体问题

现有的大型多模态模型（LMMs）在图像描述和视觉问答上表现不错，但在机器人应用中泛化能力不足。主要痛点在于如何将视觉（看）和行动（做）有效对齐，尤其是在只有2D图像输入的情况下，难以处理复杂的机器人动作和不同环境的迁移。

核心方法：关键技术、模型或研究设计（简要）

核心方法是“视觉-动作指令微调”。具体做法是：将机器人末端执行器（如机械爪）未来的轨迹投影成2D图像上的“视觉轨迹”（Visual Traces），并将其作为辅助任务与动作预测一起训练。模型接收包含机器人类型、任务、控制模式的结构化语言指令，同时输出下一步的动作和对应的视觉轨迹。

深入了解部分

相比前人创新在哪里

引入视觉轨迹（Visual Traces）：不同于以往使用3D体素或点云的方法，LLARVA创新性地使用2D视觉轨迹作为视觉和动作之间的中间表示，帮助模型在仅有2D图像输入时也能精准定位和规划动作。
结构化指令统一框架：设计了一种通用的指令模板，将机器人类型、控制模式、任务描述等信息统一为自然语言前缀，使得单一模型能泛化到多种机器人和任务配置中。
无需3D输入的高性能：证明了仅使用单目2D图像和语言指令，通过大规模预训练，也能达到甚至超越依赖复杂3D输入的模型（如PerAct）的效果。

解决方法/算法的通俗解释

想象你正在教一个只会看图和读文字的AI学开赛车。以前的方法是直接告诉它“方向盘转90度”，但AI很难把文字和眼前的画面联系起来。
LLARVA的做法是：在每次下指令时，先在眼前的路面上画一条“虚拟的行车路线”（这就是视觉轨迹），然后告诉AI：“你看这条路线，接下来你要走这一步”。通过大量学习“路线图”和“操作动作”的对应关系，AI就学会了如何把看到的画面转化为具体的驾驶动作。

解决方法的具体做法

数据构建：利用Open X-Embodiment (OXE) 数据集，生成850万张图像-视觉轨迹对。视觉轨迹是将机械臂末端在未来时刻的2D坐标点连成的线。
模型架构：基于LLaVA架构（Llama2-7B语言模型 + CLIP视觉编码器）。输入是当前图像和包含机器人/任务信息的结构化文本，输出是未来的动作序列和对应的2D视觉轨迹。
两阶段训练：
- 预训练：在大规模混合数据集上进行视觉-动作指令微调，学习通用的机器人操作知识。
- 微调：在特定任务的小数据集上进行微调，适应具体环境。

基于前人的哪些方法

LLARVA主要基于LLaVA（Large Language And Vision Assistant）的架构，继承了其视觉编码器（CLIP ViT-L/14）和语言模型（Llama2）的基础结构，并沿用了其投影层设计。同时，它借鉴了指令微调（Instruction Tuning）的思想，将机器人学习任务转化为类似视觉问答的格式。

实验设置、数据、评估方式、结论

数据：预训练使用Open X-Embodiment (OXE) 数据集中的850万数据；评估在RLBench模拟器（18个任务）和真实Franka Emika Panda机械臂（3个任务：抓取、堆叠、拆堆）上进行。
设置：对比了Image-BC (2D) 和 PerAct, C2FARM (3D) 等基线模型。LLARVA仅使用单目RGB图像，不使用深度或3D信息。
结论：
- 在RLBench上，LLARVA在仅使用2D图像的情况下，平均成功率（43.3%）远超其他2D方法（Image-BC仅1.3%），甚至优于部分3D方法。
- 在真实机器人上，LLARVA在所有测试任务中均优于对比模型（RPT和Octo）。
- 消融实验证明，加入“视觉轨迹”预测能使任务成功率平均提升15%。