news 2026/6/15 13:57:04

【论文自动阅读】RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied

张小明

前端开发工程师

1.2k 24

文章封面图 — 【论文自动阅读】RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied

快速了解部分

基础信息（英文）：

题目: RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence
时间: 2025.12
机构: Beijing Innovation Center of Humanoid Robotics, Peking University
3个英文关键词: Bimanual Manipulation, Multimodal Dataset, Mobile Manipulation

1句话通俗总结本文干了什么事情

本文构建了一个大规模的双臂移动操作数据集（RoboMIND 2.0），并提出了一种名为MIND-2的“快慢双系统”模型，旨在让机器人能通过视觉、语言和触觉更好地学会复杂的长程操作任务。

研究痛点：现有研究不足 / 要解决的具体问题

现有的机器人数据集大多局限于单臂、固定底座的操作，缺乏双臂协作、移动操作以及触觉反馈等多模态数据，导致模型难以泛化到复杂的现实长程任务中。

核心方法：关键技术、模型或研究设计（简要）

提出了MIND-2 系统：结合了一个基于VLM的“慢系统”（负责高层逻辑规划）和一个基于VLA的“快系统”（负责底层精细控制），并利用离线强化学习（IQL）进行训练。

深入了解部分

相比前人创新在哪里

数据维度：是首个同时包含双臂协作、移动操作、灵巧手和高保真触觉感知的大规模开源数据集（31万条轨迹）。
系统架构：提出了分层的“双系统”架构（MIND-2），通过高层VLM规划解决长程任务失败率高的问题，区别于传统的单一VLA模型。
仿真结合：提供了高保真的数字孪生仿真资产，支持Sim-to-Real研究。

解决方法/算法的通俗解释

想象机器人有一个“大脑”和一个“小脑”。

大脑 (MIND-2-VLM)：像一个指挥官，看懂眼前的场景和指令，把大任务拆解成一个个小步骤（比如“先走到厨房，再拿杯子”）。
小脑 (MIND-2-VLA)：像一个执行者，根据指挥官的指令，结合眼睛看到的画面和手上的触感，精确地控制肌肉（电机）完成抓取、移动等具体动作。
训练方式：利用离线强化学习，让机器人从成功和失败的经验中学习，不仅模仿好的动作，还学会避开坏的动作。

解决方法的具体做法

数据收集：使用6种不同的机器人（如Franka, UR5e, AgileX, 人形机器人Tien Kung等）通过遥操作收集了31万条轨迹，涵盖了触觉、视觉和本体感知数据。
模型构建：
- 慢系统 (VLM)：基于InternVL3-8B微调，输入图像和状态，输出当前应执行的子任务和进度。
- 快系统 (VLA)：基于IQL算法训练，输入视觉、语言和本体感知数据，输出具体的机械臂动作。
数字孪生：在Isaac Sim中重建了真实场景，生成了2万条仿真数据用于辅助训练。

基于前人的哪些方法

数据集基础：继承了 RoboMIND 1.0 的标准化收集协议，并扩展了多模态和移动性。
模型架构：MIND-2-VLA 基于 VLA范式；MIND-2-VLM 基于现有的视觉语言模型（如InternVL3）。
算法：采用了Implicit Q-Learning (IQL)作为离线强化学习的算法基础，用于从静态数据集（包含失败数据）中学习策略。

实验设置、数据、评估方式、结论

数据：RoboMIND 2.0 数据集（310K条轨迹，759个任务，1139个物体，6种机器人平台）。
设置：在固定场景双臂操作、移动双臂操作和人形机器人操作三种环境下进行测试。
评估方式：任务成功率。
结论：
- MIND-2 系统在长程移动操作任务中显著优于单一的VLA模型（如RT-1, π0, π0.5, XR-1）和模仿学习基线（如ACT, DP3）。
- 引入触觉模态能显著提高精细操作的成功率。
- 结合仿真数据训练能有效提升物理执行性能。

提到的同类工作

OpenX-Embodiment：大规模机器人数据集集合，但缺乏双臂和移动数据。
DROID：大规模遥操作数据集，但主要针对单臂Franka机器人。
AgiBot World / Galaxea Open-World：包含丰富的双臂数据，但仅限于单一机器人形态。
RT-1 / π0 / π0.5 / XR-1：现有的视觉语言动作（VLA）模型基线。

和本文相关性最高的3个文献

RoboMIND 1.0：本文的直接前身，本文在其基础上扩展了双臂、移动和触觉模态。
Open X-Embodiment：目前最大的机器人数据集基准，本文旨在通过多模态和移动性弥补其不足。
Implicit Q-Learning：本文用于训练VLA模型的核心离线强化学习算法基础。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/15 5:59:06

MedGemma X-Ray实测：AI如何帮你解读医疗影像报告

MedGemma X-Ray实测：AI如何帮你解读医疗影像报告这不是一个会替代医生的工具，而是一个能让你更快看懂X光片的助手。本文全程基于真实操作环境实测，不讲空泛概念，只说你能立刻上手、马上见效的实用细节——从第一次点击上传&#…

作者头像

李华

网站建设 2026/6/10 18:05:42

ChatGLM3-6B-128K案例研究：多源新闻聚合生成深度报道内容

ChatGLM3-6B-128K案例研究：多源新闻聚合生成深度报道内容 1. 为什么这个案例值得你花5分钟读完你有没有遇到过这样的情况：要写一篇关于某起突发公共事件的深度报道，手头堆着十几家媒体的快讯、通稿、专家评论和社交媒体热帖，但…

作者头像

李华

网站建设 2026/6/14 12:39:17

AI印象派艺术工坊用户激励体系：积分奖励部署实战案例

AI印象派艺术工坊用户激励体系：积分奖励部署实战案例 1. 为什么需要给“纯算法”工具加积分系统？ 你可能第一反应是：这不就是个OpenCV滤镜集合吗？又没模型、不调GPU、连权重都不用下，搞什么用户激励？ 但…

作者头像

李华

网站建设 2026/6/10 10:20:45

竞品对比分析：InstructPix2Pix vs Photoshop Beta AI功能优劣评估

竞品对比分析：InstructPix2Pix vs Photoshop Beta AI功能优劣评估 1. 引言：当“说句话就能修图”成为现实你有没有过这样的经历？ 想把一张白天拍的风景照改成黄昏氛围，却卡在 Photoshop 的图层蒙版和渐变映射里； 想…

作者头像

李华

网站建设 2026/6/11 20:28:57

MacBook显卡智能管理工具：gfxCardStatus全面指南

MacBook显卡智能管理工具：gfxCardStatus全面指南【免费下载链接】gfxCardStatus gfxCardStatus is an open-source menu bar application that keeps track of which graphics card your unibody, dual-GPU MacBook Pro is using at any given time, and allows yo…

作者头像

李华

网站建设 2026/6/13 22:56:51

为什么选Qwen3Guard-Gen-WEB？看完这篇你就明白了

为什么选Qwen3Guard-Gen-WEB？看完这篇你就明白了在内容安全审核这件事上，你是不是也经历过这些时刻： 用户刚发了一条看似平常的评论，后台却悄悄触发了误拦截； 海外业务上线后，多语言混杂的违规内容频频漏…

作者头像

李华