【导语:大量VLA模型主要依赖二维视觉,在空间感知任务上成功率下滑,补空间信息的现有路线各有代价。上海交大MINT团队提出Evo - Depth中间路线,兼顾性能与部署效率,代码等已全面开源。】
目前,机器人虽有视觉能力,但大量VLA模型主要依赖二维视觉。一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务,成功率就会明显下滑。
补空间信息有显式3D和隐式3D两条路线,但都有代价。显式3D路线靠深度传感器和点云重建,硬件链路长、对标定误差敏感;隐式3D路线从RGB学几何,省了硬件,但不少方案依赖较重的基础模型,训练和推理成本偏高。
上海交大MINT团队提出的Evo - Depth约0.9B参数,不额外增加硬件负担,用紧凑的隐式深度编码把空间感写进VLA策略里,兼顾了仿真与真机的性能与部署效率。在仿真端,Meta - World达到84.4%、LIBERO达到95.4%;真机平均成功率约90%;部署侧约3.2 GB显存、约12.3 Hz推理频率。
Evo - Depth的核心思路是从多视角RGB提取紧凑的隐式深度表征,再以轻量方式融入视觉 - 语言通路,最后通过flow - matching动作专家输出连续动作。
整个系统主要由三部分组成。IDEM(Implicit Depth Encoding Module)负责从多视角图像中提取隐式深度特征,强调空间布局与相对几何关系,骨干约0.13B参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。
SEM(Spatial Enhancement Module)将隐式深度作为一种调制信号,用于增强视觉 - 语言表征。这种融合方式更克制,原有VLM继续负责语义理解,深度特征主要负责空间增强,同时尽量控制延迟与显存开销。
Progressive Alignment Training采用分阶段训练方式逐步完成深度表征对齐 - 多模态融合 - 动作学习。动作头则采用了当前VLA中较常见的flow - matching路线。
Evo - Depth解决了如何在不显著增加系统负担的情况下,提升VLA的空间能力这一问题。相比纯二维VLA,它补充了空间信息;相比更重的3D路线,它又尽量保留了部署效率。
编辑观点:Evo - Depth为机器人VLA领域提供了一种性能、成本与实时性相平衡的方案,有望推动机器人操作、空间智能等相关领域发展。