news 2026/5/26 20:39:33

上海交大MINT团队提出Evo - Depth:不增硬件负担,兼顾机器人VLA性能与部署效率

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
上海交大MINT团队提出Evo - Depth:不增硬件负担,兼顾机器人VLA性能与部署效率

【导语:大量VLA模型主要依赖二维视觉,在空间感知任务上成功率下滑,补空间信息的现有路线各有代价。上海交大MINT团队提出Evo - Depth中间路线,兼顾性能与部署效率,代码等已全面开源。】


现有VLA模型空间感知难题待解

目前,机器人虽有视觉能力,但大量VLA模型主要依赖二维视觉。一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务,成功率就会明显下滑。

补空间信息有显式3D和隐式3D两条路线,但都有代价。显式3D路线靠深度传感器和点云重建,硬件链路长、对标定误差敏感;隐式3D路线从RGB学几何,省了硬件,但不少方案依赖较重的基础模型,训练和推理成本偏高。

Evo - Depth:中间路线新突破

上海交大MINT团队提出的Evo - Depth约0.9B参数,不额外增加硬件负担,用紧凑的隐式深度编码把空间感写进VLA策略里,兼顾了仿真与真机的性能与部署效率。在仿真端,Meta - World达到84.4%、LIBERO达到95.4%;真机平均成功率约90%;部署侧约3.2 GB显存、约12.3 Hz推理频率。

Evo - Depth的核心思路是从多视角RGB提取紧凑的隐式深度表征,再以轻量方式融入视觉 - 语言通路,最后通过flow - matching动作专家输出连续动作。

系统三部分协同运作

整个系统主要由三部分组成。IDEM(Implicit Depth Encoding Module)负责从多视角图像中提取隐式深度特征,强调空间布局与相对几何关系,骨干约0.13B参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。

SEM(Spatial Enhancement Module)将隐式深度作为一种调制信号,用于增强视觉 - 语言表征。这种融合方式更克制,原有VLM继续负责语义理解,深度特征主要负责空间增强,同时尽量控制延迟与显存开销。

Progressive Alignment Training采用分阶段训练方式逐步完成深度表征对齐 - 多模态融合 - 动作学习。动作头则采用了当前VLA中较常见的flow - matching路线。

性能 - 成本 - 实时性折中方案

Evo - Depth解决了如何在不显著增加系统负担的情况下,提升VLA的空间能力这一问题。相比纯二维VLA,它补充了空间信息;相比更重的3D路线,它又尽量保留了部署效率。

编辑观点:Evo - Depth为机器人VLA领域提供了一种性能、成本与实时性相平衡的方案,有望推动机器人操作、空间智能等相关领域发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 20:38:05

观察Taotoken在高峰时段的API服务稳定性与路由表现

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken在高峰时段的API服务稳定性与路由表现 在将大模型能力集成到生产应用时,服务的稳定性是开发者关心的核心问…

作者头像 李华
网站建设 2026/5/26 20:28:04

17:Allure Report 自动化测试报告

在自动化测试中,一份清晰、直观、可交互的测试报告,是定位问题、分析结果的关键。 Allure Report 是一款开源测试报告工具 —— 它支持 pytest、JUnit 等主流测试框架,可以生成包含用例详情、步骤、截图、日志交互式的网页报告。 本文将基于…

作者头像 李华
网站建设 2026/5/26 20:21:00

基于BERT与有限状态机的企业知识库智能检索系统设计与实践

1. 项目概述:当企业知识库遇上智能搜索在任何一个规模稍大的组织里,信息孤岛都是一个让人头疼的问题。想象一下,你是一家跨国银行的业务分析师,需要快速找到去年某个特定地区、某个业务条线的风险管理报告。你面对的不是一个简单的…

作者头像 李华
网站建设 2026/5/26 20:17:43

避开这些坑!在WCH MCU上玩转CherryUSB Host的实战经验与调试技巧

避开这些坑!在WCH MCU上玩转CherryUSB Host的实战经验与调试技巧当你在WCH微控制器上尝试实现USB Host功能时,可能会遇到各种令人头疼的问题。从HardFault到枚举失败,再到数据传输不稳定,这些挑战足以让任何经验丰富的开发者感到沮…

作者头像 李华
网站建设 2026/5/26 20:17:00

2026降AI率工具红黑榜:降AIGC软件怎么选?看完少走弯路

红榜优先选千笔AI、ThouPen、豆包,适配国内高校AI率检测规范;黑榜避开低质免费降AI工具、无正规检测对接、改写痕迹生硬的工具,优先按需求匹配三维模型(降AI效果-学术合规性-使用成本)。 一、红榜:10 款高分…

作者头像 李华