上海交大MINT团队提出Evo - Depth：不增硬件负担，兼顾机器人VLA性能与部署效率-编程实验室

【导语：大量VLA模型主要依赖二维视觉，在空间感知任务上成功率下滑，补空间信息的现有路线各有代价。上海交大MINT团队提出Evo - Depth中间路线，兼顾性能与部署效率，代码等已全面开源。】

现有VLA模型空间感知难题待解

目前，机器人虽有视觉能力，但大量VLA模型主要依赖二维视觉。一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务，成功率就会明显下滑。

补空间信息有显式3D和隐式3D两条路线，但都有代价。显式3D路线靠深度传感器和点云重建，硬件链路长、对标定误差敏感；隐式3D路线从RGB学几何，省了硬件，但不少方案依赖较重的基础模型，训练和推理成本偏高。

Evo - Depth：中间路线新突破

上海交大MINT团队提出的Evo - Depth约0.9B参数，不额外增加硬件负担，用紧凑的隐式深度编码把空间感写进VLA策略里，兼顾了仿真与真机的性能与部署效率。在仿真端，Meta - World达到84.4%、LIBERO达到95.4%；真机平均成功率约90%；部署侧约3.2 GB显存、约12.3 Hz推理频率。

Evo - Depth的核心思路是从多视角RGB提取紧凑的隐式深度表征，再以轻量方式融入视觉 - 语言通路，最后通过flow - matching动作专家输出连续动作。

系统三部分协同运作

整个系统主要由三部分组成。IDEM（Implicit Depth Encoding Module）负责从多视角图像中提取隐式深度特征，强调空间布局与相对几何关系，骨干约0.13B参数，并结合多视角深度预训练初始化，在轻量条件下引入与深度相关的归纳偏置。

SEM（Spatial Enhancement Module）将隐式深度作为一种调制信号，用于增强视觉 - 语言表征。这种融合方式更克制，原有VLM继续负责语义理解，深度特征主要负责空间增强，同时尽量控制延迟与显存开销。

Progressive Alignment Training采用分阶段训练方式逐步完成深度表征对齐 - 多模态融合 - 动作学习。动作头则采用了当前VLA中较常见的flow - matching路线。

性能 - 成本 - 实时性折中方案

Evo - Depth解决了如何在不显著增加系统负担的情况下，提升VLA的空间能力这一问题。相比纯二维VLA，它补充了空间信息；相比更重的3D路线，它又尽量保留了部署效率。

编辑观点：Evo - Depth为机器人VLA领域提供了一种性能、成本与实时性相平衡的方案，有望推动机器人操作、空间智能等相关领域发展。

观察Taotoken在高峰时段的API服务稳定性与路由表现

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度观察Taotoken在高峰时段的API服务稳定性与路由表现在将大模型能力集成到生产应用时，服务的稳定性是开发者关心的核心问…

李华

17：Allure Report 自动化测试报告

在自动化测试中，一份清晰、直观、可交互的测试报告，是定位问题、分析结果的关键。 Allure Report 是一款开源测试报告工具 —— 它支持 pytest、JUnit 等主流测试框架，可以生成包含用例详情、步骤、截图、日志交互式的网页报告。本文将基于…

李华

基于BERT与有限状态机的企业知识库智能检索系统设计与实践

1. 项目概述：当企业知识库遇上智能搜索在任何一个规模稍大的组织里，信息孤岛都是一个让人头疼的问题。想象一下，你是一家跨国银行的业务分析师，需要快速找到去年某个特定地区、某个业务条线的风险管理报告。你面对的不是一个简单的…

李华

避开这些坑！在WCH MCU上玩转CherryUSB Host的实战经验与调试技巧

避开这些坑！在WCH MCU上玩转CherryUSB Host的实战经验与调试技巧当你在WCH微控制器上尝试实现USB Host功能时，可能会遇到各种令人头疼的问题。从HardFault到枚举失败，再到数据传输不稳定，这些挑战足以让任何经验丰富的开发者感到沮…

李华

2026降AI率工具红黑榜：降AIGC软件怎么选？看完少走弯路

红榜优先选千笔AI、ThouPen、豆包，适配国内高校AI率检测规范；黑榜避开低质免费降AI工具、无正规检测对接、改写痕迹生硬的工具，优先按需求匹配三维模型（降AI效果-学术合规性-使用成本）。一、红榜：10 款高分…

李华

别再花钱买群晖了！手把手教你用闲置服务器和ESXi 7.0虚拟化搭建免费TrueNAS Core存储系统

零成本打造企业级存储：基于ESXi与TrueNAS的虚拟化NAS实战指南在数字化浪潮席卷各行各业的今天，数据存储需求呈现爆炸式增长。商业NAS解决方案虽然成熟易用，但动辄上万元的硬件投入让许多个人用户和小型团队望而却步。事实上，借助虚…

李华