news 2026/5/26 11:51:42

华科酷睿程GemDepth:超越VGGT,深度估计新SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华科酷睿程GemDepth:超越VGGT,深度估计新SOTA

点击下方卡片,关注“自动驾驶之心”公众号

作者 | 具身智能之心

编辑 | 自动驾驶之心

本文只做学术分享,如有侵权,联系删文

>>自动驾驶前沿信息获取自动驾驶之心知识星球

前言:时间一致性,靠的不仅仅是2D层面的约束

视频深度估计任务的核心问题,始终是如何提高视频帧之间的时间一致性以克服帧间闪烁。基于高精度高泛化的单帧深度估计大模型,无论是判别式方法(VideoDepthAnything)抑或是生成式方法(DepthCrafter)都已经有了不错的空间精度。

然而,它们主要依赖于深度隐式时间平滑在二维帧上进行操作,缺乏三维几何感知。这种缺陷使得它们难以保持严格的几何一致性,尤其是在复杂的相机旋转或剧烈的视角变化期。此外,通过优先考虑全局平滑性,这些框架往往会抑制高频空间信息,导致边界模糊和结构退化。

我们认为,明确的3D几何理解-包括对相机运动和全局3D结构的感知-是实现真正时间一致性的先决条件。由于缺乏明确的运动感知先验,模型无法建立增强一致性所必需的潜在点级对应关系。因此,他们容易受到不一致的时间线索的干扰,从而导致空间模糊。当我们把连续的10帧点云投影到第一帧坐标系堆叠到一起时,便明显反映了这个问题。如下图所示,之前的SOTA方法VDA由于缺乏3D几何一致性存在严重的重影,而GemDepth有效的抑制了这一点。

  • 论文链接:https://arxiv.org/abs/2605.10525

  • 代码链接:https://github.com/Yuecheng919/GemDepth

本文作者来自于华中科技大学杨欣团队和酷睿程团队,一作刘粤诚,通讯程俊达

一、华科&酷睿程团队解决方案:GemDepth

华科&酷睿程团队提出基于几何参数自预测的视频深度估计框架 GemDepth,在视频深度估计领域中首次利用几何参数作为隐式嵌入,解决现有视频深度估计在视角剧烈变化时难以维持3D几何一致性、易导致空间模糊与时序不连续的问题。模型效果大幅刷新视频深度估计SOTA并在点云重建效果上优于DepthAnything3,VGGT等3D基础模型。

核心思路

现有的方法往往陷入一个困境:它们本质上是在做 “2D 特征序列的盲目平滑”。GemDepth给出了截然不同的做法:通过显式预测相机位姿来注入运动先验,并在“时序对齐”与“空间细化”之间交替运行,协同聚合出3D几何一致的视频深度。

二、具体实施:几何先验与时空交替的协同作用

GemDepth架构如上图所示,主要分为两大核心板块:

几何嵌入模块(GEM)

基于DinoV2 Encoder中丰富的特征表示,几何嵌入模块(GEM)基于轻量级的 EfficientPoseNet,预测出帧间6-DoF相机位姿。然后相机位姿信息经由 MLP 编码,生成度量感知的相机特征表示 Fcam作为后续的几何先验。

  • EfficientPoseNet通过一个四层的交替注意力Transformer处理注入到特征图F4中的可学习相机token t。

  • 为了强化物理约束,GEM 将所有位姿投影至统一的规范化坐标系。

  • 针对单目尺度二义性问题,该模块利用全局尺度因子 Z 对每帧平移量进行归一化处理。通过对 GEM 模块进行显式的尺度归一化真值监督,确保预测位姿在统一的尺度空间内运行,从根本上消除了初始的尺度不一致现象。

  • 这种嵌入与主特征图 F4深度融合,通过物理约束提供显式的几何引导,使深度优化过程由“盲目平滑”转向“物理对齐”。

交替时空Transformer模块(ASTT)

交替时空 Transformer(ASTT)通过将依赖关系建模解耦为两个策略性阶段,实现了时空表示的统一。给定输入增强视觉特征,ASTT 在“时序对齐”与“空间细化”之间交替运行,以强化几何一致性。

  • 用于几何对齐的时序注意力: 我们首先重组特征图,在对齐的空间位置上显式隔离时域依赖。利用 GEM 提供的 6-DoF 运动先验,该阶段在时间轴上建立了显式的点级对应关系。通过执行基于轨迹的特征聚合,它在捕获纯粹运动线索的同时,减轻了复杂空间上下文的干扰,从而确保了稳健的空间结构一致性和无闪烁的深度序列。

  • 用于结构细化的空间注意力: 以对齐后的时序特征为条件,我们重新构建表示以进行全局信息交换。该过程分解为两种专门机制:帧内空间注意力负责捕获局部特征,而帧间空间注意力则对跨帧的长程依赖进行建模。这一阶段聚合了相关的 3D 空间特征,旨在增强高频表示并锐化结构细节。通过在这两种机制之间交替迭代,ASTT 遵循“先几何一致性对齐,后细节锐化”的原则,最终输出高保真的深度序列。

三、实验结果:视频深度与点云重建全面SOTA

Zero-shot Depth Estimation

  • 空间精度指标:无论在DepthAnythingV2还是VideoDepthAnything基础上接入GemDepth框架,我们在所有指标上都始终树立了新的先进水平。至关重要的是,GemDepth以卓越的数据效率取得了这些成果。

  • 时间一致性指标:GemDepth始终能产生最稳定的深度估计。值得注意的是,GemDepth-DAv2和GemDepth-VDA均为时间稳定性树立了新的最先进标准,在TAE指标上分别比各自的基线高出56.14%和17.54%。

3D Geometric Accuracy

在 3D 几何精度方面,GemDepth性能实现了断层领先。面对拥有 1.19B 庞大参数量的 DepthAnything3 (DA3) 和 1.10B 的 VGGT,我们的模型仅仅使用了不到它们一半的参数(0.58B),却在核心指标上实现了全面碾压!

  • Depth Accuracy:

    • GemDepth在视频深度估计方面显著优于 DA3,在Scannet 上,时间一致性指标(TAE)减少了一半以上(0.47 vs 1.12),并将 Bonn 上的绝对相对误差(AbsRel)降低了 70%(0.05 vs 0.18)。这得益于我们模型强大的3D 感知能力。在几何线索引导下,通过交替时空帧间交互捕获点级对应关系,同步提升空间精度与时序一致性。

  • Pointcloud Reconstruction:

    • 除了卓越的视频深度预测精度,GemDepth 还有着极高的 3D 结构保真度。通过将预测的深度序列反投影至 3D 空间,与现有的 3D 基础模型相比,GemDepth 生成了极其干净、连贯的三维点云。具体而言,在极具挑战性的高动态数据集 Bonn ,我们的方法在点云重建的核心指标 F1 上取得了突破性进展,从 78.44(DepthAnything3)大幅跃升至 90.43,相对提升高达 15.3%。这一显著的性能飞跃,得益于网络中间层预测的高质量相机位姿与高精度深度边界的深度协同,有效消除了以往方法中常见的‘重影’伪影和边缘拉丝现象。

  • Pose Accuracy:

    • 我们对GemDepth的位姿预测指标也做了定量分析。GemDepth在所有数据集上均取得了极具竞争力的绝对轨迹误差(ATE)。在 Sintel 和 Bonn 等室内数据集中,GemDepth 的 ATE 稳定在 0.03 量级,与庞大的 3D 基础模型仅存在微小差距。值得强调的是,DA3 和 VGGT 是依赖于超过 1.10B 的庞大参数量来拟合这些轨迹的,而 GemDepth 仅使用了 0.58B 的参数量就实现了同等量级的几何精度。更重要的是,在我们的架构中,位姿并非最终输出,而是作为一种强大的物理先验。GEM 模块输出的高可靠性、尺度归一化的中间位姿,为下游的交替时空 Transformer(ASTT)提供了极其精确的帧间对齐引导。

Ablation Studies

在消融实验中,我们系统性验证了模型关键组件的有效性。以VideoDepthAnything为baseline,通过比较加入GEM模块中的Spatial Attention、Temporal Attention和baseline的效果,以及在GEM基础上加入ASTT模块后的效果,证明GEM模块和ASTT模块的有效性。这些模块展现出强大的协同效应,同时优化深度精度和时间一致性。

Visualization

  • Qualitative comparison of spatial accuracy on diverse datasets

如白色箭头所示,GemDepth展现出卓越的空间精度和结构保真度,能有效恢复细粒度细节,同时减轻了其他方法中常见的过度平滑伪影。值得注意的是,第二行展示了我们的模型在动态物体上的优越性能,能有效还原出空中运动的气球。

  • Qualitative results of temporal consistency on videos of varying lengths.

为了评估时间稳定性,我们通过沿固定空间轴(由红线表示)提取深度切片, GemDepth展示了卓越的时间连贯性。相比之下,DepthAnythingV2和VideoDepthAnything存在明显的闪烁和锯齿状的时间不连续性。

  • Zero-Shot performance in KITTI

  • Pointcloud comparation

结论

本文提出了一种新型的视频深度估计框架GemDepth,解决了现有方法在动态场景和长视频中常见的时序闪烁与尺度模糊问题。GemDepth在四大主流基准测试中达到SOTA,并对各类复杂长度的真实世界序列展现出了强大的零样本泛化能力。 与现有的视频深度估计方法相比,GemDepth 具有以下核心优势:

  • 极致的时空 3D 几何一致性:通过全局几何先验应对剧烈视角变化与长时序视频时的帧间闪烁。

  • 卓越的空间细节锐利度:通过时序对齐与空间细化的解耦交替机制,精准锁定潜在的点级对应关系,完美保留复杂物体结构的锐利边界。

  • 高度动态场景下的鲁棒感知:能够有效利用几何线索过滤干扰,在高度动态的视频序列中依然输出精准的深度预测。

  • 高保真的全场景点云重建:凭借帧间的高度一致性与帧内的极致清晰度,直接投影生成的 3D 点云结构致密且无明显几何伪影。

自动驾驶之心

求点赞

求分享

求喜欢

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 11:51:25

Appium环境搭建:Android与iOS全链路验证指南

1. 为什么Appium环境搭建是自动化测试里最常卡住的“第一道墙”很多人以为自动化测试最难的是写脚本、调逻辑、处理动态元素,结果刚点开终端敲下第一条命令,就被卡在npm install -g appium这行报错上,一卡就是两三天。我带过十几支测试团队&a…

作者头像 李华
网站建设 2026/5/26 11:51:17

本地能源共享系统:从硬件架构到智能调度的完整实践

1. 项目概述:一个关于本地能源共享的实践构想 最近几年,身边对光伏发电感兴趣的朋友越来越多。自家屋顶装上光伏板,白天发电自用,多余的电卖给电网,听起来是个不错的投资。但实际操作过的人都知道,这里头有…

作者头像 李华
网站建设 2026/5/26 11:51:12

基于GPS 1PPS与双MCU架构的高精度计时器设计与实现

1. 项目概述:一个基于GPS时间基准的高精度计时器在嵌入式开发领域,实现一个高精度、长时间运行的计时器,同时还要能方便地记录和查看数据,是一个兼具挑战性和实用性的项目。今天分享的这个项目,正是为了解决这个问题而…

作者头像 李华
网站建设 2026/5/26 11:50:57

Git stash 原理与实战:状态快照、LIFO栈与安全上下文切换

1. 项目概述:为什么 stash 不是“临时存档”,而是你工作流里的“时间暂停键”你正在调试一个数据管道的异常行为,data_pipeline.py里刚加了三处日志打印,config.yaml改了两个参数,tests/test_pipeline.py补了一个边界用…

作者头像 李华
网站建设 2026/5/26 11:50:56

3步打造流畅音频体验:HLS.js纯音频播放终极优化指南

3步打造流畅音频体验:HLS.js纯音频播放终极优化指南 【免费下载链接】hls.js HLS.js is a JavaScript library that plays HLS in browsers with support for MSE. 项目地址: https://gitcode.com/gh_mirrors/hl/hls.js 你是否在开发播客应用、在线音乐平台或…

作者头像 李华