华科酷睿程GemDepth：超越VGGT，深度估计新SOTA-编程实验室

点击下方卡片，关注“自动驾驶之心”公众号

作者 | 具身智能之心
编辑 | 自动驾驶之心
本文只做学术分享，如有侵权，联系删文

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

前言：时间一致性，靠的不仅仅是2D层面的约束

视频深度估计任务的核心问题，始终是如何提高视频帧之间的时间一致性以克服帧间闪烁。基于高精度高泛化的单帧深度估计大模型，无论是判别式方法（VideoDepthAnything）抑或是生成式方法（DepthCrafter）都已经有了不错的空间精度。

然而，它们主要依赖于深度隐式时间平滑在二维帧上进行操作，缺乏三维几何感知。这种缺陷使得它们难以保持严格的几何一致性，尤其是在复杂的相机旋转或剧烈的视角变化期。此外，通过优先考虑全局平滑性，这些框架往往会抑制高频空间信息，导致边界模糊和结构退化。

我们认为，明确的3D几何理解-包括对相机运动和全局3D结构的感知-是实现真正时间一致性的先决条件。由于缺乏明确的运动感知先验，模型无法建立增强一致性所必需的潜在点级对应关系。因此，他们容易受到不一致的时间线索的干扰，从而导致空间模糊。当我们把连续的10帧点云投影到第一帧坐标系堆叠到一起时，便明显反映了这个问题。如下图所示，之前的SOTA方法VDA由于缺乏3D几何一致性存在严重的重影，而GemDepth有效的抑制了这一点。

论文链接：https://arxiv.org/abs/2605.10525
代码链接：https://github.com/Yuecheng919/GemDepth

本文作者来自于华中科技大学杨欣团队和酷睿程团队，一作刘粤诚，通讯程俊达

一、华科&酷睿程团队解决方案：GemDepth

华科&酷睿程团队提出基于几何参数自预测的视频深度估计框架 GemDepth，在视频深度估计领域中首次利用几何参数作为隐式嵌入，解决现有视频深度估计在视角剧烈变化时难以维持3D几何一致性、易导致空间模糊与时序不连续的问题。模型效果大幅刷新视频深度估计SOTA并在点云重建效果上优于DepthAnything3，VGGT等3D基础模型。

核心思路

现有的方法往往陷入一个困境：它们本质上是在做 “2D 特征序列的盲目平滑”。GemDepth给出了截然不同的做法：通过显式预测相机位姿来注入运动先验，并在“时序对齐”与“空间细化”之间交替运行，协同聚合出3D几何一致的视频深度。

二、具体实施：几何先验与时空交替的协同作用

GemDepth架构如上图所示，主要分为两大核心板块：

几何嵌入模块(GEM)

基于DinoV2 Encoder中丰富的特征表示，几何嵌入模块（GEM）基于轻量级的 EfficientPoseNet，预测出帧间6-DoF相机位姿。然后相机位姿信息经由 MLP 编码，生成度量感知的相机特征表示 Fcam作为后续的几何先验。

EfficientPoseNet通过一个四层的交替注意力Transformer处理注入到特征图F4中的可学习相机token t。
为了强化物理约束，GEM 将所有位姿投影至统一的规范化坐标系。
针对单目尺度二义性问题，该模块利用全局尺度因子 Z 对每帧平移量进行归一化处理。通过对 GEM 模块进行显式的尺度归一化真值监督，确保预测位姿在统一的尺度空间内运行，从根本上消除了初始的尺度不一致现象。
这种嵌入与主特征图 F4深度融合，通过物理约束提供显式的几何引导，使深度优化过程由“盲目平滑”转向“物理对齐”。

交替时空Transformer模块(ASTT)

交替时空 Transformer（ASTT）通过将依赖关系建模解耦为两个策略性阶段，实现了时空表示的统一。给定输入增强视觉特征，ASTT 在“时序对齐”与“空间细化”之间交替运行，以强化几何一致性。

用于几何对齐的时序注意力：我们首先重组特征图，在对齐的空间位置上显式隔离时域依赖。利用 GEM 提供的 6-DoF 运动先验，该阶段在时间轴上建立了显式的点级对应关系。通过执行基于轨迹的特征聚合，它在捕获纯粹运动线索的同时，减轻了复杂空间上下文的干扰，从而确保了稳健的空间结构一致性和无闪烁的深度序列。
用于结构细化的空间注意力：以对齐后的时序特征为条件，我们重新构建表示以进行全局信息交换。该过程分解为两种专门机制：帧内空间注意力负责捕获局部特征，而帧间空间注意力则对跨帧的长程依赖进行建模。这一阶段聚合了相关的 3D 空间特征，旨在增强高频表示并锐化结构细节。通过在这两种机制之间交替迭代，ASTT 遵循“先几何一致性对齐，后细节锐化”的原则，最终输出高保真的深度序列。

三、实验结果：视频深度与点云重建全面SOTA

Zero-shot Depth Estimation

空间精度指标：无论在DepthAnythingV2还是VideoDepthAnything基础上接入GemDepth框架，我们在所有指标上都始终树立了新的先进水平。至关重要的是，GemDepth以卓越的数据效率取得了这些成果。

时间一致性指标：GemDepth始终能产生最稳定的深度估计。值得注意的是，GemDepth-DAv2和GemDepth-VDA均为时间稳定性树立了新的最先进标准，在TAE指标上分别比各自的基线高出56.14%和17.54%。

3D Geometric Accuracy

在 3D 几何精度方面，GemDepth性能实现了断层领先。面对拥有 1.19B 庞大参数量的 DepthAnything3 (DA3) 和 1.10B 的 VGGT，我们的模型仅仅使用了不到它们一半的参数（0.58B），却在核心指标上实现了全面碾压！

Depth Accuracy:
- GemDepth在视频深度估计方面显著优于 DA3，在Scannet 上，时间一致性指标（TAE）减少了一半以上（0.47 vs 1.12），并将 Bonn 上的绝对相对误差（AbsRel）降低了 70%（0.05 vs 0.18）。这得益于我们模型强大的3D 感知能力。在几何线索引导下，通过交替时空帧间交互捕获点级对应关系，同步提升空间精度与时序一致性。
Pointcloud Reconstruction:
- 除了卓越的视频深度预测精度，GemDepth 还有着极高的 3D 结构保真度。通过将预测的深度序列反投影至 3D 空间，与现有的 3D 基础模型相比，GemDepth 生成了极其干净、连贯的三维点云。具体而言，在极具挑战性的高动态数据集 Bonn ，我们的方法在点云重建的核心指标 F1 上取得了突破性进展，从 78.44（DepthAnything3）大幅跃升至 90.43，相对提升高达 15.3%。这一显著的性能飞跃，得益于网络中间层预测的高质量相机位姿与高精度深度边界的深度协同，有效消除了以往方法中常见的‘重影’伪影和边缘拉丝现象。
Pose Accuracy:
- 我们对GemDepth的位姿预测指标也做了定量分析。GemDepth在所有数据集上均取得了极具竞争力的绝对轨迹误差（ATE）。在 Sintel 和 Bonn 等室内数据集中，GemDepth 的 ATE 稳定在 0.03 量级，与庞大的 3D 基础模型仅存在微小差距。值得强调的是，DA3 和 VGGT 是依赖于超过 1.10B 的庞大参数量来拟合这些轨迹的，而 GemDepth 仅使用了 0.58B 的参数量就实现了同等量级的几何精度。更重要的是，在我们的架构中，位姿并非最终输出，而是作为一种强大的物理先验。GEM 模块输出的高可靠性、尺度归一化的中间位姿，为下游的交替时空 Transformer（ASTT）提供了极其精确的帧间对齐引导。

Ablation Studies

在消融实验中，我们系统性验证了模型关键组件的有效性。以VideoDepthAnything为baseline,通过比较加入GEM模块中的Spatial Attention、Temporal Attention和baseline的效果，以及在GEM基础上加入ASTT模块后的效果，证明GEM模块和ASTT模块的有效性。这些模块展现出强大的协同效应，同时优化深度精度和时间一致性。