理想最新的工作LiAuto-GeoX，端侧部署的稠密 3D 几何，终于跑起来了！-编程实验室

「理想先把地基打好了......」

01 大家都在卷世界模型，理想在干嘛

02 这篇工作究竟解决了什么问题

03 两阶段、两个核心蒸馏目标

第一阶段：训练一个"知道自己在哪"的几何教师

第二阶段：几何保真蒸馏，重点在两个模块

04 效率是最大的差异

推理效率：这才是核心指标

3D 重建质量：用更小的代价做到了差不多

下游任务迁移：几何表征的真正价值

05 GeoX 在行业里处于什么位置

06 现存的短板

07 从产业落地看GeoX

当自动驾驶圈都在扩参数、堆世界模型的时候，理想汽车的这篇论文往反方向走了一步：

把一个十亿级别的大模型，蒸馏成 1.55 亿参数、能在车载芯片上跑的小模型，还能在 KITTI 上做到 220 FPS、显存仅占 1.75 GB。

但这不只是一个"压缩"故事。

它真正想论证的是：

密集 3D 几何重建，不应该只是一个离线感知任务，而可以成为端侧部署的基础几何表征。轨迹预测、占据预测、未来帧预测，全部可以基于这套几何接着做，还能跑在车上。

图| Deployment Inference Speed

01 大家都在卷世界模型，理想在干嘛

2025 年底到 2026 年上半年，自动驾驶圈有个不太被点破的共识：世界模型是下一个主战场。

特斯拉的 FSD 体系在走端到端生成路线，小米发布的 Auto World Model 把三维重建和视频生成做成了一体化架构，华为、小鹏也各自有相关布局。

图｜小米Joint World Model 框架

理想自己今年 3 月也在 GTC 2026 上发布了 MindVLA-o1，走的是原生多模态 + 具身智能的方向。今年CVPR 2026理想有12篇论文入选，也说明理想在底层技术上的投入并非浅尝。

GeoX 更像是在做地基工作：在 MindVLA 等上层大模型之下，先把"几何感知可以高效部署"这件事讲清楚、做实。

02 这篇工作究竟解决了什么问题

现有的视觉几何大模型VGGT、π3、OmniVGGT能从多视图图像里预测稠密点云、深度图、相机位姿，精度很不错。但这些模型的参数量普遍在 10 亿左右，跑一帧 Waymo 的 5 路摄像头需要 100ms 以上的延迟，显存动辄 7–9 GB。

这类模型的定位，本质上是"离线重建工具"。换句话说，它们可以用来处理历史数据，但真要塞进车载计算平台做实时感知，几乎是不现实的。

图｜VGGT模型框架

更麻烦的是，直接对这类大模型做知识蒸馏并不简单。标准的蒸馏策略，比如特征对齐、输出软标签对齐，用来压缩语义分类任务通常够用，但对密集几何来说有两个明显的短板：

所有区域一视同仁：车辆边缘、远距离目标、结构稀疏的区域，几何信息密度差异很大，用统一的 L2 损失去学，小模型会自然偏向"简单区域"，牺牲掉几何敏感位置的精度。
各视角独立优化：环视摄像头有六七个视角，彼此间重叠很少。如果每个视角的特征单独对齐，丢失的恰好是"不同视角之间的空间关系"，而这种关系对构建一致的自车坐标系至关重要。

LiAuto-GeoX 的核心贡献，就在于针对这两个缺陷分别设计了针对性的蒸馏目标，让大模型的几何能力真正"传"进小模型，而不是被模糊地稀释掉。

图｜LiAuto-GeoX总览

03 两阶段、两个核心蒸馏目标

第一阶段：训练一个"知道自己在哪"的几何教师

教师模型的架构沿用了 VGGT 风格的大规模视觉几何 Transformer（24 层编码器 + 24 层解码器，特征维度 1024）。

关键设计是：把标定好的相机外参作为显式输入。这不是可选项，而是让模型从一开始就知道自己在车辆坐标系里的位置——哪个摄像头朝前、哪个朝侧后——从而输出具有度量尺度的几何，而不是相对深度。

稀疏 LiDAR 点云在训练时作为辅助的几何锚点使用（仅训练阶段，推理时不需要），专门用来提升远距离、弱纹理区域的深度监督密度。这个设计很有意思：LiDAR 是稀疏的，但教师模型输出的是稠密预测，相当于用稀疏真实值"打底"，让教师先学会远距离到底该怎么预测。

图｜LiAuto-GeoX的整体流程

第二阶段：几何保真蒸馏，重点在两个模块

学生模型设计得相当克制：DINOv2-Small 作为编码器，12 层解码器，特征维度压缩到 384，总参数量155M。

教师冻结后，学生从两个角度接受约束：

1. 掩码引导深度感知蒸馏（Mask-Guided Depth-Aware Distillation）

核心思路：让教师"指出"几何信息丰富的 token，然后让这些 token 的响应条件化学生的特征形成。

具体做法是从冻结教师的解码层提取 token 级激活分数，将激活值超过均值的位置标记为高几何响应区域（二值掩码 M），同时把教师预测的深度图下采样到 token 分辨率，与掩码拼接后输入一个轻量的深度掩码适配器（Depth-Mask Adapter），生成条件偏置 token B

图｜掩码引导的深度感知蒸馏

用公式简单写就是：

这里是 token 级门控，只有高激活位置的学生 token 会被"推一把"，让它把更多表征容量用在几何敏感区域。

关键是：推理时这个适配器不存在，训练完之后就扔掉了，部署的学生模型里没有任何额外开销。

2. 相对位姿关系蒸馏（Relative-Pose Relational Distillation）

直接对每个视角的相机位姿 token 做特征对齐，有个本质缺陷——它告诉学生"每个视角应该长什么样"，但没有告诉学生"这些视角之间的空间关系应该是什么"。

图｜相对位姿关系蒸馏

RPR 的做法是：把教师和学生各个视角的相机条件 token 归一化到单位超球面，然后计算所有视角对之间的余弦相似度矩阵（N×N 关系矩阵），让学生的跨视角关系矩阵匹配教师的：

这里是梯度截断，只对学生侧更新。这相当于把"相机之间的几何关系"作为一种监督信号传递下去，而不是直接回归绝对位姿——后者在环视场景里往往因为视角重叠稀少而难以稳定监督。

两个蒸馏目标是互补的：遮罩蒸馏管局部（边界、远距离的深度精度），关系蒸馏管全局（跨视角的空间一致性）。消融实验里去掉任何一个，效果都会明显下降。

04 效率是最大的差异

推理效率：这才是核心指标

图｜不同模型推理效率对比表

这组数字的差距不是小打小闹。同等条件下，GeoX 的延迟是 VGGT 的约一半，显存只有它的 23%。放到 KITTI 单目序列上能跑到223.8 FPS，是 π3 的两倍。

需要说明的是：这些速度测试都在 A100 上做的，不是真实车载芯片（Orin、MDC 等）的数字。从 A100 到车端 SoC 还有很大的工程鸿沟，不能直接等价。

3D 重建质量：用更小的代价做到了差不多

图｜深度估计定量结果表（含 KITTI FPS 指标）

在 DDAD 数据集上，GeoX 用 1/6 不到的参数量做到了所有方法里最好的重建精度，包括比它大很多的 π3。在其他数据集上，虽然有些指标没有达到最优，但整体上与十亿参数级别的模型保持了可竞争的水准。

但要注意：所有重建评估都需要先做 Umeyama 尺度对齐，这一步本身会"校正"掉部分绝对几何误差。真实部署场景下，尺度漂移的问题依然存在。

下游任务迁移：几何表征的真正价值

图｜NAVSIM 闭环规划（轨迹预测）结果表

图｜Occ3D-nuScenes 4D 占据预测结果表

这组数字背后有一个重要设定：下游评估时骨干参数严格冻结，只训了一个轻量规划解码器。这意味着什么？意味着这些增益来自几何表征本身的质量，而不是靠下游微调"补课"出来的。

这恰恰是这篇论文最想证明的事：高质量、可迁移的几何表征，可以在不调整骨干的情况下，帮助多个下游任务。

05 GeoX 在行业里处于什么位置

坦白说，GeoX 不是在跟世界模型比，而是在跟另一类问题竞争：“通用视觉几何大模型能不能上车”。

图｜环视重建定性对比图（直道、城市弯道场景）

VGGT、π3、OmniVGGT 这类模型的出发点是通用场景重建，它们在 KITTI 单目深度上表现突出，但在 nuScenes、Lyft 这种多摄像头环视场景里表现明显下滑，原因是通用预训练对自车坐标系的驾驶专属结构不够敏感。

DVGT 是最近最接近 GeoX 方向的工作（CVPR 2026，清华/北大/小米合作），专门针对驾驶场景设计了视觉几何 Transformer，重建精度不错，但参数量打到了 1.73B，延迟更高。DVGT 可以理解为"驾驶特化版 VGGT"，GeoX 则是"驾驶特化版 + 可部署版"。

图｜DVGT-1

FastVGGT、LiteVGGT 是在做 VGGT 的推理加速，思路是对原始架构剪枝或量化，但没有专门针对驾驶场景做几何特化，所以虽然参数量相近，但多摄像头场景下的跨视角一致性明显弱于 GeoX。

如果非要在行业里给 GeoX 定位，它做的事情更接近"驾驶几何感知的工程化落地方法论"，而不是一个新的感知范式。它的价值不在于某一个指标刷出了多高，而在于：提供了一套从大模型知识到小模型部署的几何感知迁移框架。

06 现存的短板

1. 220 FPS 是在 KITTI 上的数字，不代表车载实际情况

KITTI 是 2 路摄像头的单目序列，和 Waymo 5 路、OpenScene 8 路相比帧结构差异很大。真正在 Orin/BPU/MDC 上的推理速度需要专门测试。

2. LiDAR 辅助的泛化性问题

教师训练时用了稀疏 LiDAR 做几何锚点。这在有 LiDAR 的训练场景下很有效，但对于"学生在仅有摄像头输入的新场景下泛化"是否依然可靠，论文里的评估相对有限。从 Table 2 的跨数据集数字看，Waymo 上的精度与最强基线还有差距，说明迁移能力仍有提升空间。

3. 下游任务的优势很微弱

轨迹预测 PDMS 从 90.3 提升到 90.6，4D 占据预测平均 mIoU 从 24.13% 到 24.63%。这些提升虽然存在，但幅度很小，很难排除数据集分割、训练随机性等因素的影响。更大规模的验证或许更有说服力。

07 从产业落地看GeoX

从产业应用视角看，这篇工作有几点值得关注：

第一，提供了一个可操作的"大模型→端侧模型"几何迁移范式。现在行业里对"上车"的路径一直有争议，GeoX 的蒸馏框架给出了一套具体方案，而不只是定性描述。
第二，几何表征作为下游任务通用基础的思路是对的。这跟语言模型领域用预训练表征做迁移学习的逻辑是一脉相承的，只不过迁移的是几何而不是语义。理想在 MindVLA 和 GeoX 之间的关系，可以理解为"上层理解模型"和"底层几何感知"的一种分层设计。
第三，对相机标定信息的显式利用是工程上比较成熟的思路，理想把它系统化到了教师训练里，让驾驶特化的几何先验真正进入了模型。

总体来看，LiAuto-GeoX 不是一篇意图颠覆现有范式的论文，而是在做一件扎实但容易被忽视的事：让几何感知跑得足够快、足够准、能真正上车。

这件事的难度，并不比提出一个新的大模型架构低。

Ref

论文标题：LiAuto-GeoX: Efficient Grounded Driving Transformer

论文地址：https://arxiv.org/abs/2606.05774

项目主页：https://ljwwwiop.github.io/GeoX/