「理想先把地基打好了......」
目录
01 大家都在卷世界模型,理想在干嘛
02 这篇工作究竟解决了什么问题
03 两阶段、两个核心蒸馏目标
第一阶段:训练一个"知道自己在哪"的几何教师
第二阶段:几何保真蒸馏,重点在两个模块
04 效率是最大的差异
推理效率:这才是核心指标
3D 重建质量:用更小的代价做到了差不多
下游任务迁移:几何表征的真正价值
05 GeoX 在行业里处于什么位置
06 现存的短板
07 从产业落地看GeoX
当自动驾驶圈都在扩参数、堆世界模型的时候,理想汽车的这篇论文往反方向走了一步:
把一个十亿级别的大模型,蒸馏成 1.55 亿参数、能在车载芯片上跑的小模型,还能在 KITTI 上做到 220 FPS、显存仅占 1.75 GB。
但这不只是一个"压缩"故事。
它真正想论证的是:
密集 3D 几何重建,不应该只是一个离线感知任务,而可以成为端侧部署的基础几何表征。轨迹预测、占据预测、未来帧预测,全部可以基于这套几何接着做,还能跑在车上。
图| Deployment Inference Speed
01 大家都在卷世界模型,理想在干嘛
2025 年底到 2026 年上半年,自动驾驶圈有个不太被点破的共识:世界模型是下一个主战场。
特斯拉的 FSD 体系在走端到端生成路线,小米发布的 Auto World Model 把三维重建和视频生成做成了一体化架构,华为、小鹏也各自有相关布局。
图|小米Joint World Model 框架
理想自己今年 3 月也在 GTC 2026 上发布了 MindVLA-o1,走的是原生多模态 + 具身智能的方向。今年CVPR 2026理想有12篇论文入选,也说明理想在底层技术上的投入并非浅尝。
GeoX 更像是在做地基工作:在 MindVLA 等上层大模型之下,先把"几何感知可以高效部署"这件事讲清楚、做实。
02 这篇工作究竟解决了什么问题
现有的视觉几何大模型VGGT、π3、OmniVGGT能从多视图图像里预测稠密点云、深度图、相机位姿,精度很不错。但这些模型的参数量普遍在 10 亿左右,跑一帧 Waymo 的 5 路摄像头需要 100ms 以上的延迟,显存动辄 7–9 GB。
这类模型的定位,本质上是"离线重建工具"。换句话说,它们可以用来处理历史数据,但真要塞进车载计算平台做实时感知,几乎是不现实的。
图|VGGT模型框架
更麻烦的是,直接对这类大模型做知识蒸馏并不简单。标准的蒸馏策略,比如特征对齐、输出软标签对齐,用来压缩语义分类任务通常够用,但对密集几何来说有两个明显的短板:
- 所有区域一视同仁:车辆边缘、远距离目标、结构稀疏的区域,几何信息密度差异很大,用统一的 L2 损失去学,小模型会自然偏向"简单区域",牺牲掉几何敏感位置的精度。
- 各视角独立优化:环视摄像头有六七个视角,彼此间重叠很少。如果每个视角的特征单独对齐,丢失的恰好是"不同视角之间的空间关系",而这种关系对构建一致的自车坐标系至关重要。
LiAuto-GeoX 的核心贡献,就在于针对这两个缺陷分别设计了针对性的蒸馏目标,让大模型的几何能力真正"传"进小模型,而不是被模糊地稀释掉。
图|LiAuto-GeoX总览
03 两阶段、两个核心蒸馏目标
第一阶段:训练一个"知道自己在哪"的几何教师
教师模型的架构沿用了 VGGT 风格的大规模视觉几何 Transformer(24 层编码器 + 24 层解码器,特征维度 1024)。
关键设计是:把标定好的相机外参作为显式输入。这不是可选项,而是让模型从一开始就知道自己在车辆坐标系里的位置——哪个摄像头朝前、哪个朝侧后——从而输出具有度量尺度的几何,而不是相对深度。
稀疏 LiDAR 点云在训练时作为辅助的几何锚点使用(仅训练阶段,推理时不需要),专门用来提升远距离、弱纹理区域的深度监督密度。这个设计很有意思:LiDAR 是稀疏的,但教师模型输出的是稠密预测,相当于用稀疏真实值"打底",让教师先学会远距离到底该怎么预测。
图|LiAuto-GeoX的整体流程
第二阶段:几何保真蒸馏,重点在两个模块
学生模型设计得相当克制:DINOv2-Small 作为编码器,12 层解码器,特征维度压缩到 384,总参数量155M。
教师冻结后,学生从两个角度接受约束:
1. 掩码引导深度感知蒸馏(Mask-Guided Depth-Aware Distillation)
核心思路:让教师"指出"几何信息丰富的 token,然后让这些 token 的响应条件化学生的特征形成。
具体做法是从冻结教师的解码层提取 token 级激活分数,将激活值超过均值的位置标记为高几何响应区域(二值掩码 M),同时把教师预测的深度图下采样到 token 分辨率,与掩码拼接后输入一个轻量的深度掩码适配器(Depth-Mask Adapter),生成条件偏置 token B
图|掩码引导的深度感知蒸馏
用公式简单写就是:
这里是 token 级门控,只有高激活位置的学生 token 会被"推一把",让它把更多表征容量用在几何敏感区域。
关键是:推理时这个适配器不存在,训练完之后就扔掉了,部署的学生模型里没有任何额外开销。
2. 相对位姿关系蒸馏(Relative-Pose Relational Distillation)
直接对每个视角的相机位姿 token 做特征对齐,有个本质缺陷——它告诉学生"每个视角应该长什么样",但没有告诉学生"这些视角之间的空间关系应该是什么"。
图|相对位姿关系蒸馏
RPR 的做法是:把教师和学生各个视角的相机条件 token 归一化到单位超球面,然后计算所有视角对之间的余弦相似度矩阵(N×N 关系矩阵),让学生的跨视角关系矩阵匹配教师的:
这里是梯度截断,只对学生侧更新。这相当于把"相机之间的几何关系"作为一种监督信号传递下去,而不是直接回归绝对位姿——后者在环视场景里往往因为视角重叠稀少而难以稳定监督。
两个蒸馏目标是互补的:遮罩蒸馏管局部(边界、远距离的深度精度),关系蒸馏管全局(跨视角的空间一致性)。消融实验里去掉任何一个,效果都会明显下降。
04 效率是最大的差异
推理效率:这才是核心指标
图|不同模型推理效率对比表
这组数字的差距不是小打小闹。同等条件下,GeoX 的延迟是 VGGT 的约一半,显存只有它的 23%。放到 KITTI 单目序列上能跑到223.8 FPS,是 π3 的两倍。
需要说明的是:这些速度测试都在 A100 上做的,不是真实车载芯片(Orin、MDC 等)的数字。从 A100 到车端 SoC 还有很大的工程鸿沟,不能直接等价。
3D 重建质量:用更小的代价做到了差不多
图|深度估计定量结果表(含 KITTI FPS 指标)
在 DDAD 数据集上,GeoX 用 1/6 不到的参数量做到了所有方法里最好的重建精度,包括比它大很多的 π3。在其他数据集上,虽然有些指标没有达到最优,但整体上与十亿参数级别的模型保持了可竞争的水准。
但要注意:所有重建评估都需要先做 Umeyama 尺度对齐,这一步本身会"校正"掉部分绝对几何误差。真实部署场景下,尺度漂移的问题依然存在。
下游任务迁移:几何表征的真正价值
图|NAVSIM 闭环规划(轨迹预测)结果表
图|Occ3D-nuScenes 4D 占据预测结果表
这组数字背后有一个重要设定:下游评估时骨干参数严格冻结,只训了一个轻量规划解码器。这意味着什么?意味着这些增益来自几何表征本身的质量,而不是靠下游微调"补课"出来的。
这恰恰是这篇论文最想证明的事:高质量、可迁移的几何表征,可以在不调整骨干的情况下,帮助多个下游任务。
05 GeoX 在行业里处于什么位置
坦白说,GeoX 不是在跟世界模型比,而是在跟另一类问题竞争:“通用视觉几何大模型能不能上车”。
图|环视重建定性对比图(直道、城市弯道场景)
VGGT、π3、OmniVGGT 这类模型的出发点是通用场景重建,它们在 KITTI 单目深度上表现突出,但在 nuScenes、Lyft 这种多摄像头环视场景里表现明显下滑,原因是通用预训练对自车坐标系的驾驶专属结构不够敏感。
DVGT 是最近最接近 GeoX 方向的工作(CVPR 2026,清华/北大/小米合作),专门针对驾驶场景设计了视觉几何 Transformer,重建精度不错,但参数量打到了 1.73B,延迟更高。DVGT 可以理解为"驾驶特化版 VGGT",GeoX 则是"驾驶特化版 + 可部署版"。
图|DVGT-1
FastVGGT、LiteVGGT 是在做 VGGT 的推理加速,思路是对原始架构剪枝或量化,但没有专门针对驾驶场景做几何特化,所以虽然参数量相近,但多摄像头场景下的跨视角一致性明显弱于 GeoX。
如果非要在行业里给 GeoX 定位,它做的事情更接近"驾驶几何感知的工程化落地方法论",而不是一个新的感知范式。它的价值不在于某一个指标刷出了多高,而在于:提供了一套从大模型知识到小模型部署的几何感知迁移框架。
06 现存的短板
1. 220 FPS 是在 KITTI 上的数字,不代表车载实际情况
KITTI 是 2 路摄像头的单目序列,和 Waymo 5 路、OpenScene 8 路相比帧结构差异很大。真正在 Orin/BPU/MDC 上的推理速度需要专门测试。
2. LiDAR 辅助的泛化性问题
教师训练时用了稀疏 LiDAR 做几何锚点。这在有 LiDAR 的训练场景下很有效,但对于"学生在仅有摄像头输入的新场景下泛化"是否依然可靠,论文里的评估相对有限。从 Table 2 的跨数据集数字看,Waymo 上的精度与最强基线还有差距,说明迁移能力仍有提升空间。
3. 下游任务的优势很微弱
轨迹预测 PDMS 从 90.3 提升到 90.6,4D 占据预测平均 mIoU 从 24.13% 到 24.63%。这些提升虽然存在,但幅度很小,很难排除数据集分割、训练随机性等因素的影响。更大规模的验证或许更有说服力。
07 从产业落地看GeoX
从产业应用视角看,这篇工作有几点值得关注:
- 第一,提供了一个可操作的"大模型→端侧模型"几何迁移范式。现在行业里对"上车"的路径一直有争议,GeoX 的蒸馏框架给出了一套具体方案,而不只是定性描述。
- 第二,几何表征作为下游任务通用基础的思路是对的。这跟语言模型领域用预训练表征做迁移学习的逻辑是一脉相承的,只不过迁移的是几何而不是语义。理想在 MindVLA 和 GeoX 之间的关系,可以理解为"上层理解模型"和"底层几何感知"的一种分层设计。
- 第三,对相机标定信息的显式利用是工程上比较成熟的思路,理想把它系统化到了教师训练里,让驾驶特化的几何先验真正进入了模型。
总体来看,LiAuto-GeoX 不是一篇意图颠覆现有范式的论文,而是在做一件扎实但容易被忽视的事:让几何感知跑得足够快、足够准、能真正上车。
这件事的难度,并不比提出一个新的大模型架构低。
Ref
论文标题:LiAuto-GeoX: Efficient Grounded Driving Transformer
论文地址:https://arxiv.org/abs/2606.05774
项目主页:https://ljwwwiop.github.io/GeoX/