别被室内基准高分骗了：大模型是在推理空间，还是在「背答案」？-编程实验室

中国科学院大学机器学习与感知实验室联合微软亚洲研究院以及苏黎世联邦理工大学共同发布了全新空间智能基准 OSI-Bench，从数据源头出发，基于自采开放世界中带有准确 3D 标注的视频数据，提供了对空间智能真正诊断的能力。

2025 年，随着李飞飞等学者将 “空间智能”（Spatial Intelligence）推向聚光灯下，这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA，似乎 AI 在训练中已经更好地读懂了三维空间。

然而，这背后存在着隐忧：由于带有准确 3D 标注数据的稀缺，模型训练所用数据（如 ScanNet++、ARKitScenes）往往与测试基准高度同源。这种数据的 “近亲繁殖” 让我们不得不担忧：近期模型分数的飙升，究竟是真正习得了空间几何推理能力，还是仅仅因为 “看多了” 类似的室内数据分布，从而学会了 “背答案”？

为了回答这个问题，中国科学院大学机器学习与感知实验室联合微软亚洲研究院以及苏黎世联邦理工大学共同发布了全新空间智能基准 OSI-Bench，从数据源头出发，基于自采开放世界中带有准确 3D 标注的视频数据，提供了对空间智能真正诊断的能力。由此出发，该工作重新审视了当前大模型的空间能力是否得到了发展。真正的空间智能鸿沟，或许无法在现有数据范式下仅靠简单的微调来填平。

论文标题：From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
作者：Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang
论文地址：https://arxiv.org/abs/2512.19683
项目主页：https://mingrui-wu.github.io/osi-bench

室内场景的局限

近年来，空间智能的研究大多聚焦于室内场景。这很大程度上受限于源数据集的匮乏 —— 少数可用的室外数据集往往基于自动驾驶视角，与第一人称的行人视角存在本质差异。

这种对室内数据的过度依赖，不仅导致了训练集与测试集的高度同源，更因室内场景过强的语义先验难以公平评估模型的空间感知和推理能力。

当我们在室内场景提问时（例如：“浴缸和马桶之间相距多远？”），模型往往能基于 “典型浴室布局” 的先验知识做出合理推测。即便关闭视觉输入，模型也能仅从语言信息 “盲猜” 对部分此类问题。

OSI-Bench 选择的室外开放世界的一个核心优势在于其复杂性与随机性。在这种环境下，语义先验变得微弱。面对 “告示牌和遮阳篷之间的距离是多远” 这样的问题，模型无法再仅凭语义关联获得正确答案，被迫回归到真正的视觉空间推理上来。这种对先验知识与视觉空间智能的解耦，使得 OSI-Bench 可以评估模型的真实空间能力。

从数据到问答

OSI-Bench 摒弃了从现有数据集二次提取的路径，完全基于由多传感器平台（双目相机、LiDAR、IMU/GPS）采集的原始视频流。这些数据自带精确的 3D 信息，覆盖了公园、步行街、古建筑、校园等丰富多样的开放世界场景。

我们的 Human-in-the-loop 流程从 20 小时的视频素材中生成约 9000 条高质量问答，涵盖 9 种任务。为了系统性评估模型能力，我们将这些任务划分为空间智能的三个层级：

1. 相对关系：针对空间位置的定性判断

2. 静态尺度：针对静态空间物理量的定量估算

3. 动态尺度：引入时间维度的动态物理量估计

评测结果：我们离空间智能还有多遥远？

在 OSI-Bench 上的评测结果表明，当下的开源与闭源 SOTA 多模态大语言模型普遍在这些任务上失败了。

尽管 Gemini-2.5-Pro 在一众模型中取得了相对显著的优势，但整体表现仍远低于人类水平。然而，比低分更令人担忧的是，我们目前看到的所谓 “空间智能提升”，可能只是一场虚假的繁荣。

我们为此研究了在 2025 年发布新版本并报告在 VSI-Bench（室内基准）上取得巨大提升的两个模型家族：Qwen-VL 与 InternVL 系列。

这两个系列在加入更多空间数据训练后，其同尺寸新旧版本在 VSI-Bench 上的得分显著上升了约 24.1 分，性能几乎翻倍。然而，这种惊人的增长并未出现在同样考察空间推理的 OSI-Bench 上。

另外，结果显示，在绝对距离任务上，更新后的各尺寸模型在 VSI-Bench 上一致涨点，却在 OSI-Bench 上一致退步。由于两个基准在这一任务上采用的提问模版完全相同（仅场景不同），这提供了直接的证据：模型在室内基准上的分数提升，本质上是对特定场景分布的过拟合，而非真正习得了可泛化的空间智能。

我们正在经历的这场 “空间智能刷点狂潮”，或许只是空中楼阁。