news 2026/6/15 18:12:08

别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

中国科学院大学机器学习与感知实验室联合微软亚洲研究院以及苏黎世联邦理工大学共同发布了全新空间智能基准 OSI-Bench,从数据源头出发,基于自采开放世界中带有准确 3D 标注的视频数据,提供了对空间智能真正诊断的能力。

2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。

然而,这背后存在着隐忧:由于带有准确 3D 标注数据的稀缺,模型训练所用数据(如 ScanNet++、ARKitScenes)往往与测试基准高度同源。这种数据的 “近亲繁殖” 让我们不得不担忧:近期模型分数的飙升,究竟是真正习得了空间几何推理能力,还是仅仅因为 “看多了” 类似的室内数据分布,从而学会了 “背答案”?

为了回答这个问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院以及苏黎世联邦理工大学共同发布了全新空间智能基准 OSI-Bench,从数据源头出发,基于自采开放世界中带有准确 3D 标注的视频数据,提供了对空间智能真正诊断的能力。由此出发,该工作重新审视了当前大模型的空间能力是否得到了发展。真正的空间智能鸿沟,或许无法在现有数据范式下仅靠简单的微调来填平。

  • 论文标题:From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
  • 作者:Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang
  • 论文地址:https://arxiv.org/abs/2512.19683
  • 项目主页:https://mingrui-wu.github.io/osi-bench
室内场景的局限

近年来,空间智能的研究大多聚焦于室内场景。这很大程度上受限于源数据集的匮乏 —— 少数可用的室外数据集往往基于自动驾驶视角,与第一人称的行人视角存在本质差异。

这种对室内数据的过度依赖,不仅导致了训练集与测试集的高度同源,更因室内场景过强的语义先验难以公平评估模型的空间感知和推理能力。

当我们在室内场景提问时(例如:“浴缸和马桶之间相距多远?”),模型往往能基于 “典型浴室布局” 的先验知识做出合理推测。即便关闭视觉输入,模型也能仅从语言信息 “盲猜” 对部分此类问题。

OSI-Bench 选择的室外开放世界的一个核心优势在于其复杂性与随机性。在这种环境下,语义先验变得微弱。面对 “告示牌和遮阳篷之间的距离是多远” 这样的问题,模型无法再仅凭语义关联获得正确答案,被迫回归到真正的视觉空间推理上来。这种对先验知识与视觉空间智能的解耦,使得 OSI-Bench 可以评估模型的真实空间能力。

从数据到问答

OSI-Bench 摒弃了从现有数据集二次提取的路径,完全基于由多传感器平台(双目相机、LiDAR、IMU/GPS)采集的原始视频流。这些数据自带精确的 3D 信息,覆盖了公园、步行街、古建筑、校园等丰富多样的开放世界场景。

我们的 Human-in-the-loop 流程从 20 小时的视频素材中生成约 9000 条高质量问答,涵盖 9 种任务。为了系统性评估模型能力,我们将这些任务划分为空间智能的三个层级:

1. 相对关系 :针对空间位置的定性判断

2. 静态尺度 :针对静态空间物理量的定量估算

3. 动态尺度 :引入时间维度的动态物理量估计

评测结果:我们离空间智能还有多遥远?

在 OSI-Bench 上的评测结果表明,当下的开源与闭源 SOTA 多模态大语言模型普遍在这些任务上失败了。

尽管 Gemini-2.5-Pro 在一众模型中取得了相对显著的优势,但整体表现仍远低于人类水平。然而,比低分更令人担忧的是,我们目前看到的所谓 “空间智能提升”,可能只是一场虚假的繁荣。

我们为此研究了在 2025 年发布新版本并报告在 VSI-Bench(室内基准)上取得巨大提升的两个模型家族:Qwen-VL 与 InternVL 系列。

这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在 VSI-Bench 上的得分显著上升了约 24.1 分,性能几乎翻倍。然而,这种惊人的增长并未出现在同样考察空间推理的 OSI-Bench 上。

另外,结果显示,在绝对距离任务上,更新后的各尺寸模型在 VSI-Bench 上一致涨点,却在 OSI-Bench 上一致退步。由于两个基准在这一任务上采用的提问模版完全相同(仅场景不同),这提供了直接的证据:模型在室内基准上的分数提升,本质上是对特定场景分布的过拟合,而非真正习得了可泛化的空间智能。

我们正在经历的这场 “空间智能刷点狂潮”,或许只是空中楼阁。

语言先验:模型的捷径

当面对空间任务时,相比于费力地进行视觉几何推理,模型更倾向于走 “捷径”—— 利用语言先验知识,基于平均值进行猜测。

为了量化这一现象,我们设计了两组实验。

盲测实验结果显示,模型在有 / 无视觉输入的情况下的得分差距极小,视觉输入并没有被有效地在推理中使用。

我们构建了一组包含 “正常场景” 与 “反常场景”(物体尺寸被特意调整至违背常理)的合成数据。人类在面对反常场景时,空间判断力并未受太大影响;而模型在语言先验失效、常理不再适用的情况下,性能出现了断崖式下跌。

总结与展望

OSI-Bench 暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,更让我们对当前模型是否真正具备可泛化的空间能力提出了质疑。

我们呼唤一种全新的空间智能范式,相较于 />

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 14:10:54

VSCode智能提示卡顿怎么办:3步实现会话响应速度翻倍

第一章:VSCode智能体会话优化Visual Studio Code(VSCode)作为现代开发者的首选编辑器,其智能化功能极大提升了编码效率。通过合理配置与扩展插件的协同使用,开发者能够实现高效的会话管理与上下文感知交互。启用智能感…

作者头像 李华
网站建设 2026/6/15 4:36:05

VSCode卡到无法工作?(紧急避坑指南:智能扩展导致的性能雪崩)

第一章:VSCode后台智能体性能问题的根源Visual Studio Code(VSCode)作为当前最流行的代码编辑器之一,其强大的扩展生态和智能化功能深受开发者喜爱。然而,在实际使用中,部分用户会遇到编辑器响应迟缓、CPU占…

作者头像 李华
网站建设 2026/6/15 13:08:29

Qwen3Guard-Gen-8B助力React Native应用内容安全升级

Qwen3Guard-Gen-8B助力React Native应用内容安全升级 在如今的移动生态中,用户生成内容(UGC)早已不再是简单的文字输入。从社交平台的评论区到AI助手的对话流,内容形式愈发多样、语义更加复杂。尤其在基于 React Native 构建的跨平…

作者头像 李华
网站建设 2026/6/15 15:34:52

Qwen3Guard-Gen-8B与区块链结合确保审核记录不可篡改

Qwen3Guard-Gen-8B与区块链结合确保审核记录不可篡改 在生成式AI迅速渗透内容生态的今天,一个日益严峻的问题浮出水面:我们如何信任AI做出的安全判断?更进一步——当这些判断影响用户发言、封禁账号甚至触发法律响应时,谁来监督“…

作者头像 李华
网站建设 2026/6/15 13:12:39

Qwen3Guard-Gen-8B支持Token粒度风险预警吗?答案在这里

Qwen3Guard-Gen-8B 支持 Token 粒度风险预警吗? 在生成式 AI 快速渗透到内容创作、客服系统和社交平台的今天,模型输出的安全性已不再是一个边缘问题,而是产品能否上线的核心门槛。传统基于关键词匹配或正则规则的内容审核方式,在…

作者头像 李华
网站建设 2026/6/15 15:33:12

串口DMA初学者指南:核心要点与寄存器说明

串口DMA实战指南:从原理到寄存器配置的完整解析你有没有遇到过这样的场景?系统正在处理一堆任务,突然蓝牙模块开始疯狂发数据,串口中断一个接一个打进来,CPU占用飙到90%以上,主循环卡顿、定时器失准、甚至关…

作者头像 李华