news 2026/5/21 20:08:05

AI密室逃脱:16款顶级AI上演真实逃生,谁是最后赢家?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI密室逃脱:16款顶级AI上演真实逃生,谁是最后赢家?

密室逃脱,一个考验观察、推理的极限游戏。但如果玩家不再是人类,而是一群最顶尖的AI呢?

这次,AGI-Eval评测社区联合复旦大学,在刚发布的论文《AgentEscapeBench》里,发起了一项极限实验,将16个热门的AI大模型,包括GPT、Claude、Gemini等,以“玩家”的身份扔进270个精心设计的密室里。

这个“密室”并非某个特定的业务场景,而是一个对所有AI都相对陌生的环境。

其目的只有一个:剥离模型对特定套路的拟合,通过这种无法依赖先验知识和固定模式的环境,去真实地评估Agent的长程推理、逻辑规划与执行能力。

看看谁会成为真正的“密室逃脱大师”?

△图1:AgentEscapeBench 概念图

  • 📑论文链接:

    https://arxiv.org/abs/2605.07926

  • 🌟GitHub:

    github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench

01怎么让AI“玩”密室逃脱

为了让AI能真正地“沉浸式”解谜,我们为它们量身定制了一套名为AgentEscapeBench的评测框架。简单来说,我们把AI当成一个真实的“玩家”扔进密室。整个游戏过程,就像一场多轮对话。

首先,我们会给AI一本“游戏规则手册”(System Prompt),告诉它能做什么、怎么做。然后,AI会收到密室的初始环境描述。

接下来,考验就开始了。AI需要在一个统一的上下文中,像一个真正的玩家一样,同时处理三种核心动作:

  • 观察 (Observation):探索环境,发现线索。

  • 执行 (Execution):调用工具,与设备交互。

  • 规划 (Planning):连接线索,制定多步计划。

值得一提的是,这个评测框架没有为AI设计额外的记忆系统。AI的“记忆”完全依赖于其自身的上下文理解能力,这能更真实地反映其长程记忆和状态追踪的短板。

每一轮,AI做出决策,环境给出反馈。最终,要么成功逃脱,要么行动次数耗尽,挑战失败。

有了这个系统,我们就可以开始观察每个AI玩家在密室中的真实表现了。

02密室是如何被创造的?

每一个密室谜题,都源自于一条精密的六阶段自动化流水线

图2:六阶段自动化密室生成流水线

简单来说,这条流水线会从一个包含32种真实工具的模板库中,自动生成一个具有特定逻辑难度的有向无环图(DAG)骨架。然后,LM给DAG的源头节点生成初始参数,然后按照拓扑顺序执行每个节点的计算逻辑逐步得到整个DAG每个节点的输入值、输出值,最后使用LLM生成风格各异的“剧本”(如赛博朋克、侦探悬疑等)。

这套流程确保了每一个密室都是全新的、逻辑自洽且难度可控的。此外,所有题目均经过人类玩家测试,保证了其可解性。

有了这个系统,我们就可以开始观察每个AI玩家在密室中的真实表现了。

03谁是真正的“密室逃脱大师”?

在270场难度从5级到25级不等的“密室逃脱”中,16位AI玩家展现出了截然不同的游戏风格和能力上限。

首先,我们来看总成绩单。表1清晰地显示,随着密室复杂度(DAG节点数)的增加,所有AI玩家的成功率都开始下降。但仔细看,每个模型的“OUT”和“玩法”都大有文章。

表1:AI玩家与人类在不同难度下的密室逃脱成功率(SR %)对比

接下来,是我们为每个AI玩家撰写的“玩家档案”看看谁才是真正的密逃大师?

Claude-Opus-4.6:“沉着稳健”的逻辑大师

Claude在此次挑战中,最像一个心态沉稳的“老手”。它的策略不是追求单步的炫酷操作,而是展现出一种步步为营的扎实感。它在密室中很少做无效尝试,每一步都严格遵循已发现的线索。这让它的成功率曲线最为平滑,即便在最难的25级密室中,依然保持了60%的通关率,展现出强大的逻辑纪律性。

GPT-5.4:“思路广阔”但执行低效的探索家

GPT-5.4则像一个思路天马行空的探索家。它总能想到各种可能性,但在有明确逻辑依赖的密室中,这反而导致了大量的冗余操作。如表2显示,在难度20级的密室里,它平均要尝试213.6次工具调用才能找到出路,几乎是Claude的2倍。它的问题不是“想不到”,而是“想太多”,导致解谜效率低下,这一点在图4中表现得尤为直观。

表2:不同难度级别下每个实例的平均工具调用次数

图3:难度10下的工具调用次数与成功率关系图。

这张图清晰地展示了效率与成功的关系,相较于左上区域的人类和Claude,GPT-5.4的点位明显偏右,说明它通关一次,走的弯路比别人多得多。

Gemini-3.1-Pro-Preview:心态不稳的“极限选手”

Gemini的表现极具戏剧性。它在中等难度的密室中表现惊艳,展现出强大的推理爆发力。但一旦进入25级的极限压力测试,它的表现就会断崖式下跌,成功率骤降至13.3%。这表明它的推理核心在长程、高压环境下存在拐点,一旦超过某个阈值,逻辑链条便会瞬间断裂。

Kimi-K2.5:“高开低走”的潜力选手

Kimi在此次挑战中,像一个极具潜力但后劲不足的“潜力选手”。表1数据显示,它在5级的密室中取得了95.0%的教高成功率。这证明了它在处理短程、清晰的逻辑链时拥有非常出色的能力。然而,随着难度提升至20级,其成功率骤降至31.7%,衰减幅度较大,说明其在长程记忆和状态追踪方面还有待提升。

表1:AI玩家与人类在不同难度下的密室逃脱成功率(SR %)对比

04为什么AI在密室里会“迷路” ?

不同AI玩家的“出局”方式各异,但数据揭示了几个惊人的一致性规律。这些“关键发现”共同指向了AI Agent的根本瓶颈。

图4:关键行为指标随难度变化的趋势。
这张图清晰地显示:随着密室变复杂,所有AI玩家的“过早调用率”(b图,代表规划混乱)都在上升,而“线索遵循率”(c图,代表工作记忆失效)都在下降。这证明了AI Agent的“工作记忆”和“逻辑一致性”正在随任务链条的变长而系统性衰退。

我们将每个模型的评测框架代码、数据构造代码和题目数据集都进行了开源。

感兴趣的开发者欢迎查看项目链接了解更多技术细节:

  • 🌟GitHub:

    github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench

几个有趣的结论

1. 性能分化随难度急剧放大

在简单题目(Diff-5)上,大部分前沿模型都能达到85%+的成功率,差距不大。但随着依赖链加深,差异呈爆炸式增长,到Diff-25时,Claude-Opus-4.6(60.0%)与Gemini-3.1-Pro-Preview(13.3%)之间已是天壤之别。

2. Claude-Opus-4.6展现最优雅的性能衰减

从Diff-5到Diff-25仅下降30个百分点,是所有模型中衰减最小的。这意味着它在长链推理中保持一致性的能力远超其他模型。

3. GPT-5.4在简单任务上最强,但扩展性不足

Diff-5拿下96.7%的最高分,但到Diff-25已经降到43.3%(下降53.4点)。"短跑冠军,马拉松不行"。

4. 推理模型的悖论

DeepSeek-Reasoner(以推理增强闻名)在所有难度级别上都不如 DeepSeek-Chat。这揭示了一个深刻的发现:Agent场景中的瓶颈不是单步推理的深度,而是在真实工具交互中动态更新信念、追踪状态的能力。

5.链式推理是核心瓶颈

以MiniMax-M2在Diff-20为例:端到端成功率仅5.0%,但子问题解决率达43%,隐藏节点发现率达56.2%。模型能解决"局部"问题,但无法将中间结果正确串联起来完成整条链路。

05总结与讨论

总而言之,这篇论文用一场“密室逃脱”把大家从AI的“滤镜”里拽了出来。它告诉我们,一个Agent能不能真正帮你解决问题,不取决于它在熟悉场景下有多丝滑,而在于把它扔到一个全新的烂摊子里,它还能不能理清头绪。

这才是AI Agent从“酷炫的demo”到“能干活的帮手”之间,那道最深的鸿沟。

  • 如果你是 Agent 开发者或研究者:建议将这套诊断框架转给你的技术团队,可以很好的帮助检测Agent的能力短板。

  • 如果你是产品经理或爱好者:它清晰地展示了当前技术的边界,有助于你更理性地选择产品路线和设定预期。

#互动环节

你认为当前Agent最大的瓶颈是什么?在你的使用场景中,是否也遇到了“串起来就翻车”的问题?欢迎在评论区分享你的看法,或将文章转发给对Agent技术感兴趣的同事,一起探讨如何构建更智能的Agent!

【关注 AGI-Eval 】

关注➕点赞➕评论

🎁 随机掉落5个AGI-Eval社区精美礼品

END

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 20:07:59

10分钟完全指南:开源OmenSuperHub实现惠普游戏本终极性能控制

10分钟完全指南:开源OmenSuperHub实现惠普游戏本终极性能控制 【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度,自动解除DB功耗限制。 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub OmenSuperHub是一款专为惠普OMEN…

作者头像 李华
网站建设 2026/5/21 20:07:20

RK3568国产工业级车载方案:从核心板设计到量产落地的全流程解析

1. 项目概述:为什么选择RK3568作为国产车载方案的基石?在车载电子这个领域,尤其是面向工业级和商用车载应用,选型一款合适的核心处理器平台,往往决定了整个项目的成败周期、成本控制以及最终产品的市场竞争力。过去很长…

作者头像 李华
网站建设 2026/5/21 20:04:33

【实测数据】手动填写 vs 一键投简历插件(塔塔网申):50份表单耗时、错误率对比分析

0x00 背景在春招/秋招中,网申填表是每位应届生的必经环节。然而,重复录入教育背景、实习经历等结构化信息耗时显著。本文基于50份真实企业网申页面的实测数据,对比手动填写与使用“塔塔网申”一键投简历两种方式的效率与准确性。0x01 测试设计…

作者头像 李华
网站建设 2026/5/21 20:01:57

智慧果园榴莲大小分类榴莲形状形态分类数据集3314张4类别

注意数据集中有大约一半是旋转增强图片数据集类型:图像分类用,不可用于目标检测无标注文件数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片图片数量(jpg文件个数):3314分类类别数:4图片分辨率…

作者头像 李华