AI密室逃脱：16款顶级AI上演真实逃生，谁是最后赢家？-编程实验室

密室逃脱，一个考验观察、推理的极限游戏。但如果玩家不再是人类，而是一群最顶尖的AI呢？

这次，AGI-Eval评测社区联合复旦大学，在刚发布的论文《AgentEscapeBench》里，发起了一项极限实验，将16个热门的AI大模型，包括GPT、Claude、Gemini等，以“玩家”的身份扔进270个精心设计的密室里。

这个“密室”并非某个特定的业务场景，而是一个对所有AI都相对陌生的环境。

其目的只有一个：剥离模型对特定套路的拟合，通过这种无法依赖先验知识和固定模式的环境，去真实地评估Agent的长程推理、逻辑规划与执行能力。

看看谁会成为真正的“密室逃脱大师”？

△图1：AgentEscapeBench 概念图

📑论文链接：
https://arxiv.org/abs/2605.07926
🌟GitHub:
github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench

01怎么让AI“玩”密室逃脱

为了让AI能真正地“沉浸式”解谜，我们为它们量身定制了一套名为AgentEscapeBench的评测框架。简单来说，我们把AI当成一个真实的“玩家”扔进密室。整个游戏过程，就像一场多轮对话。

首先，我们会给AI一本“游戏规则手册”（System Prompt），告诉它能做什么、怎么做。然后，AI会收到密室的初始环境描述。

接下来，考验就开始了。AI需要在一个统一的上下文中，像一个真正的玩家一样，同时处理三种核心动作：

观察 (Observation)：探索环境，发现线索。
执行 (Execution)：调用工具，与设备交互。
规划 (Planning)：连接线索，制定多步计划。

值得一提的是，这个评测框架没有为AI设计额外的记忆系统。AI的“记忆”完全依赖于其自身的上下文理解能力，这能更真实地反映其长程记忆和状态追踪的短板。

每一轮，AI做出决策，环境给出反馈。最终，要么成功逃脱，要么行动次数耗尽，挑战失败。

有了这个系统，我们就可以开始观察每个AI玩家在密室中的真实表现了。

02密室是如何被创造的？

每一个密室谜题，都源自于一条精密的六阶段自动化流水线。

△图2：六阶段自动化密室生成流水线

简单来说，这条流水线会从一个包含32种真实工具的模板库中，自动生成一个具有特定逻辑难度的有向无环图（DAG）骨架。然后，LM给DAG的源头节点生成初始参数，然后按照拓扑顺序执行每个节点的计算逻辑逐步得到整个DAG每个节点的输入值、输出值，最后使用LLM生成风格各异的“剧本”（如赛博朋克、侦探悬疑等）。

这套流程确保了每一个密室都是全新的、逻辑自洽且难度可控的。此外，所有题目均经过人类玩家测试，保证了其可解性。

有了这个系统，我们就可以开始观察每个AI玩家在密室中的真实表现了。

03谁是真正的“密室逃脱大师”？

在270场难度从5级到25级不等的“密室逃脱”中，16位AI玩家展现出了截然不同的游戏风格和能力上限。

首先，我们来看总成绩单。表1清晰地显示，随着密室复杂度（DAG节点数）的增加，所有AI玩家的成功率都开始下降。但仔细看，每个模型的“OUT”和“玩法”都大有文章。

△表1：AI玩家与人类在不同难度下的密室逃脱成功率（SR %）对比

接下来，是我们为每个AI玩家撰写的“玩家档案”看看谁才是真正的密逃大师？

Claude-Opus-4.6：“沉着稳健”的逻辑大师

Claude在此次挑战中，最像一个心态沉稳的“老手”。它的策略不是追求单步的炫酷操作，而是展现出一种步步为营的扎实感。它在密室中很少做无效尝试，每一步都严格遵循已发现的线索。这让它的成功率曲线最为平滑，即便在最难的25级密室中，依然保持了60%的通关率，展现出强大的逻辑纪律性。

GPT-5.4：“思路广阔”但执行低效的探索家

GPT-5.4则像一个思路天马行空的探索家。它总能想到各种可能性，但在有明确逻辑依赖的密室中，这反而导致了大量的冗余操作。如表2显示，在难度20级的密室里，它平均要尝试213.6次工具调用才能找到出路，几乎是Claude的2倍。它的问题不是“想不到”，而是“想太多”，导致解谜效率低下，这一点在图4中表现得尤为直观。

△表2：不同难度级别下每个实例的平均工具调用次数

图3：难度10下的工具调用次数与成功率关系图。

这张图清晰地展示了效率与成功的关系，相较于左上区域的人类和Claude，GPT-5.4的点位明显偏右，说明它通关一次，走的弯路比别人多得多。

Gemini-3.1-Pro-Preview：心态不稳的“极限选手”

Gemini的表现极具戏剧性。它在中等难度的密室中表现惊艳，展现出强大的推理爆发力。但一旦进入25级的极限压力测试，它的表现就会断崖式下跌，成功率骤降至13.3%。这表明它的推理核心在长程、高压环境下存在拐点，一旦超过某个阈值，逻辑链条便会瞬间断裂。

Kimi-K2.5：“高开低走”的潜力选手

Kimi在此次挑战中，像一个极具潜力但后劲不足的“潜力选手”。表1数据显示，它在5级的密室中取得了95.0%的教高成功率。这证明了它在处理短程、清晰的逻辑链时拥有非常出色的能力。然而，随着难度提升至20级，其成功率骤降至31.7%，衰减幅度较大，说明其在长程记忆和状态追踪方面还有待提升。

△表1：AI玩家与人类在不同难度下的密室逃脱成功率（SR %）对比

04为什么AI在密室里会“迷路” ？

不同AI玩家的“出局”方式各异，但数据揭示了几个惊人的一致性规律。这些“关键发现”共同指向了AI Agent的根本瓶颈。

图4：关键行为指标随难度变化的趋势。
这张图清晰地显示：随着密室变复杂，所有AI玩家的“过早调用率”（b图，代表规划混乱）都在上升，而“线索遵循率”（c图，代表工作记忆失效）都在下降。这证明了AI Agent的“工作记忆”和“逻辑一致性”正在随任务链条的变长而系统性衰退。

我们将每个模型的评测框架代码、数据构造代码和题目数据集都进行了开源。

感兴趣的开发者欢迎查看项目链接了解更多技术细节：

🌟GitHub:
github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench

几个有趣的结论

1. 性能分化随难度急剧放大

在简单题目（Diff-5）上，大部分前沿模型都能达到85%+的成功率，差距不大。但随着依赖链加深，差异呈爆炸式增长，到Diff-25时，Claude-Opus-4.6（60.0%）与Gemini-3.1-Pro-Preview（13.3%）之间已是天壤之别。

2. Claude-Opus-4.6展现最优雅的性能衰减

从Diff-5到Diff-25仅下降30个百分点，是所有模型中衰减最小的。这意味着它在长链推理中保持一致性的能力远超其他模型。

3. GPT-5.4在简单任务上最强，但扩展性不足

Diff-5拿下96.7%的最高分，但到Diff-25已经降到43.3%（下降53.4点）。"短跑冠军，马拉松不行"。

4. 推理模型的悖论

DeepSeek-Reasoner（以推理增强闻名）在所有难度级别上都不如 DeepSeek-Chat。这揭示了一个深刻的发现：Agent场景中的瓶颈不是单步推理的深度，而是在真实工具交互中动态更新信念、追踪状态的能力。

5.链式推理是核心瓶颈

以MiniMax-M2在Diff-20为例：端到端成功率仅5.0%，但子问题解决率达43%，隐藏节点发现率达56.2%。模型能解决"局部"问题，但无法将中间结果正确串联起来完成整条链路。

05总结与讨论

总而言之，这篇论文用一场“密室逃脱”把大家从AI的“滤镜”里拽了出来。它告诉我们，一个Agent能不能真正帮你解决问题，不取决于它在熟悉场景下有多丝滑，而在于把它扔到一个全新的烂摊子里，它还能不能理清头绪。

这才是AI Agent从“酷炫的demo”到“能干活的帮手”之间，那道最深的鸿沟。

如果你是 Agent 开发者或研究者：建议将这套诊断框架转给你的技术团队，可以很好的帮助检测Agent的能力短板。
如果你是产品经理或爱好者：它清晰地展示了当前技术的边界，有助于你更理性地选择产品路线和设定预期。

#互动环节

你认为当前Agent最大的瓶颈是什么？在你的使用场景中，是否也遇到了“串起来就翻车”的问题？欢迎在评论区分享你的看法，或将文章转发给对Agent技术感兴趣的同事，一起探讨如何构建更智能的Agent！

【关注 AGI-Eval 】

关注➕点赞➕评论

🎁 随机掉落5个AGI-Eval社区精美礼品

END

AI密室逃脱：16款顶级AI上演真实逃生，谁是最后赢家？