密室逃脱,一个考验观察、推理的极限游戏。但如果玩家不再是人类,而是一群最顶尖的AI呢?
这次,AGI-Eval评测社区联合复旦大学,在刚发布的论文《AgentEscapeBench》里,发起了一项极限实验,将16个热门的AI大模型,包括GPT、Claude、Gemini等,以“玩家”的身份扔进270个精心设计的密室里。
这个“密室”并非某个特定的业务场景,而是一个对所有AI都相对陌生的环境。
其目的只有一个:剥离模型对特定套路的拟合,通过这种无法依赖先验知识和固定模式的环境,去真实地评估Agent的长程推理、逻辑规划与执行能力。
看看谁会成为真正的“密室逃脱大师”?
△图1:AgentEscapeBench 概念图
📑论文链接:
https://arxiv.org/abs/2605.07926
🌟GitHub:
github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench
01怎么让AI“玩”密室逃脱
为了让AI能真正地“沉浸式”解谜,我们为它们量身定制了一套名为AgentEscapeBench的评测框架。简单来说,我们把AI当成一个真实的“玩家”扔进密室。整个游戏过程,就像一场多轮对话。
首先,我们会给AI一本“游戏规则手册”(System Prompt),告诉它能做什么、怎么做。然后,AI会收到密室的初始环境描述。
接下来,考验就开始了。AI需要在一个统一的上下文中,像一个真正的玩家一样,同时处理三种核心动作:
观察 (Observation):探索环境,发现线索。
执行 (Execution):调用工具,与设备交互。
规划 (Planning):连接线索,制定多步计划。
值得一提的是,这个评测框架没有为AI设计额外的记忆系统。AI的“记忆”完全依赖于其自身的上下文理解能力,这能更真实地反映其长程记忆和状态追踪的短板。
每一轮,AI做出决策,环境给出反馈。最终,要么成功逃脱,要么行动次数耗尽,挑战失败。
有了这个系统,我们就可以开始观察每个AI玩家在密室中的真实表现了。
02密室是如何被创造的?
每一个密室谜题,都源自于一条精密的六阶段自动化流水线。
△图2:六阶段自动化密室生成流水线
简单来说,这条流水线会从一个包含32种真实工具的模板库中,自动生成一个具有特定逻辑难度的有向无环图(DAG)骨架。然后,LM给DAG的源头节点生成初始参数,然后按照拓扑顺序执行每个节点的计算逻辑逐步得到整个DAG每个节点的输入值、输出值,最后使用LLM生成风格各异的“剧本”(如赛博朋克、侦探悬疑等)。
这套流程确保了每一个密室都是全新的、逻辑自洽且难度可控的。此外,所有题目均经过人类玩家测试,保证了其可解性。
有了这个系统,我们就可以开始观察每个AI玩家在密室中的真实表现了。
03谁是真正的“密室逃脱大师”?
在270场难度从5级到25级不等的“密室逃脱”中,16位AI玩家展现出了截然不同的游戏风格和能力上限。
首先,我们来看总成绩单。表1清晰地显示,随着密室复杂度(DAG节点数)的增加,所有AI玩家的成功率都开始下降。但仔细看,每个模型的“OUT”和“玩法”都大有文章。
△表1:AI玩家与人类在不同难度下的密室逃脱成功率(SR %)对比
接下来,是我们为每个AI玩家撰写的“玩家档案”看看谁才是真正的密逃大师?
Claude-Opus-4.6:“沉着稳健”的逻辑大师
Claude在此次挑战中,最像一个心态沉稳的“老手”。它的策略不是追求单步的炫酷操作,而是展现出一种步步为营的扎实感。它在密室中很少做无效尝试,每一步都严格遵循已发现的线索。这让它的成功率曲线最为平滑,即便在最难的25级密室中,依然保持了60%的通关率,展现出强大的逻辑纪律性。
GPT-5.4:“思路广阔”但执行低效的探索家
GPT-5.4则像一个思路天马行空的探索家。它总能想到各种可能性,但在有明确逻辑依赖的密室中,这反而导致了大量的冗余操作。如表2显示,在难度20级的密室里,它平均要尝试213.6次工具调用才能找到出路,几乎是Claude的2倍。它的问题不是“想不到”,而是“想太多”,导致解谜效率低下,这一点在图4中表现得尤为直观。
△表2:不同难度级别下每个实例的平均工具调用次数
图3:难度10下的工具调用次数与成功率关系图。
这张图清晰地展示了效率与成功的关系,相较于左上区域的人类和Claude,GPT-5.4的点位明显偏右,说明它通关一次,走的弯路比别人多得多。
Gemini-3.1-Pro-Preview:心态不稳的“极限选手”
Gemini的表现极具戏剧性。它在中等难度的密室中表现惊艳,展现出强大的推理爆发力。但一旦进入25级的极限压力测试,它的表现就会断崖式下跌,成功率骤降至13.3%。这表明它的推理核心在长程、高压环境下存在拐点,一旦超过某个阈值,逻辑链条便会瞬间断裂。
Kimi-K2.5:“高开低走”的潜力选手
Kimi在此次挑战中,像一个极具潜力但后劲不足的“潜力选手”。表1数据显示,它在5级的密室中取得了95.0%的教高成功率。这证明了它在处理短程、清晰的逻辑链时拥有非常出色的能力。然而,随着难度提升至20级,其成功率骤降至31.7%,衰减幅度较大,说明其在长程记忆和状态追踪方面还有待提升。
△表1:AI玩家与人类在不同难度下的密室逃脱成功率(SR %)对比
04为什么AI在密室里会“迷路” ?
不同AI玩家的“出局”方式各异,但数据揭示了几个惊人的一致性规律。这些“关键发现”共同指向了AI Agent的根本瓶颈。
图4:关键行为指标随难度变化的趋势。
这张图清晰地显示:随着密室变复杂,所有AI玩家的“过早调用率”(b图,代表规划混乱)都在上升,而“线索遵循率”(c图,代表工作记忆失效)都在下降。这证明了AI Agent的“工作记忆”和“逻辑一致性”正在随任务链条的变长而系统性衰退。
我们将每个模型的评测框架代码、数据构造代码和题目数据集都进行了开源。
感兴趣的开发者欢迎查看项目链接了解更多技术细节:
🌟GitHub:
github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench
几个有趣的结论
1. 性能分化随难度急剧放大
在简单题目(Diff-5)上,大部分前沿模型都能达到85%+的成功率,差距不大。但随着依赖链加深,差异呈爆炸式增长,到Diff-25时,Claude-Opus-4.6(60.0%)与Gemini-3.1-Pro-Preview(13.3%)之间已是天壤之别。
2. Claude-Opus-4.6展现最优雅的性能衰减
从Diff-5到Diff-25仅下降30个百分点,是所有模型中衰减最小的。这意味着它在长链推理中保持一致性的能力远超其他模型。
3. GPT-5.4在简单任务上最强,但扩展性不足
Diff-5拿下96.7%的最高分,但到Diff-25已经降到43.3%(下降53.4点)。"短跑冠军,马拉松不行"。
4. 推理模型的悖论
DeepSeek-Reasoner(以推理增强闻名)在所有难度级别上都不如 DeepSeek-Chat。这揭示了一个深刻的发现:Agent场景中的瓶颈不是单步推理的深度,而是在真实工具交互中动态更新信念、追踪状态的能力。
5.链式推理是核心瓶颈
以MiniMax-M2在Diff-20为例:端到端成功率仅5.0%,但子问题解决率达43%,隐藏节点发现率达56.2%。模型能解决"局部"问题,但无法将中间结果正确串联起来完成整条链路。
05总结与讨论
总而言之,这篇论文用一场“密室逃脱”把大家从AI的“滤镜”里拽了出来。它告诉我们,一个Agent能不能真正帮你解决问题,不取决于它在熟悉场景下有多丝滑,而在于把它扔到一个全新的烂摊子里,它还能不能理清头绪。
这才是AI Agent从“酷炫的demo”到“能干活的帮手”之间,那道最深的鸿沟。
如果你是 Agent 开发者或研究者:建议将这套诊断框架转给你的技术团队,可以很好的帮助检测Agent的能力短板。
如果你是产品经理或爱好者:它清晰地展示了当前技术的边界,有助于你更理性地选择产品路线和设定预期。
#互动环节
你认为当前Agent最大的瓶颈是什么?在你的使用场景中,是否也遇到了“串起来就翻车”的问题?欢迎在评论区分享你的看法,或将文章转发给对Agent技术感兴趣的同事,一起探讨如何构建更智能的Agent!
【关注 AGI-Eval 】
关注➕点赞➕评论
🎁 随机掉落5个AGI-Eval社区精美礼品
END