LLM智能体“胡闹厨房”翻⻋？ParaCook基准揭⽰：SOTA模型在“时间效率”上被⼈类完胜-编程实验室

当今的⼤语⾔模型（LLM）智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。

但现有评测⼤多只关注“任务是否完成”，却忽视了⼀个核⼼问题：“完成任务花了多⻓时间？”。在多智能体协作时，这种对“时间效率”的忽视尤为致命。

为此，作者提出了 ParaCook，一个受《胡闹厨房》(Overcooked) 启发、专注于时间效率的多智能体协作规划基准。研究发现，即便是GPT-5这样的顶级模型，在面对复杂的并行协作时，其成功率和效率也远不及人类，暴露了当前AI在时间效率规划上的巨大短板。

现有的智能体基准在评测并行效率方面存在明显短板。

缺乏效率指标：大多基准只关心任务是否正确完成，不评估时间成本，导致无法区分一个“聪明的快计划”和一个“笨拙的慢计划”。
场景过于简化：现有基准要么假设资源无限（如AsyncHow），要么只关注单智能体（如Robotouille），无法真正评测多智能体在资源受限下的协作与调度能力。
挑战无法剥离：一些综合性基准（如CookBench）虽然任务长，但无法将“时间效率”这一核心挑战单独分离出来进行评估。

作者提出的 ParaCook 提供了一个模拟厨房的2D网格环境，通过简化动作空间，让LLM专注于核心的战略并行规划挑战。

ParaCook的核心是系统性地评估两种并行能力：

个体并行 (Intra-Agent Parallelism)：单个智能体能否在执行“煮汤”（一个自动进行、只需等待的任务）时，智能地切换去做“切菜”，以减少空闲时间？
团队并行 (Inter-Agent Parallelism)：多个智能体能否高效分工，例如一个去处理汉堡、一个去准备沙拉，而不是互相等待或抢占同一个工作台？

该基准还支持通过调整菜谱复杂度、订单数量和地图布局来精确控制难度，实现可扩展的评测。

作者在ParaCook上对GPT-5、Gemini-2.5-Pro、DeepSeek-V3.2等一系列SOTA LLM进行了全面评测，发现了清晰的性能鸿沟。

LLM性能梯队分化：GPT-5遥遥领先

评测数据显示，不同LLM在规划能力上分为三个梯队：

第一梯队 (T1): GPT-5 表现最佳，取得了 65.0% 的平均成功率，在效率（pOCT）上也显著优于其他模型。
第二梯队 (T2): Gemini-2.5-Pro (47.4%) 和 DeepSeek-V3.2-Exp (45.3%) 形成了第二梯队，表现中等，但在困难任务上成功率下降明显。
第三梯队 (T3): Claude-Opus-4.1 (13.1%) 和 Qwen3 (2.2%) 表现不佳，在困难任务上几乎完全失败。

CoT并非万灵药：仅对强模型有效

思维链 (CoT) 的影响因模型而异。对于GPT-5这样的强模型，CoT能稳定提升其在困难任务上的表现（成功率从45%提升至57%）。但对于Gemini和DeepSeek等中等模型，CoT的影响不稳定，甚至会导致性能下降。对于Claude和Qwen等模型，CoT也仅在简单任务上提供了有限的帮助。

效率与成功率惨败：LLM被人类完胜

尽管LLM之间存在差距，但它们与人类的差距是压倒性的。

成功率上：人类玩家能轻松达到 100% 的任务成功率。而表现最好的GPT-5在困难任务上也仅有50%的成功率（使用CoT）。
效率上：在困难任务上，人类的“订单完成时间”(nOCT)为15.31，而GPT-5则需要17.61，更慢。差距在“空间效率”上最为明显。人类的平均移动距离(pMD)仅为 51.08，而GPT-5则高达 143.55。这表明LLM的规划充满了冗余移动，在厨房里“到处乱跑”。