news 2026/5/1 9:48:31

LLM智能体“胡闹厨房”翻⻋?ParaCook基准揭⽰:SOTA模型在“时间效率”上被⼈类完胜

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM智能体“胡闹厨房”翻⻋?ParaCook基准揭⽰:SOTA模型在“时间效率”上被⼈类完胜

当今的⼤语⾔模型(LLM)智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。

但现有评测⼤多只关注“任务是否完成”,却忽视了⼀个核⼼问题:“完成任务花了多⻓时间?”。在多智能体协作时,这种对“时间效率”的忽视尤为致命。

为此,作者提出了 ParaCook,一个受《胡闹厨房》(Overcooked) 启发、专注于时间效率的多智能体协作规划基准。研究发现,即便是GPT-5这样的顶级模型,在面对复杂的并行协作时,其成功率和效率也远不及人类,暴露了当前AI在时间效率规划上的巨大短板。

  • 论文: ParaCook: On Time-Efficient Planning for Multi-Agent Systems

  • 链接: https://arxiv.org/abs/2510.11608

  • 代码/数据: https://github.com/zsq259/ParaCook

0为什么需要ParaCook?

现有的智能体基准在评测并行效率方面存在明显短板。

  • 缺乏效率指标: 大多基准只关心任务是否正确完成,不评估时间成本,导致无法区分一个“聪明的快计划”和一个“笨拙的慢计划”。

  • 场景过于简化: 现有基准要么假设资源无限(如AsyncHow),要么只关注单智能体(如Robotouille),无法真正评测多智能体在资源受限下的协作与调度能力。

  • 挑战无法剥离: 一些综合性基准(如CookBench)虽然任务长,但无法将“时间效率”这一核心挑战单独分离出来进行评估。

1ParaCook:专为“并行效率”打造的试炼场

作者提出的 ParaCook 提供了一个模拟厨房的2D网格环境,通过简化动作空间,让LLM专注于核心的战略并行规划挑战。

ParaCook的核心是系统性地评估两种并行能力:

  1. 个体并行 (Intra-Agent Parallelism): 单个智能体能否在执行“煮汤”(一个自动进行、只需等待的任务)时,智能地切换去做“切菜”,以减少空闲时间?

  2. 团队并行 (Inter-Agent Parallelism): 多个智能体能否高效分工,例如一个去处理汉堡、一个去准备沙拉,而不是互相等待或抢占同一个工作台?

该基准还支持通过调整菜谱复杂度、订单数量和地图布局来精确控制难度,实现可扩展的评测。

2核心结果:LLM梯队分化,且被人类完胜

作者在ParaCook上对GPT-5、Gemini-2.5-Pro、DeepSeek-V3.2等一系列SOTA LLM进行了全面评测,发现了清晰的性能鸿沟。

LLM性能梯队分化:GPT-5遥遥领先

评测数据显示,不同LLM在规划能力上分为三个梯队:

  • 第一梯队 (T1): GPT-5 表现最佳,取得了 65.0% 的平均成功率,在效率(pOCT)上也显著优于其他模型。

  • 第二梯队 (T2): Gemini-2.5-Pro (47.4%) 和 DeepSeek-V3.2-Exp (45.3%) 形成了第二梯队,表现中等,但在困难任务上成功率下降明显。

  • 第三梯队 (T3): Claude-Opus-4.1 (13.1%) 和 Qwen3 (2.2%) 表现不佳,在困难任务上几乎完全失败。

CoT并非万灵药:仅对强模型有效

思维链 (CoT) 的影响因模型而异。对于GPT-5这样的强模型,CoT能稳定提升其在困难任务上的表现(成功率从45%提升至57%)。但对于Gemini和DeepSeek等中等模型,CoT的影响不稳定,甚至会导致性能下降。对于Claude和Qwen等模型,CoT也仅在简单任务上提供了有限的帮助。

效率与成功率惨败:LLM被人类完胜

尽管LLM之间存在差距,但它们与人类的差距是压倒性的。

  • 成功率上:人类玩家能轻松达到 100% 的任务成功率。而表现最好的GPT-5在困难任务上也仅有50%的成功率(使用CoT)。

  • 效率上:在困难任务上,人类的“订单完成时间”(nOCT)为15.31,而GPT-5则需要17.61,更慢。差距在“空间效率”上最为明显。人类的平均移动距离(pMD)仅为 51.08,而GPT-5则高达 143.55。这表明LLM的规划充满了冗余移动,在厨房里“到处乱跑”。

3LLM并非不懂规划:抽象任务 vs. 具身任务

为了探究LLM是真的“不会规划”,还是“不会落地”,作者设计了抽象规划任务(Abstract Task)——剥离所有环境交互(如移动、拾取),只让模型进行纯粹的调度。

结果发生了惊人的反转:

在抽象任务上,GPT-5、Gemini-2.5-Pro等顶级模型均取得了近乎完美的100%成功率,其规划出的时间表与“理论最优解”相比,平均只慢了1-7%。

这一对比有力地证明:LLM的瓶颈不在于高层的并行规划能力,而在于无法将这种高层理解应用到复杂的、带有时空约束的具身(Embodied)环境中。

4结语

ParaCook 首次提供了一个系统性的基准,用于评估多智能体规划中的时间效率。作者的研究揭示了,尽管LLM在纯推理上很强,但要实现真正高效的“手脚协同”,仍有很长的路要走。这项工作为未来开发“时间效率感知”(time efficiency-aware)的智能体奠定了基础。

5未来工作

ParaCook 不仅是一个固定的数据集,更是一个灵活的可扩展框架。未来,作者可以向基准中添加新的菜谱、烹饪工具、随机事件(如着火),甚至设计特定布局(如用桌子隔开厨房)来测试更复杂的协调策略。

同时,该基准也为社区指明了新的研究方向。例如,探索分层规划框架(将高层调度与底层动作执行相分离),或研究全新的算法来克服论文中发现的并行规划挑战,将是极具价值的探索。

更详细的实验以及研究结论,欢迎参考开源代码和原论文:

  • 论文原文: https://arxiv.org/abs/2510.11608

  • 开源代码/数据: https://github.com/zsq259/ParaCook

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:14:41

GPT-SoVITS能否用于生成会议纪要语音摘要?

GPT-SoVITS能否用于生成会议纪要语音摘要? 在现代企业办公场景中,一场两小时的会议结束后,往往伴随着冗长的文字记录和漫长的阅读消化过程。参会者需要反复翻看纪要确认任务分工、决策要点与时间节点——这种低效的信息传递方式正逐渐成为组织…

作者头像 李华
网站建设 2026/4/19 13:45:53

GPT-SoVITS语音克隆模型版权归属问题探讨

GPT-SoVITS语音克隆模型的版权归属与技术实践 在数字内容创作日益繁荣的今天,AI生成声音已经不再是科幻电影中的桥段。你可能刚听完一段由虚拟主播播报的新闻,或是在某款游戏中听到一个“像极了某明星”的角色配音——这些背后,很可能正是像 …

作者头像 李华
网站建设 2026/5/1 6:12:53

GPT-SoVITS学习率调整策略:提升训练稳定性

GPT-SoVITS学习率调整策略:提升训练稳定性 在语音合成领域,我们正经历一场“小样本革命”。过去需要数小时标注语音才能训练出可用模型的时代正在被打破——如今,只需1分钟高质量录音,就能克隆一个人的声音,并生成自然…

作者头像 李华
网站建设 2026/4/30 11:01:55

ISTA 2C标准深度解读:家具包装的运输防护指南ista2c

在家具行业的跨境与长途运输中,包装破损导致的产品划痕、结构松动、部件断裂等问题,往往带来高昂的售后成本与品牌声誉损耗。而ISTA 2C标准作为国际运输包装协会(ISTA)专为家具产品定制的运输模拟测试协议,为解决这一痛…

作者头像 李华
网站建设 2026/5/1 6:09:10

4、版本控制与Subversion入门指南

版本控制与Subversion入门指南 1. 版本控制中的锁机制选择 在版本控制中,锁机制是一个重要的概念。严格锁机制往往会带来额外的麻烦,却没有特别明显的回报。而乐观锁机制,如Subversion所采用的,冲突出现的频率极低。 在团队协作中,通常的工作划分方式使得成员们在代码的…

作者头像 李华
网站建设 2026/5/1 6:12:07

10、高效管理版本库:Subversion 项目组织与标签分支运用指南

高效管理版本库:Subversion 项目组织与标签分支运用指南 在软件开发过程中,版本控制系统是不可或缺的工具,它能帮助开发者有效管理项目代码的变更。Subversion 作为一款广泛使用的版本控制系统,为我们提供了丰富的功能来组织项目和管理代码。下面将详细介绍如何在 Subvers…

作者头像 李华