TL;DR
一篇 2026 年 5 月 20 日提交的 arXiv 论文 (arXiv:2605.21404) 审计了 12 篇知名 LLM Agent 评测论文,关注的不是"分数对不对",而是"它们有没有把怎么跑出来的说清楚"。结论很令人警醒:8 篇 Agent 评测论文的平均"披露分"只有 0.38(满分 1.0),而 4 篇传统静态评测是 0.66。最大的黑洞是成本(8 篇全都没披露推理花费)和测评环境(没人给出内容寻址的容器镜像)。本文拆解它的审计方法,并谈谈对算法工程师做评测的启示。
一、问题的起点:同一个 benchmark,两篇论文打架
做过 Agent 评测的人都遇到过这种崩溃时刻:两篇论文报告同一个 benchmark、同一个模型名,分数却对不上。你想搞清楚到底差在哪——是脚手架 (scaffold) 不同?采样温度不同?用了不同子集?还是 evaluator 版本变了?——结果翻遍论文和开源仓库,根本找不到答案。
这篇由 Mahdi Naser Moghadasi(BrightMind AI / Texas Tech)与 Faezeh Ghaderi(UT Arlington)合著的论文,正是从这种"familiar frustration"出发。作者明确把它定位成一份实现报告 (implementation report):不是又造一个新 benchmark,而是退一步审视——现有评测论文,到底有没有把实验过程写到可复现的程度。
二、审计方法:五个字段的打分表
作者设计了一个轻量的审计 schema,只看五个维度:
- Benchmark identity(基准身份):用的是哪个版本、哪个子集,说清楚了吗?
- Harness specification(测评框架规格):跑评测的脚手架、环境长什么样?
- Inference settings(推理设置):温度、采样、最大步数等。
- Cost reporting(成本报告):跑一次花了多少 token / 多少钱?
- Failure breakdown(失败拆解):失败案例的分类与统计。
注意一个关键的方法论边界:作者只给"披露程度"打分,不给"结果正确性"打分。论文里写得很直白——披露充分不代表结果可信,它只代表"你能看懂这个 run 是怎么跑的"。这个区分很重要,它把"诚实度"和"正确性"解耦,避免把两件事混为一谈。
为了让打分可复现,他们还写了一份 codebook(记录打分时遇到的边界情形),由单个审计员一次性完成全部打分,并坦承多评分员审计 (multi-rater audit) 才是下一步该做的事。这种对自身局限的诚实,恰恰是论文想倡导的风气。
三、那个 0.38 说明了什么
样本是 12 篇 canonical 论文:8 篇 Agent 评测、4 篇传统静态评测。
结果是 Agent 组平均 0.38、静态组平均 0.66。差距最大的两项尤其突出:
- 成本:8 篇 Agent 评测论文里,没有一篇以任何形式披露推理成本。这对 Agent 尤其致命——Agent 动辄几十步调用,跑一遍的开销可能差一个数量级,但论文里只报准确率,读者完全无法判断"这个分数是用 5 倍预算堆出来的,还是真的更聪明"。
- 测评环境:没有一篇完整给出内容寻址 (content-addressed) 的容器镜像。也就是说,即便你想原样复现它的环境,也拿不到一个哈希锁定、保证一致的镜像。
为什么 Agent 评测比静态评测的披露更差?一个合理的解释是:Agent 评测的活动部件太多了。静态 benchmark 基本是"输入题目—对答案",而 Agent 评测要规定脚手架、工具集、环境状态、多轮交互、超时与重试策略……维度一多,作者要么没意识到要写,要么觉得写不完,于是干脆略过。
四、对算法工程师的启示
这篇论文没有给出惊艳的新模型,但它的价值在于把一个被长期忽视的工程问题摆上台面:Agent 评测正在重蹈"不可复现"的覆辙。
实用的做法是把这五个字段当成你自己发评测时的 checklist:把脚手架版本、推理设置、单次运行成本、失败分类都写进附录,并尽量发布一个哈希锁定的环境镜像。作者已经把 schema(JSON Schema)、codebook(Markdown)和原始打分表(CSV)全部开源,可以直接拿来当模板。
更深一层,它提醒我们:当整个领域都在卷 SOTA 分数时,"这个分数怎么来的"反而成了稀缺品。一个连成本都不报的 0.38 披露度,意味着今天大量 Agent 排行榜的可信度,可能远低于我们以为的水平。
参考资料
- What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema — arXiv:2605.21404
- HTML 全文版 — arXiv:2605.21404v1