你的 Agent 跑分到底可不可信？读一篇 LLM 评测“透明度审计-编程实验室

TL;DR

一篇 2026 年 5 月 20 日提交的 arXiv 论文 (arXiv:2605.21404) 审计了 12 篇知名 LLM Agent 评测论文,关注的不是"分数对不对",而是"它们有没有把怎么跑出来的说清楚"。结论很令人警醒:8 篇 Agent 评测论文的平均"披露分"只有 0.38(满分 1.0),而 4 篇传统静态评测是 0.66。最大的黑洞是成本(8 篇全都没披露推理花费)和测评环境(没人给出内容寻址的容器镜像)。本文拆解它的审计方法,并谈谈对算法工程师做评测的启示。

一、问题的起点:同一个 benchmark,两篇论文打架

做过 Agent 评测的人都遇到过这种崩溃时刻:两篇论文报告同一个 benchmark、同一个模型名,分数却对不上。你想搞清楚到底差在哪——是脚手架 (scaffold) 不同?采样温度不同?用了不同子集?还是 evaluator 版本变了?——结果翻遍论文和开源仓库,根本找不到答案。

这篇由 Mahdi Naser Moghadasi(BrightMind AI / Texas Tech)与 Faezeh Ghaderi(UT Arlington)合著的论文,正是从这种"familiar frustration"出发。作者明确把它定位成一份实现报告 (implementation report):不是又造一个新 benchmark,而是退一步审视——现有评测论文,到底有没有把实验过程写到可复现的程度。

二、审计方法:五个字段的打分表

作者设计了一个轻量的审计 schema,只看五个维度:

Benchmark identity(基准身份):用的是哪个版本、哪个子集,说清楚了吗?
Harness specification(测评框架规格):跑评测的脚手架、环境长什么样?
Inference settings(推理设置):温度、采样、最大步数等。
Cost reporting(成本报告):跑一次花了多少 token / 多少钱?
Failure breakdown(失败拆解):失败案例的分类与统计。

注意一个关键的方法论边界:作者只给"披露程度"打分,不给"结果正确性"打分。论文里写得很直白——披露充分不代表结果可信,它只代表"你能看懂这个 run 是怎么跑的"。这个区分很重要,它把"诚实度"和"正确性"解耦,避免把两件事混为一谈。

为了让打分可复现,他们还写了一份 codebook(记录打分时遇到的边界情形),由单个审计员一次性完成全部打分,并坦承多评分员审计 (multi-rater audit) 才是下一步该做的事。这种对自身局限的诚实,恰恰是论文想倡导的风气。

三、那个 0.38 说明了什么

样本是 12 篇 canonical 论文:8 篇 Agent 评测、4 篇传统静态评测。

结果是 Agent 组平均 0.38、静态组平均 0.66。差距最大的两项尤其突出:

成本:8 篇 Agent 评测论文里,没有一篇以任何形式披露推理成本。这对 Agent 尤其致命——Agent 动辄几十步调用,跑一遍的开销可能差一个数量级,但论文里只报准确率,读者完全无法判断"这个分数是用 5 倍预算堆出来的,还是真的更聪明"。
测评环境:没有一篇完整给出内容寻址 (content-addressed) 的容器镜像。也就是说,即便你想原样复现它的环境,也拿不到一个哈希锁定、保证一致的镜像。

为什么 Agent 评测比静态评测的披露更差?一个合理的解释是:Agent 评测的活动部件太多了。静态 benchmark 基本是"输入题目—对答案",而 Agent 评测要规定脚手架、工具集、环境状态、多轮交互、超时与重试策略……维度一多,作者要么没意识到要写,要么觉得写不完,于是干脆略过。

四、对算法工程师的启示

这篇论文没有给出惊艳的新模型,但它的价值在于把一个被长期忽视的工程问题摆上台面:Agent 评测正在重蹈"不可复现"的覆辙。

实用的做法是把这五个字段当成你自己发评测时的 checklist:把脚手架版本、推理设置、单次运行成本、失败分类都写进附录,并尽量发布一个哈希锁定的环境镜像。作者已经把 schema(JSON Schema)、codebook(Markdown)和原始打分表(CSV)全部开源,可以直接拿来当模板。

更深一层,它提醒我们:当整个领域都在卷 SOTA 分数时,"这个分数怎么来的"反而成了稀缺品。一个连成本都不报的 0.38 披露度,意味着今天大量 Agent 排行榜的可信度,可能远低于我们以为的水平。

参考资料

What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema — arXiv:2605.21404
HTML 全文版 — arXiv:2605.21404v1

Altium Designer更新PCB时，Footprint Not Found和Unknown Pin报错？别慌，这份保姆级排查指南帮你搞定

Altium Designer更新PCB时Footprint与Pin报错全解析：从根源排查到高效解决在电子设计自动化(EDA)领域，Altium Designer作为行业标杆工具，其原理图与PCB的协同设计能力备受工程师推崇。然而，当设计迭代遇到"Footprint Not Fou…

李华

Arm CoreLink NI-710AE NoC架构与寄存器配置详解

1. Arm CoreLink NI-710AE NoC架构概览在现代多核SoC设计中，片上网络(NoC)互连架构已经成为替代传统总线架构的主流方案。Arm CoreLink NI-710AE作为企业级NoC解决方案，其分布式寄存器架构和模块化设计为复杂系统提供了可扩展的通信基础设施。与集中式总…

李华

AIOZ AI：去中心化AI计算网络如何重塑算力经济与开发范式

1. AIOZ AI：一个由人驱动的去中心化AI堆栈如果你和我一样，在AI领域摸爬滚打多年，从早期的本地模型训练到后来的云端GPU租赁，再到如今动辄天价的API调用成本，你一定会对“算力”这两个字又爱又恨。爱的是它强大的能力&a…

李华

后悔没早用！2026年我测了十多款，只留这款超好用的抖音解析工具

不管你是做会议纪要的职场人，整理课程录音的学生，还是要转访谈素材的内容创作者，录音转写工具都是刚需。2026年我前前后后测了十多款同类工具，从免费到付费试了个遍，今天直接给结论：听脑AI是同类工具中最值…

李华

基于AI情绪分析的加密货币交易机器人：从NLP模型到量化策略实战

1. 项目概述：当AI情绪分析遇上加密交易最近几年，我身边不少做量化交易的朋友都在琢磨同一个问题：除了K线、成交量这些硬邦邦的数据，市场里那些看不见摸不着的“情绪”到底能不能量化，并且用来赚钱？尤其是在…

李华

区块链存证技术：AI时代版权保护的数字公证方案

1. 项目概述：当AI创作撞上版权保护，区块链如何成为“数字公证员”？最近和几个做内容创作和AI应用开发的朋友聊天，大家不约而同地提到了同一个焦虑：现在用AI生成一张图、写一段文案、甚至编一段代码太容易了&#xff0c…

李华