ZDNET 要点总结
使用智能体时,AI 按令牌计算的成本飙升,且表现不稳定,无法预测其令牌总使用量,用户必须要求价格透明和性能保证。
研究背景与发现
密歇根大学及其合作机构的研究指出,智能体成本飙升且难以预测。该研究题为《AI 智能体如何花费你的金钱?分析和预测智能体编码任务中的令牌消耗》,已发布在 arXiv 预印本服务器上。研究发现,智能体消耗的令牌数量比逐轮的简单基于提示的聊天多得多,不同模型执行相同任务时令牌成本差异大,且同一模型每次处理相同问题成本也可能不同,无法预测。
计算令牌成本
研究团队使用开源智能体 AI 框架 OpenHands 构建智能体,并在开源编码基准测试 SWE - Bench 上测试。不同模型有不同表现,如 OpenAI 的 ChatGPT 5 和 5.2 以低成本实现较高准确率,Anthropic 的 Claude Sonnet - 4.5 准确率最高但令牌成本更高,Google 的 Gemini - 3 - Pro 处于两者之间,中国 AI 实验室 Moonshot 的 Kimi - K2 模型表现最差。更多令牌不一定带来更好结果,智能体在任务上花费时间越长,工作效果可能越差。
无法预测成本
智能体难以进行令牌使用量预测和定价,其自我预测往往偏低。
关注输入令牌
输入令牌在令牌成本中占主导地位,智能体工作流会累积不同来源信息,相同上下文反复输入模型,导致输入/输出比率高,最昂贵的输入令牌因素是从内存中检索先前信息。
终将面临清算
研究结果证实使用编码智能体时费用增加且成本不明。作者提议智能体可进行“粗粒度”的令牌成本估计。用户可考虑控制输入环节因素,但整个行业需采取更多措施,用户应联合施压供应商提供价格透明和任务完成保证。
相关推荐
微软终于开源 DOS 1.0;如何审计 ChatGPT 对你的了解并重新夺回数据隐私;为什么虚拟桌面如此有用;测试 ChatGPT Images 2.0 与 Gemini Nano Banana 哪个更好。