AI 智能体成本飙升且难预测，用户需施压供应商保障价格透明与性能-编程实验室

ZDNET 要点总结

使用智能体时，AI 按令牌计算的成本飙升，且表现不稳定，无法预测其令牌总使用量，用户必须要求价格透明和性能保证。

研究背景与发现

密歇根大学及其合作机构的研究指出，智能体成本飙升且难以预测。该研究题为《AI 智能体如何花费你的金钱？分析和预测智能体编码任务中的令牌消耗》，已发布在 arXiv 预印本服务器上。研究发现，智能体消耗的令牌数量比逐轮的简单基于提示的聊天多得多，不同模型执行相同任务时令牌成本差异大，且同一模型每次处理相同问题成本也可能不同，无法预测。

计算令牌成本

研究团队使用开源智能体 AI 框架 OpenHands 构建智能体，并在开源编码基准测试 SWE - Bench 上测试。不同模型有不同表现，如 OpenAI 的 ChatGPT 5 和 5.2 以低成本实现较高准确率，Anthropic 的 Claude Sonnet - 4.5 准确率最高但令牌成本更高，Google 的 Gemini - 3 - Pro 处于两者之间，中国 AI 实验室 Moonshot 的 Kimi - K2 模型表现最差。更多令牌不一定带来更好结果，智能体在任务上花费时间越长，工作效果可能越差。

无法预测成本

智能体难以进行令牌使用量预测和定价，其自我预测往往偏低。

关注输入令牌

输入令牌在令牌成本中占主导地位，智能体工作流会累积不同来源信息，相同上下文反复输入模型，导致输入/输出比率高，最昂贵的输入令牌因素是从内存中检索先前信息。

终将面临清算

研究结果证实使用编码智能体时费用增加且成本不明。作者提议智能体可进行“粗粒度”的令牌成本估计。用户可考虑控制输入环节因素，但整个行业需采取更多措施，用户应联合施压供应商提供价格透明和任务完成保证。

相关推荐

微软终于开源 DOS 1.0；如何审计 ChatGPT 对你的了解并重新夺回数据隐私；为什么虚拟桌面如此有用；测试 ChatGPT Images 2.0 与 Gemini Nano Banana 哪个更好。

别再只用鼠标悬停！ECharts地图点击高亮与取消选中功能完整实现（以四川地图为例）

ECharts地图交互进阶：打造专业级点击高亮与取消选中功能在数据可视化项目中，地图组件是最能直观展现地域分布特征的利器。但很多开发者止步于基础渲染，忽略了交互体验的精细打磨。想象这样一个场景：疫情指挥中心的大屏上&#xf…

李华

oomd 与 systemd 集成：实现服务级别的内存保护

oomd 与 systemd 集成：实现服务级别的内存保护【免费下载链接】oomd A userspace out-of-memory killer 项目地址: https://gitcode.com/gh_mirrors/oo/oomd 在现代 Linux 系统中，内存管理是确保服务稳定性的关键环节。oomd（用户空间…

李华

Chandra OCR效果可视化展示：PDF页面→原始图像→结构化HTML→Markdown对照

Chandra OCR效果可视化展示：PDF页面→原始图像→结构化HTML→Markdown对照 1. 开篇：重新定义文档识别的Chandra OCR 当你面对一堆扫描的合同、数学试卷或者表格文档时，是不是经常头疼怎么把它们变成可编辑的格式？传统的OCR工具要…

李华

从Docker镜像到全栈应用：深度解析容器化部署实践

1. 项目概述：从“Carnelian”看现代Web应用的全栈部署实践最近在社区里看到不少朋友在讨论一个叫kordspace/carnelian的项目，乍一看这个标题，很多人可能会有点懵——这既不像一个具体的工具名，也不像一个明确的产品。但作为一名在…

李华

CCMusic Dashboard可自主部署：支持单卡RTX3090/4090本地化低延迟推理

CCMusic Dashboard可自主部署：支持单卡RTX3090/4090本地化低延迟推理你是否曾好奇，AI是如何“听懂”音乐的？当一首歌响起，它如何判断这是摇滚的狂野，还是古典的优雅？今天，我要介绍一个能让你亲…

李华

别乱升！ThinkPad P53 BIOS升级前必看的3个关键点与1个后悔药

ThinkPad P53 BIOS升级：专业用户的避险指南与实战策略每次BIOS升级都像一场微型心脏手术——它能修复问题，也可能带来新的并发症。对于ThinkPad P53这样的移动工作站用户而言，盲目升级BIOS可能导致设备"脑死亡"或性能异常。本文将…

李华