news 2026/5/6 0:01:32

AI 智能体成本飙升且难预测,用户需施压供应商保障价格透明与性能

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 智能体成本飙升且难预测,用户需施压供应商保障价格透明与性能

ZDNET 要点总结

使用智能体时,AI 按令牌计算的成本飙升,且表现不稳定,无法预测其令牌总使用量,用户必须要求价格透明和性能保证。

研究背景与发现

密歇根大学及其合作机构的研究指出,智能体成本飙升且难以预测。该研究题为《AI 智能体如何花费你的金钱?分析和预测智能体编码任务中的令牌消耗》,已发布在 arXiv 预印本服务器上。研究发现,智能体消耗的令牌数量比逐轮的简单基于提示的聊天多得多,不同模型执行相同任务时令牌成本差异大,且同一模型每次处理相同问题成本也可能不同,无法预测。

计算令牌成本

研究团队使用开源智能体 AI 框架 OpenHands 构建智能体,并在开源编码基准测试 SWE - Bench 上测试。不同模型有不同表现,如 OpenAI 的 ChatGPT 5 和 5.2 以低成本实现较高准确率,Anthropic 的 Claude Sonnet - 4.5 准确率最高但令牌成本更高,Google 的 Gemini - 3 - Pro 处于两者之间,中国 AI 实验室 Moonshot 的 Kimi - K2 模型表现最差。更多令牌不一定带来更好结果,智能体在任务上花费时间越长,工作效果可能越差。

无法预测成本

智能体难以进行令牌使用量预测和定价,其自我预测往往偏低。

关注输入令牌

输入令牌在令牌成本中占主导地位,智能体工作流会累积不同来源信息,相同上下文反复输入模型,导致输入/输出比率高,最昂贵的输入令牌因素是从内存中检索先前信息。

终将面临清算

研究结果证实使用编码智能体时费用增加且成本不明。作者提议智能体可进行“粗粒度”的令牌成本估计。用户可考虑控制输入环节因素,但整个行业需采取更多措施,用户应联合施压供应商提供价格透明和任务完成保证。

相关推荐

微软终于开源 DOS 1.0;如何审计 ChatGPT 对你的了解并重新夺回数据隐私;为什么虚拟桌面如此有用;测试 ChatGPT Images 2.0 与 Gemini Nano Banana 哪个更好。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 23:55:28

oomd 与 systemd 集成:实现服务级别的内存保护

oomd 与 systemd 集成:实现服务级别的内存保护 【免费下载链接】oomd A userspace out-of-memory killer 项目地址: https://gitcode.com/gh_mirrors/oo/oomd 在现代 Linux 系统中,内存管理是确保服务稳定性的关键环节。oomd(用户空间…

作者头像 李华
网站建设 2026/5/5 23:41:17

从Docker镜像到全栈应用:深度解析容器化部署实践

1. 项目概述:从“Carnelian”看现代Web应用的全栈部署实践最近在社区里看到不少朋友在讨论一个叫kordspace/carnelian的项目,乍一看这个标题,很多人可能会有点懵——这既不像一个具体的工具名,也不像一个明确的产品。但作为一名在…

作者头像 李华
网站建设 2026/5/5 23:41:15

CCMusic Dashboard可自主部署:支持单卡RTX3090/4090本地化低延迟推理

CCMusic Dashboard可自主部署:支持单卡RTX3090/4090本地化低延迟推理 你是否曾好奇,AI是如何“听懂”音乐的?当一首歌响起,它如何判断这是摇滚的狂野,还是古典的优雅?今天,我要介绍一个能让你亲…

作者头像 李华
网站建设 2026/5/5 23:36:35

别乱升!ThinkPad P53 BIOS升级前必看的3个关键点与1个后悔药

ThinkPad P53 BIOS升级:专业用户的避险指南与实战策略 每次BIOS升级都像一场微型心脏手术——它能修复问题,也可能带来新的并发症。对于ThinkPad P53这样的移动工作站用户而言,盲目升级BIOS可能导致设备"脑死亡"或性能异常。本文将…

作者头像 李华