news 2026/5/2 0:36:04

对AI泡沫的地狱式批判,你认可吗?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
对AI泡沫的地狱式批判,你认可吗?

对AI泡沫的地狱式批判,你认可吗?

Reddit 上有人写了一段话,措辞粗暴,但戳到了很多人的痛处。

原帖:一位"受害者"的愤怒

原文来自 Reddit,作者自称花了超过一个月测试各种 AI Agent 工具——Hermes、OpenClaw、PicoClaw、pi-mono、Paperclip 等等,最后结论是:

“It’s stuff for who has LOTS of time to waste.”(这是给有大把时间可以浪费的人准备的东西。)

他的具体控诉:

  1. 代码质量是"氛围编码"(vibe coded):仓库里 5000+ 个 Issue,全靠自动化 bot 管理,每次更新修一个问题再带来三个新问题。

  2. 模型不可靠:不讲清楚就乱来,必须像哄小孩一样反复纠正才能勉强完成任务。

  3. 成功案例大量造假:什么"用 AI Agent 自动化了整栋房子"、“三小时赚了五千亿”——他认为全是 AI 机器人刷出来的假帖。

  4. 唯一勉强推荐的是 Hermes:相对稳定,OpenClaw 连任务状态都报告不清楚,停都停不下来。


这些批评,有几分是真的?

真实的部分:可靠性确实是当前最大的工程难题

这一点不用回避。生产环境里的 AI Agent 失败率极高,原因是真实存在的:

  • 错误累积(Error Compounding):多步骤 Agent 中,每一步的小概率失误会指数级叠加。一个 10 步的 Agent,每步 95% 成功率,最终成功率只有 60%。
  • 上下文处理失控:长任务中模型会"失忆",前面定好的约束后面悄悄违反。
  • 工具调用的幻觉:模型会自信地调用一个不存在的 API 端点,然后继续往下走。

IBM、Arize AI 等机构的研究也印证了这点:90% 的 AI Agent 在真实生产场景中会失败,根源不是模型不够聪明,而是可靠性(Reliability)和边界控制没有做好。

夸大的部分:把"现阶段局限"等同于"永远没用"

这是情绪化批判最容易犯的错:把当下的工程局限投影成永恒的结论。

回想 2010 年的深度学习:ImageNet 错误率还有 26%,有人说"神经网络永远不可能实用"。五年后,错误率降到 3.6%,低于人类水平。

AI Agent 正处于同样的阶段——基础设施不成熟,工具链不稳定,但方向没有错

被忽略的部分:使用门槛和场景匹配

原帖作者花了一个月"测试"各种工具,但从描述看,他用的方式更像在测试产品,而不是在解决具体问题。

AI Agent 当前真正跑出价值的场景有一个共同特征:任务边界清晰、反馈闭环短、容错成本低

比如:

  • 代码 Review + 自动提 PR Comment ✅
  • 每日新闻抓取 + 整理发布 ✅
  • 开放式"帮我优化整个系统架构" ❌

把 Agent 丢进第三类场景,然后说它没用,是方法论问题,不是技术问题。


关于"成功案例造假"

这个指控值得认真对待。

AI 社区确实存在大量夸大的成功案例——部分是无意识的幸存者偏差(只有成功的人会发帖),部分是刻意的营销内容。

但"存在夸大"不等于"全部造假"。判断标准应该是:

  • 有没有具体的技术细节(用了什么模型、什么框架、踩了哪些坑)?
  • 有没有量化的、可复现的结果?
  • 作者的技术背景是否与任务匹配?

符合这些标准的案例,是真实存在的。


泡沫的本质:时间错位,而非方向错误

AI 泡沫的真正问题不是"AI 没用",而是市场预期的时间轴和技术成熟的时间轴严重错位

  • 资本市场用 2 年的时间定价了 10 年才能实现的价值
  • 开发者用生产级标准测试了研究级的工具
  • 用户用"自动化一切"的期望使用了"辅助特定任务"的产品

这种错位,每次技术革命都会发生:互联网泡沫、移动互联网、区块链,无一例外。

泡沫会破,但底层技术不会消失。Gartner 技术成熟度曲线里,"泡沫破裂后的低谷"恰恰是真正的建设者入场的最佳时机。


结语:愤怒是有价值的噪音

那位 Reddit 用户的愤怒,本质上是一个真实的工程反馈:现有的 AI Agent 工具,对普通用户来说门槛太高、可靠性太低、预期管理太差

这是需要被认真对待的信号,不是需要被辩护的攻击。

真正的问题不是"AI 有没有泡沫",而是:在泡沫之下,你能不能找到那些真实创造价值的 10%?

找到了,就是先机。找不到,就是教训。

两种结果,都比旁观有价值。


参考来源:Reddit r/ArtificialInteligence、IBM AI Agents 2025 Report、Arize AI Production Failure Analysis、Stanford Social Media Lab

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 0:31:33

通过环境变量为Hermes Agent工具配置Taotoken自定义模型提供商

通过环境变量为Hermes Agent工具配置Taotoken自定义模型提供商 1. 准备工作 在开始配置前,请确保已安装Hermes Agent工具并拥有有效的Taotoken API Key。API Key可在Taotoken控制台的「API密钥管理」页面创建。同时确认Hermes Agent版本支持自定义模型提供商功能&…

作者头像 李华
网站建设 2026/5/2 0:29:22

C++字符串处理实战:用map和substr搞定PAT乙级里的中英文混合计算器

C字符串处理实战:用map和substr搞定中英文混合计算器 在编程竞赛和实际开发中,处理混合了不同语言和格式的输入字符串是常见挑战。今天我们要探讨一个有趣的问题:如何用C优雅地解析并计算同时包含中文数字拼音(如"yi"、…

作者头像 李华
网站建设 2026/5/2 0:27:01

League Akari:英雄联盟客户端终极效率工具完整指南

League Akari:英雄联盟客户端终极效率工具完整指南 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾在英雄联盟BP阶段因手速…

作者头像 李华
网站建设 2026/5/2 0:26:26

FACTS Leaderboard:大模型真实性评估的多维度基准测试

1. 项目概述:FACTS Leaderboard的诞生背景在2023年大语言模型爆发式发展后,行业面临一个关键挑战:如何客观评估模型生成内容的真实性?传统基准测试如TruthfulQA和Natural Questions已无法满足需求——当GPT-4在这些测试中达到90%准…

作者头像 李华