对AI泡沫的地狱式批判，你认可吗？-编程实验室

对AI泡沫的地狱式批判，你认可吗？

Reddit 上有人写了一段话，措辞粗暴，但戳到了很多人的痛处。

原帖：一位"受害者"的愤怒

原文来自 Reddit，作者自称花了超过一个月测试各种 AI Agent 工具——Hermes、OpenClaw、PicoClaw、pi-mono、Paperclip 等等，最后结论是：

“It’s stuff for who has LOTS of time to waste.”（这是给有大把时间可以浪费的人准备的东西。）

他的具体控诉：

代码质量是"氛围编码"（vibe coded）：仓库里 5000+ 个 Issue，全靠自动化 bot 管理，每次更新修一个问题再带来三个新问题。
模型不可靠：不讲清楚就乱来，必须像哄小孩一样反复纠正才能勉强完成任务。
成功案例大量造假：什么"用 AI Agent 自动化了整栋房子"、“三小时赚了五千亿”——他认为全是 AI 机器人刷出来的假帖。
唯一勉强推荐的是 Hermes：相对稳定，OpenClaw 连任务状态都报告不清楚，停都停不下来。

这些批评，有几分是真的？

真实的部分：可靠性确实是当前最大的工程难题

这一点不用回避。生产环境里的 AI Agent 失败率极高，原因是真实存在的：

错误累积（Error Compounding）：多步骤 Agent 中，每一步的小概率失误会指数级叠加。一个 10 步的 Agent，每步 95% 成功率，最终成功率只有 60%。
上下文处理失控：长任务中模型会"失忆"，前面定好的约束后面悄悄违反。
工具调用的幻觉：模型会自信地调用一个不存在的 API 端点，然后继续往下走。

IBM、Arize AI 等机构的研究也印证了这点：90% 的 AI Agent 在真实生产场景中会失败，根源不是模型不够聪明，而是可靠性（Reliability）和边界控制没有做好。

夸大的部分：把"现阶段局限"等同于"永远没用"

这是情绪化批判最容易犯的错：把当下的工程局限投影成永恒的结论。

回想 2010 年的深度学习：ImageNet 错误率还有 26%，有人说"神经网络永远不可能实用"。五年后，错误率降到 3.6%，低于人类水平。

AI Agent 正处于同样的阶段——基础设施不成熟，工具链不稳定，但方向没有错。

被忽略的部分：使用门槛和场景匹配

原帖作者花了一个月"测试"各种工具，但从描述看，他用的方式更像在测试产品，而不是在解决具体问题。

AI Agent 当前真正跑出价值的场景有一个共同特征：任务边界清晰、反馈闭环短、容错成本低。

比如：

代码 Review + 自动提 PR Comment ✅
每日新闻抓取 + 整理发布 ✅
开放式"帮我优化整个系统架构" ❌

把 Agent 丢进第三类场景，然后说它没用，是方法论问题，不是技术问题。

关于"成功案例造假"

这个指控值得认真对待。

AI 社区确实存在大量夸大的成功案例——部分是无意识的幸存者偏差（只有成功的人会发帖），部分是刻意的营销内容。

但"存在夸大"不等于"全部造假"。判断标准应该是：

有没有具体的技术细节（用了什么模型、什么框架、踩了哪些坑）？
有没有量化的、可复现的结果？
作者的技术背景是否与任务匹配？

符合这些标准的案例，是真实存在的。

泡沫的本质：时间错位，而非方向错误

AI 泡沫的真正问题不是"AI 没用"，而是市场预期的时间轴和技术成熟的时间轴严重错位。

资本市场用 2 年的时间定价了 10 年才能实现的价值
开发者用生产级标准测试了研究级的工具
用户用"自动化一切"的期望使用了"辅助特定任务"的产品

这种错位，每次技术革命都会发生：互联网泡沫、移动互联网、区块链，无一例外。

泡沫会破，但底层技术不会消失。Gartner 技术成熟度曲线里，"泡沫破裂后的低谷"恰恰是真正的建设者入场的最佳时机。

结语：愤怒是有价值的噪音

那位 Reddit 用户的愤怒，本质上是一个真实的工程反馈：现有的 AI Agent 工具，对普通用户来说门槛太高、可靠性太低、预期管理太差。

这是需要被认真对待的信号，不是需要被辩护的攻击。

真正的问题不是"AI 有没有泡沫"，而是：在泡沫之下，你能不能找到那些真实创造价值的 10%？

找到了，就是先机。找不到，就是教训。

两种结果，都比旁观有价值。

参考来源：Reddit r/ArtificialInteligence、IBM AI Agents 2025 Report、Arize AI Production Failure Analysis、Stanford Social Media Lab

通过环境变量为Hermes Agent工具配置Taotoken自定义模型提供商

通过环境变量为Hermes Agent工具配置Taotoken自定义模型提供商 1. 准备工作在开始配置前，请确保已安装Hermes Agent工具并拥有有效的Taotoken API Key。API Key可在Taotoken控制台的「API密钥管理」页面创建。同时确认Hermes Agent版本支持自定义模型提供商功能&…

李华

C++字符串处理实战：用map和substr搞定PAT乙级里的中英文混合计算器

C字符串处理实战：用map和substr搞定中英文混合计算器在编程竞赛和实际开发中，处理混合了不同语言和格式的输入字符串是常见挑战。今天我们要探讨一个有趣的问题：如何用C优雅地解析并计算同时包含中文数字拼音（如"yi"、…

李华

GPX Studio终极指南：免费在线GPX编辑器，3步搞定GPS轨迹编辑难题

GPX Studio终极指南：免费在线GPX编辑器，3步搞定GPS轨迹编辑难题【免费下载链接】gpxstudio.github.io The online GPX file editor 项目地址: https://gitcode.com/gh_mirrors/gp/gpxstudio.github.io 你是不是每次骑行、徒步后，面对…

李华

PX4-Autopilot分布式飞行控制系统：高性能无人机编队飞行架构设计与实现原理

PX4-Autopilot分布式飞行控制系统：高性能无人机编队飞行架构设计与实现原理【免费下载链接】PX4-Autopilot PX4 Autopilot Software 项目地址: https://gitcode.com/gh_mirrors/px/PX4-Autopilot PX4-Autopilot作为开源无人机飞控系统的技术标杆&#xff0c…

李华

League Akari：英雄联盟客户端终极效率工具完整指南

League Akari：英雄联盟客户端终极效率工具完整指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾在英雄联盟BP阶段因手速…

李华

FACTS Leaderboard：大模型真实性评估的多维度基准测试

1. 项目概述：FACTS Leaderboard的诞生背景在2023年大语言模型爆发式发展后，行业面临一个关键挑战：如何客观评估模型生成内容的真实性？传统基准测试如TruthfulQA和Natural Questions已无法满足需求——当GPT-4在这些测试中达到90%准…

李华