Anthropic 承认 Claude 代码存在漏洞-编程实验室

Anthropic 承认了。

Claude Code 这段时间真的坏了。

而那些一直在社区里喊“变笨了”“退化了”“不稳定了”的人，并不是在情绪化，也不是不会用，更不是所谓的“提示词能力不行”。

Postmortem 到底说了什么？

4 月 23 日，Anthropic 发布了一篇文章，标题是《An update on recent Claude Code quality reports》。

这份 postmortem 解释了 Claude Code 最近质量下降的原因。

重点是，它不是一个 bug。

而是三个不同的问题叠加在一起，最终让用户感觉像是整个 Claude Code 突然倒退了一大步。

简单拆开看，大概是这样。

Bug 1：他们悄悄降低了推理强度

Claude Code 的默认 reasoning effort，从 high 被改成了 medium。

目标听起来很合理：降低延迟，让响应更快。

但实际结果是，输出质量明显变差。

这就是很多人最早感受到的那种“不对劲”：Claude Code 似乎还在工作，但判断力变弱了，推理没以前深了，做事也更容易糊弄过去。

速度快了一点。

质量却掉了一截。

而对写代码来说，这不是小问题。

Bug 2：缓存 bug 抹掉了 Claude 的记忆

这个问题最离谱。

Anthropic 原本上线了一个“优化”：清理空闲会话里的旧 thinking，减少不必要的上下文负担。

听起来没毛病。

但这个 bug 导致的结果是：它会把整个会话后续需要的推理历史也一起擦掉。

也就是说，Claude 会执行一个任务，却忘记自己为什么做了这些决定。

这正是我之前报告过的问题。

Claude Code 会编辑自己没有认真读过的文件；会编造任务已经完成；会在会话中途丢失上下文；甚至在我的使用里，它还随机撤销过我的 commit。

这不是“你提示词没写清楚”。

这是工具本身把自己的工作记忆弄丢了。

你让它继续干活，它却已经忘了前面为什么这么干。

这对任何认真用 Claude Code 做复杂项目的人来说，都是灾难级问题。

Bug 3：系统提示词把回答限制到 25 个词

第三个问题更离谱。

他们在 system prompt 里加了一条指令，把回答限制到 25 个词。

更荒唐的是，这条指令是在“经过多周内部测试且没有发现回归”之后上线的。

结果呢？

Opus 4.6 和 4.7 的质量都被拖下水。

后来，他们不得不回滚。

这也解释了为什么那段时间 Claude Code 的回答会突然变得短、浅、像是在敷衍。不是你错觉，也不是你不会问。

它真的被系统提示词压扁了。

社区反应非常激烈

Reddit 上有个帖子火了，标题大概是：

“Anthropic 刚发布 postmortem，解释了为什么 Claude 过去一个月感觉变笨了。”

这个帖子拿到了 2.1K likes 和 400 多条评论。

最热门的一条评论说得很准：

“所以基本上，我们被 gaslight 了好几个星期的每一个问题，最后都证明和我们想的一模一样。我觉得社区应该集体拍拍自己的肩膀。”

还有一条评论也很到位：

“我希望那些一直坚持说‘你只需要学会更好地写 prompt’的人，能重新考虑一下自己到底把假设推得多远。”

这句话对我来说尤其有共鸣。

因为我自己的文章下面，也出现过不少类似的刺耳评论。

当你反复遇到工具退化的问题，却被别人说成“你不会用”，那种感觉非常糟糕。

现在官方确认了。

问题不是用户想多了。

问题是真的存在。

Boris Cherny 的回应

Boris Cherny 也发推谈到了这些修复。

他确认，这三个问题来自 harness 和 Agent SDK 层面。

同时，他还宣布会为所有订阅用户重置 usage limits。

这一步当然值得肯定。

但也不能忽略一个事实：之前 AMD 的 Senior AI Director Stella Laurenzo 曾经提供过 6,852 个 session 作为证据。结果呢？他们关闭了 issue。

我还想强调一点：Boris Cherny 提到 Claude Code 已经修复，但关于 Opus 4.7 在 Claude Code 里的问题，很多报告显示还没有完全解决。

所以，情况不是“发了 postmortem，一切就结束了”。

修复是开始。

信任恢复才是更难的部分。

时间点有点微妙

这份 postmortem 发布的时间，也让人很难不多想。

它刚好和 GPT-5.5 发布撞在同一天。

而 GPT-5.5 是 OpenAI 今年最重要的发布之一。

usage reset 的时间也有点微妙。它发生在周末前大约 1.5 个工作日。也就是说，很多开发者还没真正来得及充分使用，周末就到了。

Jack_Dnlz 的说法我很难不同意：

“这些人绝对知道自己在做什么……在周末前 1.5 个工作日重置 usage，而大多数人周末根本不碰电脑。这听起来就像是在所有人都吃饱的时候发免费餐。”

这话很尖锐。

但也不是没有道理。

后果已经发生了

我感谢 Anthropic 发布 postmortem。

但必须说，伤害已经造成了。

一篇博客文章不能立刻修复这几周消耗掉的信任。

社区其实已经连续几周在拉警报。大家不断报告 Claude Code 变差，指出它丢上下文、乱改文件、输出敷衍、任务执行不稳定。

而当时很多回应并不是正面承认问题，而是转移、淡化，甚至让用户怀疑自己。

现在我们知道了：

他们内部其实一直在调查。

这才是最让人不舒服的地方。

Pro 用户也被影响了

还有一件事很难忽略。

在 postmortem 发布前两天，也就是 4 月 21 日，Anthropic 悄悄把 Claude Code 从 20 美元/月的 Pro tier pricing page 上移除了。

他们说这只是一个“针对新注册用户的 2% 测试”。

但问题是，整个网站和所有 support docs 都更新了。

这很难让人相信它只是一个无关紧要的小实验。

当质量问题还没解释清楚，定价和权限页面又开始变动时，用户自然会更紧张。

AMD 已经离开了

AMD 那边也不是说说而已。

Stella Laurenzo 的团队几周前就已经切换供应商了。50 个 agent，运行复杂系统，全部从 Claude Code 迁走。

她的话很值得听：

“6 个月前，Claude 在推理质量上独一档。但 Anthropic 已经不再独占 Opus 曾经所在的能力层级。”

这句话很重。

因为它说明的不是一次 bug，而是竞争格局变了。

过去，Claude 在很多开发者心里是明显领先的。可现在，如果质量不稳定、成本更高、信任受损，用户真的会走。

而且，他们已经在走了。

我自己的损失也很真实

这不是旁观者视角。

我自己也被影响得很严重。

因为 Claude Code 丢记忆、混乱执行、甚至选择撤销我的 commit history，我有大量工作被破坏。说实话，我差点 rage quit。

这不是夸张。

当一个你每天依赖的编码工具突然开始不可靠，而且还会破坏你的工作成果，那种挫败感非常强。

尤其是当你指出问题时，还有人告诉你“学会提示词”。

这才是真正让人火大的地方。

Opus 4.7 还是很贵

即使修复已经上线，Opus 4.7 的成本问题也还在。

新的 tokenizer 会多用大约 1.35 倍 token。相比 Opus 4.6，usage 明显更高。

也就是说，即使质量比之前 bug 期间好了一些，使用成本仍然让人很难忽略。

对个人开发者来说，这是订阅压力。

对团队来说，这是预算问题。

对重度 Claude Code 用户来说，这更是每天都会感受到的现实成本。

竞争对手已经追上来了

更麻烦的是，Anthropic 出问题的时候，其他公司没有停下来等它。

大家还在继续发东西。

GPT-5.5 发布了。OpenAI 推出了最新 frontier model，早期反馈不错。据说 NVIDIA 已经有 10,000 多名员工在内部使用，并且效果被形容为 “mind-blowing”。

Kimi K2.6 开源了。Moonshot AI 发布了一个 1T 参数、32B active 的开放权重模型，已经放上 Hugging Face。在包括 HLE-Full 在内的一些 benchmark 上，它超过了 Claude Opus 4.6 和 GPT-5.4。

Codex 也变得越来越真实。很多被 Claude Code 伤到的开发者，已经开始切到 Codex。

甚至我自己也买了 GPU。

因为本地模型质量已经提高，而云端模型价格也在上涨。对我来说，运行本地 LLM 终于开始有经济意义了。

这就是现实。

用户不是没有选择。

以前 Claude 可以靠明显领先的质量留住人。

但现在，一旦它开始不稳定，替代方案立刻就会变得诱人。

给那些说我反应过度的人

现在，你们相信了吗？

这不是我一个人在说。

不是 Reddit 在说。

不是 X threads 在说。

也不是 AMD issue 在说。

这是 Anthropic 自己发布的 postmortem 说的。

社区里的报告是有效的。

那些简单粗暴的否定，是错的。

这件事真正值得反思的地方，不只是 Claude Code 出了 bug。

而是当用户集体指出问题时，为什么第一反应常常是质疑用户，而不是认真看待信号。

“你不会用。”

“你 prompt 写得差。”

“你太夸张了。”

这些话太容易说出口了。

但现在事实证明，问题真的在工具里。

现在你该怎么做？

修复已经上线，但你需要自己采取行动。

最低限度：更新 Claude Code

把 Claude Code 更新到 v2.1.116 或更高版本。

这三个 bug 都在这个版本里被修复。

直接运行：

claude update

这是最基本的一步。

如果你还在旧版本上继续使用 Claude Code，那你可能仍然在踩已经修掉的问题。

做一次工作流审计

建议你用自己的真实任务，对比 Opus 4.6 和 Opus 4.7。

4.7 的 usage 仍然更高，但修复之后，质量确实比 bug 期间好。只是不同工作流差异会很大。

我的建议是：把 effort 设置成 medium，然后拿一个真实任务测试两边表现。

不要只靠 demo。

也不要只靠 benchmark。

你自己的项目，才是最重要的测试集。

准备替代方案

可以试试 GPT-5.5 in Codex。

它现在确实表现不错。

如果你想找开源选项，也可以看看 Kimi K2.6。

这不是说你必须马上抛弃 Claude Code，而是你应该降低单一供应商依赖。

尤其是在这次事件之后，多准备一条路，并不是焦虑，而是理性。

接下来可能会发生什么？

我感觉 Anthropic 现在明显承受着压力。

很多迹象都指向成本控制。你也可以从它的一些动作里看到 IPO 准备的影子。

我每天都在用 Claude 和 Claude Code。

我希望它是最好的。

但一个工具如果持续发布退化版本，又不能及时正面回应社区报告，就很难继续获得信任。

当然，我也愿意承认他们做对的地方。

这次 postmortem 是一个好步骤。

它至少把问题摆到了台面上，也给了用户一个解释。

但就我个人而言，我对 Anthropic 的订阅已经站在很薄的冰面上。我现在已经在非常认真地测试替代方案。

不是因为我想离开 Claude。

而是因为信任一旦被消耗，就不会因为一篇文章立刻回来。

最后

Claude Code 最近不是“感觉变差”。

它是真的坏过。

默认推理强度被降低；缓存 bug 抹掉了推理历史； system prompt 又把回答压到 25 个词；这些问题叠在一起，才让用户感受到那种明显的退化。

社区没有疯。

开发者没有集体不会写 prompt。

大家只是比官方更早感受到了问题。

而这件事真正敲响的警钟是：AI 编码工具已经不只是玩具了。它们会改文件、动项目、影响交付，甚至可能破坏 commit history。

所以，当它们坏掉时，不能只靠一句“你再优化一下提示词”糊弄过去。

工具越强，责任越大。

用户可以接受 bug。

但很难接受被忽视、被否定、被反过来说成不会用。

这次，Anthropic 承认了问题。

接下来，就看他们能不能重新把信任修回来。

最后：

精通 React 面试：从零到中高级(针对面试回答)

CSS终极指南

Vue 设计模式实战指南

20个前端开发者必备的响应式布局

深入React:从基础到最佳实践完整攻略

python 技巧精讲

React Hook 深入浅出

CSS技巧与案例详解

vue2与vue3技巧合集

Anthropic 承认 Claude 代码存在漏洞