AI写代码快了一倍，代码质量却烂了——微软Build明天交答卷-编程实验室

早上打开 Slack，看到运维同事发了一串崩溃消息：

"PR #4723 —— 又是 AI 写的吧？build 炸了三次，我回滚了两轮才发现是它自己挖的坑。"

我看了一眼。确实，代码能跑，但逻辑是歪的。边界条件没处理，异常捕获写了个寂寞，注释倒是写得挺漂亮——标准的 AI 风格。

这不是个例。最近一周，两件事撞在一起，让这个问题变得没法再假装看不见。

明天，微软要在 Build 上亮剑

先说第一条。

微软 Build 2026 明天（6月2日）在旧金山开幕，CEO Satya Nadella 主题演讲。最大看点？微软准备推出一款自研编程模型，用来驱动 GitHub Copilot。

来源是 The Information 和 Reuters 的报道，可信度很高。这是微软在 AI 编程领域的"翻身仗"——你没看错，它需要翻身。

GitHub Copilot 明明抢跑了两年：2021 年出预览，比 ChatGPT 还早了 14 个月，坐拥 GitHub 这个全球最大代码仓库。到今天，Copilot 有超过 2000 万用户、470 万付费订阅者，90% 的财富 100 强公司在用。Nadella 说 Copilot 现在的营收已经超过了 2018 年微软收购 GitHub 时的整个 GitHub。

然后风向变了。

Anthropic 的 Claude Code、OpenAI 的 Codex、创业公司 Cursor——开发者们用脚投票，转向了这些工具。xAI 的 Grok Code Fast 1 靠速度和超低价位也来搅局。微软坐拥先发优势，硬是被后来者超了车。{来源: gadgetsnow.indiatimes.com, 2026-05-31}

这故事挺讽刺的——GitHub 自己的 Octoverse 报告刚造了个词叫 "AI slop"，形容那些低质量的 AI 生成 PR 正在淹没维护者队列。而微软的应对策略是：往 Copilot 里塞更多 AI 模型。

讽刺归讽刺，但逻辑上说得通。新模型要跟 OpenAI 和 Anthropic 解绑——2025 年 10 月微软和 OpenAI 重组协议，2026 年 4 月又修了一次，微软持股约 27%，OpenAI 承诺在 Azure 上花 2500 亿美元。微软的 AI 负责人 Mustafa Suleyman 终于可以放开手脚训练自研模型了。{来源: gadgetsnow.indiatimes.com / The Information, 2026-05-28}

新模型到底有多强？名字、参数量、架构、跑分——至今没人知道。Build 上揭晓。

另一面：AI 让代码变快，但质量在烂

第二条新闻，更值得深思。

上周五（5月29日），TechCrunch 发了篇报道，标题直接就是："程序员拒绝离开 AI 工作——这可能会反噬他们"。

同一天，新浪科技转载了 IT 之家的深度报道，把一堆研究数据摆到了台面上。我挑几个重点：

44% 的 AI token 消耗，用在修 AI 自己生成的 bug。

这是 Entelligence AI 的创始人发的推文，引发广泛转发。代码审核工具 CodeRabbit 分析开源 PR 后发现，AI 写的代码出问题的概率，是人工代码的1.7 倍。{数据来源: 新浪科技/IT之家, 2026-05-31}

亚马逊关掉了内部叫"基罗排名"的 token 用量排行榜。

原因是员工为冲榜疯狂调 AI，恶意刷 token，运营成本大幅飙升。{来源: 新浪科技, 2026-05-31}

优步 4 个月花光了全年 AI 预算。

公司 COO Andrew Macdonald 在播客里说，高额投入并没有带来项目规模和效率的实质性增长。{来源: 新浪科技, 2026-05-31}

METR 实验室的研究最扎心。

2025 年的研究里，开发者们都说 AI 提升了效率——但实际数据却显示整体进度反而变慢了。AI 生成代码的速度确实快，但开发者要花额外时间排查 bug、修复漏洞、引导 AI、等它输出。到 2026 年 2 月，METR 发现绝大多数开发者已经无法接受脱离 AI 工作，哪怕只是做个测试。

最后 METR 没法做对照实验了——没人愿意参加"不用 AI"的对照组。它们只好改成问卷调查，让开发者自评效率。不出所料，自评分翻了一倍。{来源: 新浪科技/IT之家, 2026-05-31}

有个程序员兼作家 James Shore 在 Hacker News 上爆火的一篇文章说得更直白：

"就算你现在写代码的速度快了一倍，也得祈祷维护成本能随之减半。否则只会陷入困境——你换来的只是一时的速度提升，却被套上了永久的运维枷锁。"{来源: Hacker News 博文, 转引自新浪科技, 2026-05-31}

速度 vs 质量：矛盾的根源在哪？

两件事其实在说同一个问题。

微软要发新编程模型——因为 Copilot 被对手甩开了。而对手们被追捧的原因很简单：更快。

但"更快"的代价，正在浮出水面。

新加坡管理大学的研究团队在 4 月发布了警示报告：AI 生成的代码会给实际软件项目埋下长期维护隐患。{来源: 新浪科技, 2026-05-31}

现在摆在台面上的是：

维度	表面效果	真实代价
编码速度	提升 2-3 倍	调试／修复时间翻倍
上手门槛	零基础也能写代码	烂代码泛滥，维护成本转嫁
开发体验	"有 AI 真好"	token 成本激增，运营压力山大
企业层面	工程师自评效率翻倍	客观数据不支撑，预算超支

这不是说 AI 编程不行。说实话，我天天在用，也回不去了。

问题是——整个行业都在追求速度和 token 消耗量，但没人真正为"写出来的代码能不能维护"买单。

Cognition（Devin 的母公司）的 CEO Scott Wu 自己也承认：Devin 的综合能力介于初级和中级程序员之间，远不到"交付后不用管"的程度。{来源: 新浪科技, 2026-05-31} 新加坡管理大学的建议是：程序员要像学编程语言一样吃透 AI 的能力边界，搭建适配 AI 流程的质检体系，AI 产出的每一行代码都要像审核新人代码一样逐条过。

说白了——AI 帮你提速了，但你不能因此放掉自己的判断力。

Build 上，我们应该看什么？

明天 Nadella 登台，有几个问题值得盯着看：

新编程模型跑分多少？HumanEval 已经不够了，现在要看 SWE-bench、看实际项目场景
价格怎么定？微软说要做 OpenAI 和 Anthropic 的"更廉价替代方案"——具体多廉价？
"AI slop"要怎么治？微软自己的报告都指出问题了，新模型有没有对应的质量机制？
Copilot 会不会多模型路由？如果 Copilot 内部已经开始根据任务类型切换模型（自研 / OpenAI / Anthropic），那才是真正的大新闻

你平时用哪个 AI 编程工具？有没有遇到过"AI 写代码快但质量烂"的情况？评论区聊聊，我整理到后续文章里。

明天 Build 主题演讲之后，我会第一时间出解读，关注别错过。