news 2026/6/1 10:25:21

AI写代码快了一倍,代码质量却烂了——微软Build明天交答卷

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI写代码快了一倍,代码质量却烂了——微软Build明天交答卷

早上打开 Slack,看到运维同事发了一串崩溃消息:

"PR #4723 —— 又是 AI 写的吧?build 炸了三次,我回滚了两轮才发现是它自己挖的坑。"

我看了一眼。确实,代码能跑,但逻辑是歪的。边界条件没处理,异常捕获写了个寂寞,注释倒是写得挺漂亮——标准的 AI 风格。

这不是个例。最近一周,两件事撞在一起,让这个问题变得没法再假装看不见。


明天,微软要在 Build 上亮剑

先说第一条。

微软 Build 2026 明天(6月2日)在旧金山开幕,CEO Satya Nadella 主题演讲。最大看点?微软准备推出一款自研编程模型,用来驱动 GitHub Copilot。

来源是 The Information 和 Reuters 的报道,可信度很高。这是微软在 AI 编程领域的"翻身仗"——你没看错,它需要翻身。

GitHub Copilot 明明抢跑了两年:2021 年出预览,比 ChatGPT 还早了 14 个月,坐拥 GitHub 这个全球最大代码仓库。到今天,Copilot 有超过 2000 万用户、470 万付费订阅者,90% 的财富 100 强公司在用。Nadella 说 Copilot 现在的营收已经超过了 2018 年微软收购 GitHub 时的整个 GitHub。

然后风向变了。

Anthropic 的 Claude Code、OpenAI 的 Codex、创业公司 Cursor——开发者们用脚投票,转向了这些工具。xAI 的 Grok Code Fast 1 靠速度和超低价位也来搅局。微软坐拥先发优势,硬是被后来者超了车。{来源: gadgetsnow.indiatimes.com, 2026-05-31}

这故事挺讽刺的——GitHub 自己的 Octoverse 报告刚造了个词叫 "AI slop",形容那些低质量的 AI 生成 PR 正在淹没维护者队列。而微软的应对策略是:往 Copilot 里塞更多 AI 模型。

讽刺归讽刺,但逻辑上说得通。新模型要跟 OpenAI 和 Anthropic 解绑——2025 年 10 月微软和 OpenAI 重组协议,2026 年 4 月又修了一次,微软持股约 27%,OpenAI 承诺在 Azure 上花 2500 亿美元。微软的 AI 负责人 Mustafa Suleyman 终于可以放开手脚训练自研模型了。{来源: gadgetsnow.indiatimes.com / The Information, 2026-05-28}

新模型到底有多强?名字、参数量、架构、跑分——至今没人知道。Build 上揭晓。


另一面:AI 让代码变快,但质量在烂

第二条新闻,更值得深思。

上周五(5月29日),TechCrunch 发了篇报道,标题直接就是:"程序员拒绝离开 AI 工作——这可能会反噬他们"。

同一天,新浪科技转载了 IT 之家的深度报道,把一堆研究数据摆到了台面上。我挑几个重点:

44% 的 AI token 消耗,用在修 AI 自己生成的 bug。

这是 Entelligence AI 的创始人发的推文,引发广泛转发。代码审核工具 CodeRabbit 分析开源 PR 后发现,AI 写的代码出问题的概率,是人工代码的1.7 倍。{数据来源: 新浪科技/IT之家, 2026-05-31}

亚马逊关掉了内部叫"基罗排名"的 token 用量排行榜。

原因是员工为冲榜疯狂调 AI,恶意刷 token,运营成本大幅飙升。{来源: 新浪科技, 2026-05-31}

优步 4 个月花光了全年 AI 预算。

公司 COO Andrew Macdonald 在播客里说,高额投入并没有带来项目规模和效率的实质性增长。{来源: 新浪科技, 2026-05-31}

METR 实验室的研究最扎心。

2025 年的研究里,开发者们都说 AI 提升了效率——但实际数据却显示整体进度反而变慢了。AI 生成代码的速度确实快,但开发者要花额外时间排查 bug、修复漏洞、引导 AI、等它输出。到 2026 年 2 月,METR 发现绝大多数开发者已经无法接受脱离 AI 工作,哪怕只是做个测试。

最后 METR 没法做对照实验了——没人愿意参加"不用 AI"的对照组。它们只好改成问卷调查,让开发者自评效率。不出所料,自评分翻了一倍。{来源: 新浪科技/IT之家, 2026-05-31}

有个程序员兼作家 James Shore 在 Hacker News 上爆火的一篇文章说得更直白:

"就算你现在写代码的速度快了一倍,也得祈祷维护成本能随之减半。否则只会陷入困境——你换来的只是一时的速度提升,却被套上了永久的运维枷锁。"{来源: Hacker News 博文, 转引自新浪科技, 2026-05-31}


速度 vs 质量:矛盾的根源在哪?

两件事其实在说同一个问题。

微软要发新编程模型——因为 Copilot 被对手甩开了。而对手们被追捧的原因很简单:更快

但"更快"的代价,正在浮出水面。

新加坡管理大学的研究团队在 4 月发布了警示报告:AI 生成的代码会给实际软件项目埋下长期维护隐患。{来源: 新浪科技, 2026-05-31}

现在摆在台面上的是:

维度表面效果真实代价
编码速度提升 2-3 倍调试/修复时间翻倍
上手门槛零基础也能写代码烂代码泛滥,维护成本转嫁
开发体验"有 AI 真好"token 成本激增,运营压力山大
企业层面工程师自评效率翻倍客观数据不支撑,预算超支

这不是说 AI 编程不行。说实话,我天天在用,也回不去了。

问题是——整个行业都在追求速度和 token 消耗量,但没人真正为"写出来的代码能不能维护"买单。

Cognition(Devin 的母公司)的 CEO Scott Wu 自己也承认:Devin 的综合能力介于初级和中级程序员之间,远不到"交付后不用管"的程度。{来源: 新浪科技, 2026-05-31} 新加坡管理大学的建议是:程序员要像学编程语言一样吃透 AI 的能力边界,搭建适配 AI 流程的质检体系,AI 产出的每一行代码都要像审核新人代码一样逐条过。

说白了——AI 帮你提速了,但你不能因此放掉自己的判断力。


Build 上,我们应该看什么?

明天 Nadella 登台,有几个问题值得盯着看:

  1. 新编程模型跑分多少?HumanEval 已经不够了,现在要看 SWE-bench、看实际项目场景
  2. 价格怎么定?微软说要做 OpenAI 和 Anthropic 的"更廉价替代方案"——具体多廉价?
  3. "AI slop"要怎么治?微软自己的报告都指出问题了,新模型有没有对应的质量机制?
  4. Copilot 会不会多模型路由?如果 Copilot 内部已经开始根据任务类型切换模型(自研 / OpenAI / Anthropic),那才是真正的大新闻

你平时用哪个 AI 编程工具?有没有遇到过"AI 写代码快但质量烂"的情况?评论区聊聊,我整理到后续文章里。

明天 Build 主题演讲之后,我会第一时间出解读,关注别错过。


应用技巧:痛点共鸣式开头(同事发崩溃消息的具体场景)、先认后翻说服结构(先承认AI编程确实好用有效,再翻转展示质量问题)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/1 10:21:47

告别迷茫!用EB和S32DS从零搭建AutoSar MCAL工程(保姆级图文教程)

从零构建AutoSar MCAL工程:EB与S32DS深度整合指南 第一次接触AutoSar MCAL开发时,面对EB tresos和S32DS两套工具链的协同工作,许多工程师都会感到困惑——为什么需要两个工程?配置文件如何传递?裁剪RTD库的依据是什么&…

作者头像 李华
网站建设 2026/6/1 10:16:02

三步永久保存微信聊天记录:用WeChatMsg守护你的数字记忆

三步永久保存微信聊天记录:用WeChatMsg守护你的数字记忆 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeC…

作者头像 李华
网站建设 2026/6/1 10:15:32

AI CodeX深度解析:重塑开发效率的全能AI编程智能体

简介: 在AI技术全面渗透软件开发领域的当下,各类AI编程工具层出不穷,从代码补全到智能调试,不断刷新开发者的工作方式。但多数工具功能单一、场景受限,仅能完成碎片化辅助工作,难以覆盖完整开发流程。而OpenAI AI Code…

作者头像 李华
网站建设 2026/6/1 10:14:15

AI生态之战:从模型竞争到平台构建,开发者如何选型与架构设计

1. 从“明星模型”到“生态之战”:AI竞争的本质变迁最近和几个做AI应用开发的朋友聊天,大家不约而同地提到一个现象:现在再跟客户或投资人聊项目,如果开场白还是“我们基于GPT-4/Claude 3开发”,对方的眼神里已经很难再…

作者头像 李华
网站建设 2026/6/1 10:11:30

你的 Agent 跑分到底可不可信?读一篇 LLM 评测“透明度审计

TL;DR 一篇 2026 年 5 月 20 日提交的 arXiv 论文 (arXiv:2605.21404) 审计了 12 篇知名 LLM Agent 评测论文,关注的不是"分数对不对",而是"它们有没有把怎么跑出来的说清楚"。结论很令人警醒:8 篇 Agent 评测论文的平均"披露分"只有 0.38(满分 …

作者头像 李华