编程新范式:Loop Engineering 登场
Anthropic 工程师、Claude Code 创建者 Boris Cherny 称,1 年前他在 IDE 里写代码,配合自动补全功能,去年 11 月卸载了 IDE,开始用 Claude 写代码。现在,他不再提示 Claude,而是用循环提示并判断接下来该做什么,工作变成了写循环。他认为这是接下来几个月甚至今年剩余时间的转变。
“龙虾之父”Peter Steinberger 也发推表示,不该再给编程 Agent 写提示词,应设计循环机制让循环提示 Agent。该帖子获 150 万浏览量并引发开发者讨论。Boris Cherny 和 Peter Steinberger 的评论将 Loop Engineering 推到台前,即开发者设计循环系统提示、调度和约束 Agent。
有网友称 LinkedIn 可能掀起“Loop Engineering”潮流,Peter 回应大概 3 个月后人们将讨论“设计 loops 的舰队”。社区已把“写 Loop”视为继写 Prompt 之后的下一层抽象,也有人概括为“从 prompt engineer 到 meta - prompt engineer”。
开发者实践与反馈
有开发者验证了这种方式可行,但遇到字符膨胀问题,额度消耗快。若能解决问题,可 2 倍速度、低成本完成同样工作。
有开发者对 Loop 工程含义存疑,认为它像 cron job。对此,有开发者表示需要反馈循环,就像开发团队需要了解新功能情况、用户问题、工作流优化等。LLM 可直接访问或生成数据,且需要明确目标和验证输出结果的反馈循环。
YC CEO Garry Tan 提醒不要把 Agent 变成“富士康工厂”式重复劳动机器,开发者应让 Agent 承担更多工作。有开发者指出让 Agent 做更多事,但边界要明确,要提供清晰上下文、可信工具、可审计操作记录和安全停止条件。
一名开发者指出设计 loop 只完成一半,另一半是放入能说“不”的机制,Peter 回应在项目中使用 VISION.md 文件。这说明有效的 Loop Engineering 是带反馈闭环的工程系统,Loop 需知道何时继续、停止、回滚和交给人类处理,否则 Agent 错误会放大。
也有开发者表示这高度依赖具体场景,用 loops 构建 Web 应用可能导致系统膨胀,需建立严格治理栈和清晰规范。还有人追问 loop 的循环方式。
Claude Code 的 Loop 功能与工作流
Claude Code 发布了 Loop 功能,开发者可在 CLI 中设置周期性提示词,让其按固定间隔反复执行任务。Boris Cherny 介绍工作流是让大量 AI Agent 长时间并行工作,夜间运行“几千个”,通过 Claude App 管理任务。
工作流关键在于 Claude Code 中 /loops 和 Routines 两个面向持续自动化的功能。用户可通过 cron 在本地定时运行 /loops,Routines 运行在服务器端,可执行周期性任务,即使工程师合上笔记本电脑,Agent 仍可工作。
Loops 关键变化是不依赖外部 cron 或 shell loop,会在持续存在的 Claude Code 会话中运行,保留上下文窗口等,让 Agent 记住上一轮操作。开发者可用自然语言或命令创建任务。
当网友询问 Peter 实现方式,他仅表示用 claw 监视 Codex。目前 Codex 虽有自动化 / 定时能力,但 CLI 里没像 Claude Code 那样设立明确原生循环命令。有用户询问在 VS Code 中实现方法,Peter 反问“现在还有谁用 VS Code?”
Token 消耗问题与应对
循环工程 token 消耗量高,Boris Cherny 和 Peter Steinberger 背后公司提供近乎无限 token 支持,但社区很多人 token 预算有限。Developers Digest 提醒团队要提前规划使用成本。
对于 token 消耗问题,Peter 无解,有人指出 20 美元套餐不可能,他称“难道你的时间真不值钱吗?”有开发者表示 Token 充裕公司可用 while 循环,Token 紧张初创公司可用 for 循环实现目标。网友质疑 Peter,他回答好创意仍需人类巧思。
Claude Code 对 token 消耗问题做了各种限制,如 Loops 支持最小 1 分钟间隔,最长运行 3 天,到期自动停止;Loops 绑定当前 Claude Code 会话,关闭终端或结束会话后停止;还提供禁用 Loop 的开关。
Loops 实现的困难
有网友指出调试跑了 47 轮的状态机比修好一个 prompt 难 10 倍,且大多数人连可靠的一次性 prompt 都写不好。
一些使用 Loop 的开发者表示,一开始设置容易,但之后有很多痛点,修复费劲。有开发者后悔引入 Loop,迁移到其他方案耗费时间和资源,只能继续撑着。还有开发者建议尽早迁移,时间越久情况越糟。
Claude Code 的长时运行进化
Loops 工程重点是让 Agent 长时间运行不跑偏并能判断对错,Claude Code 是典型代表。Anthropic 应用 AI 团队工程师 Ash 表示公司探索方向更偏“尽量完全自主”,目标是把人类判断写入 Harness,而不是插入人工兜底。
过去一年,Claude Code 从只能连续运行约 20 分钟、易出错,进化到几乎由自己编写、可连续运行数天。Anthropic 工程师 Andrew 指出让 Agent 连续运行数小时甚至数天,核心难点有上下文、规划和自我判断。
为解决问题,Anthropic 采用两条路径:提升模型本身,把长时任务能力写入模型权重;改造模型外部的 Harness。早期长时运行 Agent 会拆解需求成持久化文件,在新上下文窗口中反复执行任务,缓解上下文丢失和任务漂移。
随着新模型能力增强,Anthropic 开始简化 Harness。Opus 4.6 擅长规划和工具选择,Sonnet 4.6 以低成本提供接近 Opus 的执行能力,常见组合是用 Opus 做规划、Sonnet 执行代码。服务器端压缩和百万级上下文窗口使模型在单一长会话中保持更久连贯性。
Anthropic 内部实验的前沿 Harness 模式是生成器—评估器—规划器结构,借鉴生成对抗网络思想。评估器有独立上下文窗口和系统提示词,用 Playwright 测试应用。Ash 指出自我评估是陷阱,把“构建者”和“批评者”拆开训练更可控。
在评估主观质量方面,Anthropic 尝试将“品味”写成可评分的量规,将前端应用质量拆成设计、原创性、工艺和功能性四类标准,并调整权重。为从页面生成走向完整应用,引入规划器角色,生成器和评估器协商“什么叫完成”,形成契约后评估器按契约验收。
对于 Ralph Loop 是否有价值,Andrew 表示在百万级上下文窗口和 Opus 4.6 连续会话能力下,选择取决于用例和评测。Ash 认为上下文腐烂是临时缺陷,某些支架组件未来可能移除。