收藏！小白程序员也能掌握的大模型动态工作流实战指南-编程实验室

Anthropic最新发布的Claude Opus 4.8引入的Dynamic Workflow功能，允许Claude实时编写编排脚本，启动多Agent并行处理复杂任务。本文介绍了Workflow如何解决单Agent循环的三大顽疾（偷懒、偏好、目标漂移），并通过六种编排模式和十种实际场景（如迁移重构、深度研究、排序、规则遵从等）展示了其强大能力。对于需要处理复杂、大规模任务的程序员，Workflow提供了一种高效、可靠的解决方案，但需注意其较高的token消耗。

上周 Anthropic 在发布 Claude Opus 4.8 的同时，还带了一个新功能：Dynamic Workflow。

我当天晚上就开始用了，周末也没停（完美花光周限额），做了这个工具：。

当然，这就是一个 token 消耗机器，几个任务跑完下来，几个亿的 token 就干出去了。

效果方面，确实超出了我的预期，有个项目之前我不管用什么模型和工具都干的一塌糊涂大约 30 ~ 40 分的水平，我用 Workflow + /goal 则跑到了 90分+（但我还没完全打磨好，等全部开发完了再放出来，不过人群有点小众可能和大家关系不大），真的可以说…… 软件正在从「目的地」变成「原材料」。

而在今天，Anthropic 的工程师也终于写了篇官方长文，来介绍 workflow 这个新功能，文章的标题很也标题党，叫做：「A harness for every task」。

文章封面

在 Claude Code 的语境里，harness 就是「编排框架」，决定了 Claude 怎么拆解任务、怎么调度子 Agent、怎么验证结果。

之前 Claude Code 默认的 harness 是单 Agent 循环：一个 Claude 在一个 context window 里从头干到尾。

对大多数编程任务来说，这基本够用了。

但一碰到复杂的任务，就会发现 AI 自己的活没好好干，反而让花了钱的我累的不行……我甚至有几次给整红温了怒斥它：我花钱是让我偷懒的，不是让你偷懒的！

但 Workflow 改变了这件事：Claude 现在可以实时写出一套编排脚本，启动一整支子 Agent 舰队并行作战。

官方说法

Claude Code 官方账号这样介绍 Workflow 的：

“ Claude Code 新功能（研究预览）：动态 Workflow。Claude 实时编写编排脚本，然后启动大量协调的子 Agent 并行执行，处理你最复杂的任务。在 prompt 中使用「workflow」这个词即可触发。

Workflow 触发界面

在 Claude Code 终端中输入了一个 Workflow 指令，再结合 Claude 的「ultracode」模式，便会开启编排一个 API 迁移任务。

官方介绍中还补充了几个关键信息：

Workflow 适合单个 Agent 循环搞不定的任务，比如全服务 bug 排查、大规模迁移、压测设计方案

token 消耗不少，建议先从小任务开始试水

新增了/effort ultracode级别，Claude 会自行判断什么时候该启动 Workflow

Workflow 可以保存为斜杠命令，分享给团队，也可以放在 home 目录全局复用

目前在 Max、Team、Enterprise 和 API（Bedrock、Vertex AI、Foundry）上都可以用

另一边，Anthropic 的产品经理也同步进行了介绍：

“ 在 prompt 中提到「workflow」，Claude 就会动态创建一个编排计划，并严格按照计划执行，确保每个阶段都按正确顺序完成。

Agent Teams vs Workflows

上图清晰地展示了 Agent Teams 和 Dynamic Workflows 的区别。

左边是 Agent Teams，几个 Claude 之间互相协调，比较适合小团队式协作。

右边是 Dynamic Workflows：一个主 Claude 启动 N 个任务（N 可以到上百个），每个任务有执行者（implementer）、验证者（verifier）、修复者（fixer）三层，最终汇总返回。

提到了一个自己的实际用例：用 Workflow 清理了内部上百个 A/B 测试 flag，自动找出那些已经 roll out 到 0% 或 100% 的废弃 flag。

以前这种事得让 Claude Code 一个一个顺序排查，现在，并行开跑很快就搞定了。

三个顽疾

那为什么需要 Workflow 呢？

在文章里指出了根本问题：默认的 Claude Code 需要在同一个 context window 里同时做规划和执行。

这对大多数编程任务来说，这没问题，够用了。

但在长时间运行、大规模并行、或者需要对抗性验证的任务上，单 context window 会碰到三个顽疾：

Agent 偷懒（Agentic Laziness）。

复杂任务做到一半，Claude 就宣布「完成了」。比如安全审计要查 50 个条目，做了 20 个就停下来说搞定了。用过的人应该都碰到过这种情况。

自我偏好（Self-Preferential Bias）。

让 Claude 验证自己写的东西，它会倾向于觉得自己写得还不错。就像让学生自己批改卷子，结果总是偏高。

目标漂移（Goal Drift）。

很多轮对话之后，尤其是经过上下文压缩之后，原始目标的细节会逐渐丢失。那些「记得别做 X」之类的约束……往往是第一批被遗忘的。

Workflow 的解法：给每个子任务单独启动一个 Claude，各自拥有干净的 context window 和聚焦的目标。

编排逻辑由确定性的 JavaScript 脚本控制，不会漂移；每个子 Agent 只管自己的一小块，不会偷懒；验证则由独立 Agent 完成，不存在自我偏好，context 污染。

就这等于是把一个人的独角戏，变成了一支各司其职的团队。

量身定制

你可能之前和我一样，用 Claude Agent SDK 或者claude -p搭过静态 Workflow。

二者的区别在于：静态 Workflow 需要事先写好编排脚本，考虑各种边界情况，所以往往得要么只能通用，要么只能专用。而动态 Workflow 是 Claude 现场写的，针对你的具体任务量身定制，专用且通用。

静态 vs 动态

官方展示了一个例子：「要不要迁移结账服务到新供应商？」

静态 harness 的流程是固定的：做 5 次搜索 → 取结果 → 验证 → 总结，输出一份通用的研究报告。

动态 Workflow 则完全不同，它会先读你的计费代码（billing/、webhooks/、taxes/ 三个目录），然后并行检查每个功能在新供应商文档中是否支持，同时按你的交易量算价格，最后还会启动一个「devil’s advocate」Agent 来论证「为什么不应该迁移」，输出一份基于你代码库的具体建议。

一个给的是标准答案，一个给的是你要的答案。

官方指出，有了 Opus 4.8 的能力后，Claude 已经足够聪明到能现场写出高质量的定制 harness 了。

这也是 Workflow 选择和 Opus 4.8 一起发布的原因。

六种编排

Workflow 的编排脚本是 JavaScript，核心是几个函数：

Workflow 核心 API

agent()是基础单元，用来启动一个子 Agent。可以指定 schema（要求结构化 JSON 返回）、model（选 Opus、Sonnet 或 Haiku）、isolation（worktree 隔离）等参数。

parallel()是并行执行，所有任务同时跑，等全部完成再返回。pipeline()是流水线，每个 item 独立穿过所有阶段，互不等待。

有了这几个积木之后，就可以用来搭出各种编排模式了。官方总结了六种常用模式：

六种编排模式

分类-执行：先用一个分类 Agent 判断任务类型，再路由到不同的处理 Agent。

扇出-汇总：把任务拆成小步骤并行处理，最后由一个汇总 Agent 合并结果。尤其适合每个子任务需要干净 context 的场景。

对抗验证：每个执行 Agent 的输出，都交给另一个独立 Agent 做对抗性审查。

生成-过滤：先让多个 Agent 并行生成方案，然后按标准过滤去重，只留质量最高的。

锦标赛：让 Agent 们竞争：N 个 Agent 各自用不同方法解同一个问题，配对评审层层淘汰，选出最佳方案。

循环至终：对工作量未知的任务，持续启动 Agent，直到连续几轮没有新发现为止。

并且这些模式还可以自由组合，比如一个代码审查任务，先用「扇出」把 bug、性能、安全分给不同 Agent，每个发现再用「对抗验证」让独立 Agent 来反驳，最后「汇总」全部结果。

十种场景

接下来，我们来看几个官方给出的 prompt 示例，能帮我们直观感受一下 Workflow 的射程范围：

“ 这个测试大概 50 次会挂一次。建一个 Workflow 来复现它，提出假设，在 worktree 里逐个对抗验证。不找到原因不许停。
用 Workflow 翻一下我最近 50 个对话记录，挖出我反复纠正的模式，把高频的写进 CLAUDE.md。
去 Slack 的 #incidents 频道翻最近半年的记录，找出反复出现但没人提 ticket 的根因。
拿我的商业计划书，让不同 Agent 分别从投资人、客户、竞争对手的角度来拆解。
这里有 80 份简历，用 Workflow 按后端岗位匹配度排序，前十名再做一轮复查。

这些例子已经说明了一件事：Workflow 的应用范围远远超出了「写代码」。

然后，官方详细介绍了十种使用场景：

适用场景总览

迁移和重构。

Bun 从 Zig 到 Rust 的重写就是用 Workflow 做的（Jarred 在 X 上分享了细节）。思路是把任务拆成调用点、失败测试、模块等维度，每个修复交给一个子 Agent 在独立 worktree 中执行，另一个 Agent 做对抗审查，通过后再合并。

还建议避免让子 Agent 跑太重的命令，这样才能最大化并行度。

深度研究。

Claude Code 内置的/deep-research就是用 Workflow 实现的：扇出搜索、抓取源头、对抗验证声明、生成带引用的报告。

也可以用它从 Slack 里编译状态报告，或者深挖代码库中某个功能的实现逻辑。

深度验证。

如果你有一份报告需要核实每个事实声明，可以让一个 Agent 先提取所有声明，然后为每条声明启动独立的核查 Agent，再用审计 Agent 检查信源质量。

事实核查流程

排序。

1000 条内容按定性标准排序（比如按 bug 严重程度），塞到同一个 prompt 里结果肯定会崩，Claude 会很聪明地偷懒干一半就撂挑子了。

Workflow 则可以跑锦标赛模式：一对一比较（比较判断比绝对打分更可靠），或者先分桶再合并。每次比较都是一个独立 Agent，确定性的循环控制比赛进程，只有排名结果留在 context 里。

锦标赛排序

规则遵从。

你 CLAUDE.md 里的规则总被 Claude 遗漏？

那建一个 Workflow，每条规则分配一个验证 Agent，再加一个「怀疑者」Agent 来过滤误报，只输出真正的违规。

规则验证流程

也可以反方向而行之：从你最近的对话记录和 code review 评论中挖掘你反复纠正的模式，用并行 Agent 聚类，然后对抗验证（这条规则真的能防住之前的错误吗？），把幸存的规则写回 CLAUDE.md。

根因分析。

调试最怕的是，在同一个 context 里产生自我偏好。Workflow 可以让不同 Agent 从互不相干的证据（日志、文件、数据）各自生成假设，再由验证 Agent 组成评审团裁决。

并且这并不局限于代码：销售为什么三月份下滑了？数据管道为什么挂了？都可以用同样的思路。

规模化分诊。

每个团队都有处理不完的工单积压。分诊 Workflow 可以分类每条工单、对已有记录去重，然后决定是尝试修复还是上报给人。

自动分诊流程

这里有个模式叫「隔离」（Quarantine）：读取不受信内容的 Agent 不能执行高权限操作，高权限操作只能由处理汇总信息的 Agent 来做。

配合/loop大招，可以让 Claude 持续自动跑分诊。

以上是技术类场景。但官方也提到，Workflow 对非技术任务也许更有惊喜。

探索和品味：方案选择涉及品味判断时（设计风格、产品命名等），让 Workflow 先广泛探索，评审 Agent 按 rubric 评判，直到满意为止。也可以跑锦标赛模式。

评估（Evals）：把不同变体丢到独立 worktree 里运行，比较 Agent 按标准打分。适合优化你写的 Skill 或 prompt。

模型路由：用分类 Agent 先做一轮调研，判断任务复杂度，再路由到 Sonnet 或 Opus。同一个任务选错了模型，成本差异相当可观。

上手建议

关于如何快速上手，官方给出了几条实用的建议。

Prompt 要写详细。用上面提到的编排模式名称来引导 Claude 构建 Workflow。而且 Workflow 也不一定要做大任务，「快速跑一个对抗审查」「跑个小锦标赛选名字」这种小事也完全合适。

配合 /goal 和 /loop。对可重复的任务（分诊、研究、验证），用/loop设定期执行，用/goal设硬性完成标准。

控制 token 预算。可以在 prompt 里直接说「用 10k token」，Claude 会据此限制消耗。

对于刚上手的用户来说，这一步尤其值得注意。

保存和分享。在 Workflow 菜单里按s就能保存。

Workflow 保存界面

可以存到~/.claude/workflows全局使用，也可以放进 Skill 文件夹里分发给团队。把 JavaScript Workflow 文件放在 Skill 目录中，SKILL.md 里引用即可。

通过 Skill 分享

官方建议把 Skill 里的 Workflow 当作模板用，给 Claude 留一些灵活调整的空间，这样用下来效果会更好。

克制使用

最后，官方专门指出：Workflow 不是每个任务都需要的。

常规编程任务，单 Agent 循环往往够了。在启动 Workflow 之前，先问一句自己：这个任务真的需要更多算力吗？

毕竟，大多数人的日常编程任务不需要 5 个 Agent 组成评审团，杀鸡何用宰牛刀。

但对于那些之前做不了、或者做不好的任务……Workflow 则提供了一种火力更猛的选项。

它把 Claude Code 从「编程助手」扩展到了「通用任务编排器」，用 token 换来的是可靠性、对抗性和并发规模。

是否要选它，取决于你手里的任务，够不够难；以及还有你的 token，够不够多。

如果又难又够，那你就可以大胆地浪费 token，节省时间。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。