1. 先建立一个直觉:什么是 Agent
如果用最朴素的话来讲,Agent 不是“会聊天的模型”,而是“能围绕目标持续行动的系统”。
它通常不只做一次问答,而是会围绕一个目标不断循环:
理解目标
判断下一步做什么
调用工具或执行动作
观察结果
根据结果继续调整
直到完成、失败、超时,或者请求人工介入
所以,很多人会把 Agent 简化理解为:
Agent = LLM + Planning + Memory + Tools + Control Loop
这也是目前学习 Agent 最常见、最容易入门的一条主线。
2. Agent 和普通 Workflow 的区别
这两个概念很容易混。
Workflow
Workflow 更像“提前写好流程图”的系统。
例如:
第一步先检索知识库
第二步把结果交给模型总结
第三步输出答案
路径是开发者预先定义好的,模型只在局部参与。
Agent
Agent 更像“带一定自主性的执行系统”。
例如:
模型先判断要不要查资料
再决定调用哪个工具
发现工具结果不够,再继续追问或换一个工具
最后再组织答案
也就是说,是否行动、调用什么、何时停止,更多由模型在运行过程中决定。
一句话记忆:
Workflow:代码决定主流程
Agent:模型参与决定主流程
3. Agent 的通用架构
一个比较通用、也比较适合初学者理解的架构如下:
用户目标 / 外部任务 | v 任务理解与状态初始化 | v 推理 / 规划模块 | +------> 记忆系统 <------+ | | v | 工具选择 / 动作决策 | | | v | 执行器 / 工具调用 / 环境交互 ----+ | v 观察结果 / 状态更新 | v 终止判断 / 继续循环 / 人工介入 | v 最终输出你可以把它理解成 8 个核心层。
3.1 目标层
这里负责回答两个问题:
用户到底要什么
任务完成的标准是什么
如果这个层没有定义清楚,后面就容易出现“模型一直做事,但做偏了”的问题。
初学时一定要养成一个意识:Agent 不只是接收 prompt,它还需要明确的目标、边界和停止条件。
3.2 状态层
状态是 Agent 运行的“上下文快照”。
常见状态包括:
当前任务描述
历史对话
已完成的子任务
工具调用结果
中间草稿
错误信息
当前轮次计数
很多 Agent 系统是否稳定,关键不在模型多强,而在状态设计是否清晰。
3.3 推理 / 规划层
这是 Agent 的“大脑工作区”。
常见能力有:
任务拆解
选择下一步
判断是否需要工具
判断结果是否可信
失败后重试或改路
这层不一定非要做“长规划”。很多实用 Agent 只做“局部一步规划”。
初学建议先理解两种方式:
单步决策:每轮只决定下一步做什么
先规划后执行:先列子任务,再逐步执行
3.4 记忆层
记忆一般分两类。
短期记忆
也就是当前任务上下文内的信息,例如:
当前对话
最近几轮工具调用
当前草稿
它帮助 Agent 在这一次任务里保持连贯。
长期记忆
也就是跨任务保留的信息,例如:
用户偏好
过去结论
领域知识摘要
可复用经验
长期记忆通常不会直接塞进每次 prompt,而是通过检索后按需注入。
3.5 工具层
工具层是 Agent 能“真正做事”的关键。
常见工具有:
搜索
检索知识库
调数据库
调业务 API
执行代码
读写文件
操作浏览器
调用其他 Agent
LLM 本身更像决策器,工具层才是执行能力的扩展器。
3.6 执行层
执行层负责把模型决定的动作真的跑起来。
例如:
参数校验
调用函数
处理异常
收集返回值
标准化结果格式
很多系统不是输在“不会规划”,而是输在执行层太脆弱,例如:
工具报错没有重试
参数不合法直接崩
返回结果格式不统一
3.7 观察与反馈层
Agent 不是调用完工具就结束,而是要把结果重新喂回系统。
典型反馈包括:
工具是否成功
返回了什么数据
数据质量如何
是否已经足够回答问题
是否需要进一步行动
这一步构成了 Agent 的闭环。
3.8 治理层
这层是从“能跑”走向“可上线”的关键。
通常包括:
权限控制
敏感操作审批
人工介入
日志与追踪
成本控制
超时控制
评测与回放
一个真正可用的 Agent,往往不是比谁更聪明,而是比谁更可控。
4. 单 Agent 的最小运行闭环
从工程角度看,一个最小单 Agent 往往就是下面这条循环:
接收任务 -> 读取当前状态 -> 模型决定下一步 -> 如需工具则调用工具 -> 写回观察结果 -> 判断是否结束 -> 未结束则继续下一轮如果你刚入门,可以把 Agent 先理解为“带工具调用能力的循环系统”。
先把这个闭环吃透,再看复杂架构会轻松很多。
5. 常见 Agent 架构模式
实际系统中,“Agent”不是只有一种长相。下面这些模式非常常见。
5.1 Router 路由型
模型先判断请求属于哪一类,再把任务送到不同处理分支。
适合场景:
客服分流
意图识别
问题类型路由
优点:
简单
稳定
成本低
缺点:
自主性较弱
更像“智能路由器”
5.2 ReAct 工具调用型
最经典的 Agent 形态之一。
模式通常是:
Thought -> Action -> Observation -> Thought -> ... -> Final Answer
适合场景:
搜索问答
工具组合调用
轻量任务执行
这是初学者最值得先掌握的一类。
5.3 Planner-Executor 规划执行型
先让一个模块做计划,再由另一个模块逐步执行。
常见拆法:
Planner:负责把任务拆成步骤
Executor:负责逐项执行
Replanner:执行失败时调整计划
适合场景:
研究型任务
多步骤业务流程
代码生成或文档生成
5.4 Reflection / Critic 反思校验型
执行完一轮后,再由“审查角色”判断:
结果够不够好
是否有遗漏
要不要重试
适合场景:
高质量写作
代码修复
复杂问答
本质上是用额外推理换更高质量。
5.5 Supervisor 多 Agent 调度型
上层有一个主管 Agent,负责把任务分给不同角色。
例如:
研究员 Agent 负责搜集信息
分析员 Agent 负责整理结构
写作 Agent 负责成稿
主管 Agent 负责调度和汇总
适合场景:
复杂任务分工
团队协作模拟
多角色系统
5.6 Handoff / Swarm 协作移交型
任务在多个 Agent 之间转移,谁更适合谁接手。
适合场景:
多技能协作
长流程任务
客服与专家混合场景
这种模式比“主管统一调度”更灵活,但也更难控。
6. 多 Agent 架构怎么理解
多 Agent 不一定更高级,只是把一个大问题拆给多个角色处理。
最常见的三种拓扑如下。
6.1 Supervisor 模式
Supervisor / | \ v v v Agent A Agent B Agent C特点:
中心化调度
好管控
好加审批
适合初学者先学。
6.2 Network 模式
Agent A <--> Agent B ^ | | v Agent D <--> Agent C特点:
各 Agent 可以互相交流
更灵活
但更容易失控
6.3 Pipeline 模式
研究 -> 分析 -> 写作 -> 审核特点:
最接近传统生产线
好理解
工程上很常用
严格来说,这种模式有时更像“多节点工作流”,不一定是强 Agent。
7. 初学者特别容易混淆的几个点
7.1 Agent 不等于聊天机器人
聊天机器人可能只是一轮输入输出。
Agent 强调的是:
面向目标
可循环执行
能调用外部能力
能根据反馈调整行为
7.2 工具多,不代表 Agent 强
真正决定效果的往往是:
状态设计
工具选择逻辑
错误处理
停止条件
不是堆更多工具就会更好。
7.3 多 Agent 不一定优于单 Agent
多 Agent 会带来:
更多提示词维护成本
更多上下文开销
更多通信误差
更复杂的调试难度
很多任务其实单 Agent + 清晰工具链就够了。
7.4 好的 Agent 首先要可控
真实项目里最重要的不是“看起来像人”,而是:
能复现
能追踪
能评估
能限权
能失败后恢复
8. 入门学习顺序建议
如果你现在是刚接触 Agent,我建议按这个顺序学:
先理解 Agent 的基本闭环:目标、状态、工具、观察、继续/停止
再学最经典的 ReAct 模式
再看 Planner-Executor 这类两阶段架构
然后再学习记忆、长期状态和人机协同
最后再学多 Agent 拓扑,如 Supervisor、Handoff、Network
这样学不容易乱。
9. 一个适合初学者记忆的“万能模板”
以后你看到任何 Agent 框架,都可以先问这 7 个问题:
目标怎么定义
状态存在哪里
下一步由谁决定
工具怎么注册和调用
观察结果怎么回写
何时停止或升级人工
如何监控、评测和复盘
只要你能回答这 7 个问题,基本就能把一个 Agent 系统看明白八成。
10. 中文优先延伸阅读
下面这些链接我优先按“适合入门”和“中文可读性”来选。
1) 宝玉翻译:基于大语言模型的智能代理[译]
链接:
https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents
推荐理由:
这是 Agent 入门非常经典的一篇
把 Agent 拆成 Planning、Memory、Tools 三大块,非常适合建立总框架
中文翻译质量较高,适合第一次系统阅读
2) LangChain 中文教程:Agent 架构
链接:
https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/
推荐理由:
讲清楚“让 LLM 决定控制流”是什么意思
覆盖路由、工具调用、规划、并行、人机协同等常见模式
很适合把“概念”和“架构模式”串起来
3) LangChain 中文教程:工作流和智能体
链接:
https://github.langchain.ac.cn/langgraph/tutorials/workflows/
推荐理由:
非常适合拿来理解 Workflow 和 Agent 的边界
对初学者最容易混的概念有帮助
读完会更容易判断“什么时候该做 Agent,什么时候只是工作流”
4) LangChain 中文教程:多智能体概述
链接:
https://github.langchain.ac.cn/langgraph/concepts/multi_agent/
推荐理由:
适合在单 Agent 入门后继续看
对 Supervisor、Network 等多 Agent 结构有比较直观的介绍
5) Jimmy Song:使用 LangChain 构建智能体
链接:
https://jimmysong.io/zh/book/ai-handbook/agent/langchain/
推荐理由:
中文写作风格比较友好
把 LangGraph、Agent、状态图这些概念串得比较顺
适合已经有一点代码基础、想把概念落到框架层的人
6) Hugging Face 中文:LangGraph 的构建块
链接:
https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks
推荐理由:
偏教程风格
对状态、节点、边这些“图式 Agent”概念讲得比较清楚
如果你后面要学 LangGraph,这篇很适合补基础
11. 英文原版但非常值得收藏
如果你后面愿意顺手读英文,这几篇很值得作为“原始资料”。
1) Lilian Weng: LLM Powered Autonomous Agents
链接:
https://lilianweng.github.io/posts/2023-06-23-agent/
价值:
这是很多 Agent 讨论的源头文章之一
看原文有助于建立更稳的术语理解
2) AutoGen 官方文档
链接:
https://microsoft.github.io/autogen/stable/
价值:
如果你对多 Agent 编排感兴趣,这套文档很有参考价值
尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题
12. 给你的一个实际学习路线
如果你接下来 3 到 5 天想系统入门,可以这样安排:
第 1 天
读本文件第 1 到第 5 节
再读宝玉翻译那篇
目标:
先把 Agent 的三大件和闭环建立起来
第 2 天
读 LangChain 中文教程里的“Agent 架构”
顺带看“工作流和智能体”
目标:
搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别
第 3 天
读 Hugging Face 中文 LangGraph 构建块
配合 Jimmy Song 那篇文章看状态、节点、边
目标:
开始建立“图式编排”的理解
第 4 到 5 天
看多智能体概述
看 AutoGen 官方文档中的多 Agent 设计模式
目标:
理解 Supervisor、Handoff、Network 这些模式各自适合什么问题
13. 最后给初学者的结论
你可以先不要把 Agent 想得太神秘。
对入门者来说,最实用的理解方式就是:
Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。
如果你先掌握下面这 4 个关键词,后续学习会顺很多:
状态
工具
控制流
反馈闭环
当你开始能用这四个词去分析一个框架时,你就已经真正进入 Agent 学习状态了。