news 2026/5/21 1:39:24

Agent 通用架构入门学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent 通用架构入门学习

1. 先建立一个直觉:什么是 Agent

如果用最朴素的话来讲,Agent 不是“会聊天的模型”,而是“能围绕目标持续行动的系统”。

它通常不只做一次问答,而是会围绕一个目标不断循环:

  1. 理解目标

  2. 判断下一步做什么

  3. 调用工具或执行动作

  4. 观察结果

  5. 根据结果继续调整

  6. 直到完成、失败、超时,或者请求人工介入

所以,很多人会把 Agent 简化理解为:

Agent = LLM + Planning + Memory + Tools + Control Loop

这也是目前学习 Agent 最常见、最容易入门的一条主线。

2. Agent 和普通 Workflow 的区别

这两个概念很容易混。

Workflow

Workflow 更像“提前写好流程图”的系统。

例如:

  • 第一步先检索知识库

  • 第二步把结果交给模型总结

  • 第三步输出答案

路径是开发者预先定义好的,模型只在局部参与。

Agent

Agent 更像“带一定自主性的执行系统”。

例如:

  • 模型先判断要不要查资料

  • 再决定调用哪个工具

  • 发现工具结果不够,再继续追问或换一个工具

  • 最后再组织答案

也就是说,是否行动、调用什么、何时停止,更多由模型在运行过程中决定。

一句话记忆:

  • Workflow:代码决定主流程

  • Agent:模型参与决定主流程

3. Agent 的通用架构

一个比较通用、也比较适合初学者理解的架构如下:

用户目标 / 外部任务 | v 任务理解与状态初始化 | v 推理 / 规划模块 | +------> 记忆系统 <------+ | | v | 工具选择 / 动作决策 | | | v | 执行器 / 工具调用 / 环境交互 ----+ | v 观察结果 / 状态更新 | v 终止判断 / 继续循环 / 人工介入 | v 最终输出

你可以把它理解成 8 个核心层。

3.1 目标层

这里负责回答两个问题:

  • 用户到底要什么

  • 任务完成的标准是什么

如果这个层没有定义清楚,后面就容易出现“模型一直做事,但做偏了”的问题。

初学时一定要养成一个意识:Agent 不只是接收 prompt,它还需要明确的目标、边界和停止条件。

3.2 状态层

状态是 Agent 运行的“上下文快照”。

常见状态包括:

  • 当前任务描述

  • 历史对话

  • 已完成的子任务

  • 工具调用结果

  • 中间草稿

  • 错误信息

  • 当前轮次计数

很多 Agent 系统是否稳定,关键不在模型多强,而在状态设计是否清晰。

3.3 推理 / 规划层

这是 Agent 的“大脑工作区”。

常见能力有:

  • 任务拆解

  • 选择下一步

  • 判断是否需要工具

  • 判断结果是否可信

  • 失败后重试或改路

这层不一定非要做“长规划”。很多实用 Agent 只做“局部一步规划”。

初学建议先理解两种方式:

  • 单步决策:每轮只决定下一步做什么

  • 先规划后执行:先列子任务,再逐步执行

3.4 记忆层

记忆一般分两类。

短期记忆

也就是当前任务上下文内的信息,例如:

  • 当前对话

  • 最近几轮工具调用

  • 当前草稿

它帮助 Agent 在这一次任务里保持连贯。

长期记忆

也就是跨任务保留的信息,例如:

  • 用户偏好

  • 过去结论

  • 领域知识摘要

  • 可复用经验

长期记忆通常不会直接塞进每次 prompt,而是通过检索后按需注入。

3.5 工具层

工具层是 Agent 能“真正做事”的关键。

常见工具有:

  • 搜索

  • 检索知识库

  • 调数据库

  • 调业务 API

  • 执行代码

  • 读写文件

  • 操作浏览器

  • 调用其他 Agent

LLM 本身更像决策器,工具层才是执行能力的扩展器。

3.6 执行层

执行层负责把模型决定的动作真的跑起来。

例如:

  • 参数校验

  • 调用函数

  • 处理异常

  • 收集返回值

  • 标准化结果格式

很多系统不是输在“不会规划”,而是输在执行层太脆弱,例如:

  • 工具报错没有重试

  • 参数不合法直接崩

  • 返回结果格式不统一

3.7 观察与反馈层

Agent 不是调用完工具就结束,而是要把结果重新喂回系统。

典型反馈包括:

  • 工具是否成功

  • 返回了什么数据

  • 数据质量如何

  • 是否已经足够回答问题

  • 是否需要进一步行动

这一步构成了 Agent 的闭环。

3.8 治理层

这层是从“能跑”走向“可上线”的关键。

通常包括:

  • 权限控制

  • 敏感操作审批

  • 人工介入

  • 日志与追踪

  • 成本控制

  • 超时控制

  • 评测与回放

一个真正可用的 Agent,往往不是比谁更聪明,而是比谁更可控。

4. 单 Agent 的最小运行闭环

从工程角度看,一个最小单 Agent 往往就是下面这条循环:

接收任务 -> 读取当前状态 -> 模型决定下一步 -> 如需工具则调用工具 -> 写回观察结果 -> 判断是否结束 -> 未结束则继续下一轮

如果你刚入门,可以把 Agent 先理解为“带工具调用能力的循环系统”。

先把这个闭环吃透,再看复杂架构会轻松很多。

5. 常见 Agent 架构模式

实际系统中,“Agent”不是只有一种长相。下面这些模式非常常见。

5.1 Router 路由型

模型先判断请求属于哪一类,再把任务送到不同处理分支。

适合场景:

  • 客服分流

  • 意图识别

  • 问题类型路由

优点:

  • 简单

  • 稳定

  • 成本低

缺点:

  • 自主性较弱

  • 更像“智能路由器”

5.2 ReAct 工具调用型

最经典的 Agent 形态之一。

模式通常是:

Thought -> Action -> Observation -> Thought -> ... -> Final Answer

适合场景:

  • 搜索问答

  • 工具组合调用

  • 轻量任务执行

这是初学者最值得先掌握的一类。

5.3 Planner-Executor 规划执行型

先让一个模块做计划,再由另一个模块逐步执行。

常见拆法:

  • Planner:负责把任务拆成步骤

  • Executor:负责逐项执行

  • Replanner:执行失败时调整计划

适合场景:

  • 研究型任务

  • 多步骤业务流程

  • 代码生成或文档生成

5.4 Reflection / Critic 反思校验型

执行完一轮后,再由“审查角色”判断:

  • 结果够不够好

  • 是否有遗漏

  • 要不要重试

适合场景:

  • 高质量写作

  • 代码修复

  • 复杂问答

本质上是用额外推理换更高质量。

5.5 Supervisor 多 Agent 调度型

上层有一个主管 Agent,负责把任务分给不同角色。

例如:

  • 研究员 Agent 负责搜集信息

  • 分析员 Agent 负责整理结构

  • 写作 Agent 负责成稿

  • 主管 Agent 负责调度和汇总

适合场景:

  • 复杂任务分工

  • 团队协作模拟

  • 多角色系统

5.6 Handoff / Swarm 协作移交型

任务在多个 Agent 之间转移,谁更适合谁接手。

适合场景:

  • 多技能协作

  • 长流程任务

  • 客服与专家混合场景

这种模式比“主管统一调度”更灵活,但也更难控。

6. 多 Agent 架构怎么理解

多 Agent 不一定更高级,只是把一个大问题拆给多个角色处理。

最常见的三种拓扑如下。

6.1 Supervisor 模式

Supervisor / | \ v v v Agent A Agent B Agent C

特点:

  • 中心化调度

  • 好管控

  • 好加审批

适合初学者先学。

6.2 Network 模式

Agent A <--> Agent B ^ | | v Agent D <--> Agent C

特点:

  • 各 Agent 可以互相交流

  • 更灵活

  • 但更容易失控

6.3 Pipeline 模式

研究 -> 分析 -> 写作 -> 审核

特点:

  • 最接近传统生产线

  • 好理解

  • 工程上很常用

严格来说,这种模式有时更像“多节点工作流”,不一定是强 Agent。

7. 初学者特别容易混淆的几个点

7.1 Agent 不等于聊天机器人

聊天机器人可能只是一轮输入输出。

Agent 强调的是:

  • 面向目标

  • 可循环执行

  • 能调用外部能力

  • 能根据反馈调整行为

7.2 工具多,不代表 Agent 强

真正决定效果的往往是:

  • 状态设计

  • 工具选择逻辑

  • 错误处理

  • 停止条件

不是堆更多工具就会更好。

7.3 多 Agent 不一定优于单 Agent

多 Agent 会带来:

  • 更多提示词维护成本

  • 更多上下文开销

  • 更多通信误差

  • 更复杂的调试难度

很多任务其实单 Agent + 清晰工具链就够了。

7.4 好的 Agent 首先要可控

真实项目里最重要的不是“看起来像人”,而是:

  • 能复现

  • 能追踪

  • 能评估

  • 能限权

  • 能失败后恢复

8. 入门学习顺序建议

如果你现在是刚接触 Agent,我建议按这个顺序学:

  1. 先理解 Agent 的基本闭环:目标、状态、工具、观察、继续/停止

  2. 再学最经典的 ReAct 模式

  3. 再看 Planner-Executor 这类两阶段架构

  4. 然后再学习记忆、长期状态和人机协同

  5. 最后再学多 Agent 拓扑,如 Supervisor、Handoff、Network

这样学不容易乱。

9. 一个适合初学者记忆的“万能模板”

以后你看到任何 Agent 框架,都可以先问这 7 个问题:

  1. 目标怎么定义

  2. 状态存在哪里

  3. 下一步由谁决定

  4. 工具怎么注册和调用

  5. 观察结果怎么回写

  6. 何时停止或升级人工

  7. 如何监控、评测和复盘

只要你能回答这 7 个问题,基本就能把一个 Agent 系统看明白八成。

10. 中文优先延伸阅读

下面这些链接我优先按“适合入门”和“中文可读性”来选。

1) 宝玉翻译:基于大语言模型的智能代理[译]

链接:

https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents

推荐理由:

  • 这是 Agent 入门非常经典的一篇

  • 把 Agent 拆成 Planning、Memory、Tools 三大块,非常适合建立总框架

  • 中文翻译质量较高,适合第一次系统阅读

2) LangChain 中文教程:Agent 架构

链接:

https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/

推荐理由:

  • 讲清楚“让 LLM 决定控制流”是什么意思

  • 覆盖路由、工具调用、规划、并行、人机协同等常见模式

  • 很适合把“概念”和“架构模式”串起来

3) LangChain 中文教程:工作流和智能体

链接:

https://github.langchain.ac.cn/langgraph/tutorials/workflows/

推荐理由:

  • 非常适合拿来理解 Workflow 和 Agent 的边界

  • 对初学者最容易混的概念有帮助

  • 读完会更容易判断“什么时候该做 Agent,什么时候只是工作流”

4) LangChain 中文教程:多智能体概述

链接:

https://github.langchain.ac.cn/langgraph/concepts/multi_agent/

推荐理由:

  • 适合在单 Agent 入门后继续看

  • 对 Supervisor、Network 等多 Agent 结构有比较直观的介绍

5) Jimmy Song:使用 LangChain 构建智能体

链接:

https://jimmysong.io/zh/book/ai-handbook/agent/langchain/

推荐理由:

  • 中文写作风格比较友好

  • 把 LangGraph、Agent、状态图这些概念串得比较顺

  • 适合已经有一点代码基础、想把概念落到框架层的人

6) Hugging Face 中文:LangGraph 的构建块

链接:

https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks

推荐理由:

  • 偏教程风格

  • 对状态、节点、边这些“图式 Agent”概念讲得比较清楚

  • 如果你后面要学 LangGraph,这篇很适合补基础

11. 英文原版但非常值得收藏

如果你后面愿意顺手读英文,这几篇很值得作为“原始资料”。

1) Lilian Weng: LLM Powered Autonomous Agents

链接:

https://lilianweng.github.io/posts/2023-06-23-agent/

价值:

  • 这是很多 Agent 讨论的源头文章之一

  • 看原文有助于建立更稳的术语理解

2) AutoGen 官方文档

链接:

https://microsoft.github.io/autogen/stable/

价值:

  • 如果你对多 Agent 编排感兴趣,这套文档很有参考价值

  • 尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题

12. 给你的一个实际学习路线

如果你接下来 3 到 5 天想系统入门,可以这样安排:

第 1 天

  • 读本文件第 1 到第 5 节

  • 再读宝玉翻译那篇

目标:

先把 Agent 的三大件和闭环建立起来

第 2 天

  • 读 LangChain 中文教程里的“Agent 架构”

  • 顺带看“工作流和智能体”

目标:

搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别

第 3 天

  • 读 Hugging Face 中文 LangGraph 构建块

  • 配合 Jimmy Song 那篇文章看状态、节点、边

目标:

开始建立“图式编排”的理解

第 4 到 5 天

  • 看多智能体概述

  • 看 AutoGen 官方文档中的多 Agent 设计模式

目标:

理解 Supervisor、Handoff、Network 这些模式各自适合什么问题

13. 最后给初学者的结论

你可以先不要把 Agent 想得太神秘。

对入门者来说,最实用的理解方式就是:

Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。

如果你先掌握下面这 4 个关键词,后续学习会顺很多:

  • 状态

  • 工具

  • 控制流

  • 反馈闭环

当你开始能用这四个词去分析一个框架时,你就已经真正进入 Agent 学习状态了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 1:35:50

5大场景搞定QQ群管理:LuckyLilliaBot自动化工具终极实战指南

5大场景搞定QQ群管理&#xff1a;LuckyLilliaBot自动化工具终极实战指南 【免费下载链接】LuckyLilliaBot NTQQ的OneBot API插件 项目地址: https://gitcode.com/gh_mirrors/li/LuckyLilliaBot 还在为QQ群管理效率低下而烦恼吗&#xff1f;每天手动审核入群申请、处理刷…

作者头像 李华
网站建设 2026/4/1 22:33:00

文档下载工具:突破限制的高效解决方案

文档下载工具&#xff1a;突破限制的高效解决方案 【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档&#xff0c;但是相关网站浏览体验不好各种广告&#xff0c;各种登录验证&#xff0c;需要很多步骤才能下载文档&#xff0c;该脚本就是为了解决您的烦恼而诞…

作者头像 李华
网站建设 2026/5/21 1:38:08

亲测五恒系统企业实践案例分享

在当下追求高品质生活的时代&#xff0c;五恒系统因能打造恒温、恒湿、恒氧、恒洁、恒静的室内环境而备受关注。下面结合实际案例&#xff0c;深入了解五恒系统的应用。五恒系统满足家庭客群需求家庭用户在居住中面临诸多痛点。湖北梅雨季节潮湿&#xff0c;传统空调地暖控温不…

作者头像 李华
网站建设 2026/4/1 22:28:35

YOLO-v8.3新手避坑指南:显存优化技巧与最佳实践

YOLO-v8.3新手避坑指南&#xff1a;显存优化技巧与最佳实践 1. 引言&#xff1a;为什么你的YOLO-v8.3总是爆显存&#xff1f; 当你第一次尝试运行YOLO-v8.3模型时&#xff0c;可能会遇到这样的场景&#xff1a;满怀期待地启动推理脚本&#xff0c;结果几秒钟后就看到令人沮丧…

作者头像 李华
网站建设 2026/4/1 22:26:01

2026年,恒丰装饰带你领略别具一格的法式轻奢装修魅力!

在装修风格的多元宇宙中&#xff0c;法式轻奢风格宛如一颗璀璨的明星&#xff0c;散发着独特而迷人的光芒。它融合了法式的浪漫优雅与轻奢的精致奢华&#xff0c;成为众多追求高品质生活人士的心头好。在汉中&#xff0c;想要打造这样别具一格的法式轻奢装修&#xff0c;汉中恒…

作者头像 李华