Agent学习笔记（一）——总体概览-编程实验室

Agent学习笔记（一）

文章目录

Agent学习笔记（一）
前言
一、Agent是什么？
二、Agent和workflow的区别和联系
三、Agent基础范式
- 1.ReAct（Reasoning + Acting）
- 2.Plan-and-Execute
- 3.对比
- 4.补充：Reflection
总结

前言

本系列文章聊以记录自己在学习Agent过程中的浅显见解，以加深自己的学习印象，同时若能对读者有些许帮助，不慎宽慰。
本文将集中对Agent基础概念进行初步展开。

一、Agent是什么？

AI Agent是一类具备目标驱动、环境感知、自主决策、工具调用、记忆留存与迭代反思能力的智能系统：

Agent = LLM + Planning + Memory + Tools

从本质来看，大模型（LLM）是以理解 + 生成文本为核心的语言模型，被动响应指令，仅能完成问答类交互，不会自主推进任务。而 Agent 在此基础上实现了能力跨越，可端到端处理复杂任务，核心依托三大能力：任务流程规划、记忆、外部工具调用。

二、Agent和workflow的区别和联系

核心结论：Workflow 是「预设固定流程」，按步骤机械执行；Agent 是「自主决策 + 动态流程」，带感知、思考、规划、工具调用的智能体。二者不是对立关系，而是「基础流程」与「智能增强」的层级关系，Agent 内部往往会嵌套 Workflow。

Workflow（工作流）
- 一套预先编排、逻辑固定、分支有限的任务执行链路，严格遵循有向无环图（DAG）。
- 人 / 系统提前定义好：先做什么、再做什么、遇到分支走哪条、结束条件。
- 执行逻辑：条件判断 + 顺序 / 并行 / 分支流转，无自主思考。
- 本质：自动化流水线。
Agent（智能代理 / 智能体）
- 具备感知、推理、规划、工具调用、记忆、动态决策的自主执行单元。非 DAG，支持任意图结构（包括自环、多入边），本质是状态驱动的图遍历。
- 不依赖固定步骤，接收目标后自主拆解任务、选择工具、调整路径、纠错重试。
- 核心能力：大模型驱动的 “主动思考 + 动态执行”。
- 本质：带智能决策的自主执行者。

层级关系：Workflow 是 Agent 的基础组成单元

用户目标 ↓ Agent（顶层：规划、决策、调度、纠错） ↓ 子任务 → 调用 固定 Workflow / 原子工具

三、Agent基础范式

1.ReAct（Reasoning + Acting）

核心思想：让大模型在每一步同时完成「逻辑推理」和「动作执行」，形成「思考→行动→观察→再思考」的循环闭环。

ReAct 是单步决策、逐轮迭代模式，没有提前生成全局大计划，每一轮只决定「下一步做什么」，通俗来讲就是走一步看一步，完整循环如下：

用户任务/初始问题 ↓ ┌─────────────┐ │ Reasoning │ 思考：下一步该做什么 └──────┬───────┘ ↓ ┌─────────────┐ │ Acting │ 执行：调用工具/发起操作 └──────┬───────┘ ↓ ┌─────────────┐ │ Observation │ 观察：接收工具返回结果 └──────┬───────┘ ↓ 回到推理环节（循环） ↓ 任务完成 → 输出最终答案

Reasoning 推理思考
基于当前任务、历史对话、上一轮执行结果，LLM 分析现状、判断目标、思考下一步需要执行什么动作。
Acting 执行动作
根据推理结果，主动调用外部工具（搜索、数据库、API、计算器、代码解释器等），落地具体行为。
Observation 接收观察
获取工具返回的结果、环境反馈、外部信息，作为新的上下文输入。
Loop 循环迭代
将「原始任务 + 历史推理 + 动作 + 观察结果」全部送入 LLM，进入下一轮推理，直到任务完成。

举个生活化的例子：从家去公司 **思考**：我现在要去公司，第一步该干嘛？ **行动**：打开地图搜路线。 **观察**：看到有地铁和公交两种方案，地铁更快。 **思考**：那我先去地铁站，需要带交通卡吗？ **行动**：找交通卡，出门。 **观察**：到地铁站发现临时封站了。 **思考**：那我改坐公交，先查公交路线…

2.Plan-and-Execute

核心思想：先全局规划出完整步骤清单，再按计划一步步执行；执行中可动态调整，但始终以 “整体蓝图” 为核心。

用户目标 ↓ ┌─────────────┐ │ Planner │ 全局思考：生成完整步骤清单 └──────┬───────┘ ↓ ┌─────────────┐ │ Executor │ 逐条执行：调用工具、拿到结果 └──────┬───────┘ ↓ ┌─────────────┐ │ Replaner │ 检查结果：是否需要调整计划 └──────┬───────┘ ↺（调整后继续执行） ↓ 任务完成 → 输出最终结果

核心组件
1. Planner（规划器）
角色：全局大脑
能力：任务拆解、步骤排序、依赖分析、工具分配
实现：通常用强 LLM，Prompt 要求输出结构化 plan
2. Executor（执行器）
角色：干活的手脚
能力：工具调用、参数传递、结果收集、状态管理
实现：可以是轻量 LLM / 函数 / 脚本，不需要强推理
3. Replaner（重规划器）
角色：反馈调整中枢
能力：结果校验、偏差判断、计划修正、异常处理
实现：轻量 LLM 或规则引擎，只改后续步骤，不改历史

Plan-and-Execute 的灵魂：规划和执行彻底分开。

规划（Plan）：只负责想，不干活
输入：用户目标
输出：结构化、有序、可执行的子任务列表（含步骤、依赖、工具、预期结果）
执行（Execute）：只负责干，不想大方向
输入：单条子任务
输出：工具调用结果、状态、数据
反馈 / 重规划（Replan）：检查结果是否符合预期，必要时修改后续计划，但不会全盘推翻。

同样的生活化案例： 规划：我先一次性定好完整路线： ① 7:30 出门 ② 7:35 到地铁站 ③ 7:40 上地铁 ④ 8:10 出地铁 ⑤ 8:15 到公司 执行：按这个步骤一步步走。 遇到突发情况（地铁封站）：发现和计划不符，需要重新规划路线，再继续执行。

3.对比

维度	ReAct	Plan-and-Execute
核心逻辑	边想边做，走一步看一步	先定好完整路线，再按步骤执行
思考方式	每次只决定「下一步该做什么」	一次性拆解出完整的任务执行计划
执行方式	「思考 → 行动 → 观察 → 再思考」循环	「生成计划 → 按计划依次执行」
推理位置	每步前都要推理	只在开始推理一次；执行中不推理
灵活性	极高，随时调整	中等，调整需要重规划
全局视野	弱，容易丢目标	强，全程有蓝图
并行能力	无，只能串行	有，独立步骤可并行
Token 消耗	高（每步调用 LLM）	低（规划一次，执行轻量）
对复杂任务的处理	适合动态调整，但容易在长任务中跑偏	路线稳定，但应对突发变化不够灵活
适用场景	简单、动态、未知、短任务	复杂、固定、多步骤、长任务

技术层面的核心差异

思考的 “粒度” 不同
ReAct 是单步决策：每次只决定下一个动作，思考的粒度非常细。
Plan-and-Execute 是全局规划：先定好所有步骤，再批量执行，思考的粒度更粗。
对错误的容错方式不同
ReAct：每一步都能根据反馈调整，小错误能马上纠正。
Plan-and-Execute：如果计划本身就错了，后续步骤都会跟着错，需要重新规划。
适用场景不同
ReAct 更适合：信息不明确、需要边探索边做的任务（比如：查资料、写代码调试）。
Plan-and-Execute 更适合：目标明确、流程固定、步骤清晰的任务（比如：项目排期、数据报表生成）。

4.补充：Reflection

核心思想：Reflection（反思）是一种让 Agent 自己检查自己、评判自己、修正自己的增强范式。它不是独立架构，而是给 ReAct / Plan-and-Execute 叠加的 “纠错大脑”。

反思 = 自我评估 + 错误归因 + 策略修正

用户任务 ↓ 执行（ReAct 或 Plan-and-Execute） ↓ 【观察结果 Observation】 ↓ ┌─────────────────────┐ │ Reflection 反思 │ → 评判 + 归因 + 修正 └─────────────────────┘ ↓ 需要修正？→ 是 → 重新执行 ↓ 任务完成

总结

本文系统性地梳理了AI Agent的核心概念与基础范式，旨在帮助读者构建清晰的理解框架。

核心要点回顾：

Agent是什么？
AI Agent是目标驱动、具备感知、规划、决策、工具调用与记忆能力的智能系统。其核心公式为Agent = LLM + Planning + Memory + Tools，实现了从被动问答到主动处理复杂任务的跨越。
Agent vs. Workflow
- Workflow（工作流）：是预设的、固定的自动化流水线，遵循DAG结构，按既定步骤机械执行。
- Agent（智能体）：是具备自主决策能力的动态执行者，其内部可以调用和编排多个Workflow。二者是“智能增强”与“基础流程”的层级关系。
两大基础范式
- ReAct（Reasoning + Acting）：采用“走一步看一步”的单步决策循环（思考→行动→观察）。优势在于灵活性极高，能即时调整；劣势是缺乏全局视野，长任务中易偏离目标，且Token消耗大。
- Plan-and-Execute：采用“先规划后执行”的全局蓝图模式。优势在于路线稳定、全局视野强、支持步骤并行、Token效率高；劣势是对突发变化的响应不够灵活，初始计划若出错影响较大。
范式选择指南
- 选择 ReAct：当任务简单、动态、未知或需要频繁探索时（例如：调试代码、信息检索）。
- 选择 Plan-and-Execute：当任务复杂、固定、步骤清晰且可预规划时（例如：生成数据报表、执行项目排期）。
增强模式：Reflection（反思）
Reflection 是一种为上述范式叠加的“纠错大脑”，通过自我评估、错误归因和策略修正来提升任务的完成质量和鲁棒性。