news 2026/6/2 3:52:39

Agent学习笔记(一)——总体概览

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent学习笔记(一)——总体概览

Agent学习笔记(一)


文章目录

  • Agent学习笔记(一)
  • 前言
  • 一、Agent是什么?
  • 二、Agent和workflow的区别和联系
  • 三、Agent基础范式
    • 1.ReAct(Reasoning + Acting)
    • 2.Plan-and-Execute
    • 3.对比
    • 4.补充:Reflection
  • 总结

前言

本系列文章聊以记录自己在学习Agent过程中的浅显见解,以加深自己的学习印象,同时若能对读者有些许帮助,不慎宽慰。
本文将集中对Agent基础概念进行初步展开。


一、Agent是什么?

AI Agent是一类具备目标驱动、环境感知、自主决策、工具调用、记忆留存与迭代反思能力的智能系统:

Agent = LLM + Planning + Memory + Tools

从本质来看,大模型(LLM)是以理解 + 生成文本为核心的语言模型,被动响应指令,仅能完成问答类交互,不会自主推进任务。而 Agent 在此基础上实现了能力跨越,可端到端处理复杂任务,核心依托三大能力:任务流程规划记忆外部工具调用


二、Agent和workflow的区别和联系

核心结论:Workflow 是「预设固定流程」,按步骤机械执行;Agent 是「自主决策 + 动态流程」,带感知、思考、规划、工具调用的智能体。二者不是对立关系,而是「基础流程」与「智能增强」的层级关系,Agent 内部往往会嵌套 Workflow。

  • Workflow(工作流)

    • 一套预先编排、逻辑固定、分支有限的任务执行链路,严格遵循有向无环图(DAG)。
    • 人 / 系统提前定义好:先做什么、再做什么、遇到分支走哪条、结束条件。
    • 执行逻辑:条件判断 + 顺序 / 并行 / 分支流转,无自主思考。
    • 本质:自动化流水线。
  • Agent(智能代理 / 智能体)

    • 具备感知、推理、规划、工具调用、记忆、动态决策的自主执行单元。非 DAG,支持任意图结构(包括自环、多入边),本质是状态驱动的图遍历。
    • 不依赖固定步骤,接收目标后自主拆解任务、选择工具、调整路径、纠错重试。
    • 核心能力:大模型驱动的 “主动思考 + 动态执行”。
    • 本质:带智能决策的自主执行者。

层级关系:Workflow 是 Agent 的基础组成单元

用户目标 ↓ Agent(顶层:规划、决策、调度、纠错) ↓ 子任务 → 调用 固定 Workflow / 原子工具

三、Agent基础范式

1.ReAct(Reasoning + Acting)

核心思想:让大模型在每一步同时完成「逻辑推理」和「动作执行」,形成「思考→行动→观察→再思考」的循环闭环。

ReAct 是单步决策逐轮迭代模式,没有提前生成全局大计划,每一轮只决定「下一步做什么」,通俗来讲就是走一步看一步,完整循环如下:

用户任务/初始问题 ↓ ┌─────────────┐ │ Reasoning │ 思考:下一步该做什么 └──────┬───────┘ ↓ ┌─────────────┐ │ Acting │ 执行:调用工具/发起操作 └──────┬───────┘ ↓ ┌─────────────┐ │ Observation │ 观察:接收工具返回结果 └──────┬───────┘ ↓ 回到推理环节(循环) ↓ 任务完成 → 输出最终答案
  • Reasoning 推理思考
    基于当前任务、历史对话、上一轮执行结果,LLM 分析现状、判断目标、思考下一步需要执行什么动作。
  • Acting 执行动作
    根据推理结果,主动调用外部工具(搜索、数据库、API、计算器、代码解释器等),落地具体行为。
  • Observation 接收观察
    获取工具返回的结果、环境反馈、外部信息,作为新的上下文输入。
  • Loop 循环迭代
    将「原始任务 + 历史推理 + 动作 + 观察结果」全部送入 LLM,进入下一轮推理,直到任务完成。
举个生活化的例子:从家去公司 **思考**:我现在要去公司,第一步该干嘛? **行动**:打开地图搜路线。 **观察**:看到有地铁和公交两种方案,地铁更快。 **思考**:那我先去地铁站,需要带交通卡吗? **行动**:找交通卡,出门。 **观察**:到地铁站发现临时封站了。 **思考**:那我改坐公交,先查公交路线…

2.Plan-and-Execute

核心思想:先全局规划出完整步骤清单,再按计划一步步执行;执行中可动态调整,但始终以 “整体蓝图” 为核心。

用户目标 ↓ ┌─────────────┐ │ Planner │ 全局思考:生成完整步骤清单 └──────┬───────┘ ↓ ┌─────────────┐ │ Executor │ 逐条执行:调用工具、拿到结果 └──────┬───────┘ ↓ ┌─────────────┐ │ Replaner │ 检查结果:是否需要调整计划 └──────┬───────┘ ↺(调整后继续执行) ↓ 任务完成 → 输出最终结果

核心组件
1. Planner(规划器)
角色:全局大脑
能力:任务拆解、步骤排序、依赖分析、工具分配
实现:通常用强 LLM,Prompt 要求输出结构化 plan
2. Executor(执行器)
角色:干活的手脚
能力:工具调用、参数传递、结果收集、状态管理
实现:可以是轻量 LLM / 函数 / 脚本,不需要强推理
3. Replaner(重规划器)
角色:反馈调整中枢
能力:结果校验、偏差判断、计划修正、异常处理
实现:轻量 LLM 或规则引擎,只改后续步骤,不改历史

Plan-and-Execute 的灵魂:规划和执行彻底分开。

  • 规划(Plan):只负责想,不干活
    输入:用户目标
    输出:结构化、有序、可执行的子任务列表(含步骤、依赖、工具、预期结果)
  • 执行(Execute):只负责干,不想大方向
    输入:单条子任务
    输出:工具调用结果、状态、数据
  • 反馈 / 重规划(Replan):检查结果是否符合预期,必要时修改后续计划,但不会全盘推翻。
同样的生活化案例: 规划:我先一次性定好完整路线: ① 7:30 出门 ② 7:35 到地铁站 ③ 7:40 上地铁 ④ 8:10 出地铁 ⑤ 8:15 到公司 执行:按这个步骤一步步走。 遇到突发情况(地铁封站):发现和计划不符,需要重新规划路线,再继续执行。

3.对比

维度ReActPlan-and-Execute
核心逻辑边想边做,走一步看一步先定好完整路线,再按步骤执行
思考方式每次只决定「下一步该做什么」一次性拆解出完整的任务执行计划
执行方式「思考 → 行动 → 观察 → 再思考」循环「生成计划 → 按计划依次执行」
推理位置每步前都要推理只在开始推理一次;执行中不推理
灵活性极高,随时调整中等,调整需要重规划
全局视野弱,容易丢目标强,全程有蓝图
并行能力无,只能串行有,独立步骤可并行
Token 消耗高(每步调用 LLM)低(规划一次,执行轻量)
对复杂任务的处理适合动态调整,但容易在长任务中跑偏路线稳定,但应对突发变化不够灵活
适用场景简单、动态、未知、短任务复杂、固定、多步骤、长任务

技术层面的核心差异

  1. 思考的 “粒度” 不同
    ReAct 是单步决策:每次只决定下一个动作,思考的粒度非常细。
    Plan-and-Execute 是全局规划:先定好所有步骤,再批量执行,思考的粒度更粗。

  2. 对错误的容错方式不同
    ReAct:每一步都能根据反馈调整,小错误能马上纠正。
    Plan-and-Execute:如果计划本身就错了,后续步骤都会跟着错,需要重新规划。

  3. 适用场景不同
    ReAct 更适合:信息不明确、需要边探索边做的任务(比如:查资料、写代码调试)。
    Plan-and-Execute 更适合:目标明确、流程固定、步骤清晰的任务(比如:项目排期、数据报表生成)。

4.补充:Reflection

核心思想:Reflection(反思) 是一种让 Agent 自己检查自己、评判自己、修正自己的增强范式。它不是独立架构,而是给 ReAct / Plan-and-Execute 叠加的 “纠错大脑”。

反思 = 自我评估 + 错误归因 + 策略修正
用户任务 ↓ 执行(ReAct 或 Plan-and-Execute) ↓ 【观察结果 Observation】 ↓ ┌─────────────────────┐ │ Reflection 反思 │ → 评判 + 归因 + 修正 └─────────────────────┘ ↓ 需要修正?→ 是 → 重新执行 ↓ 任务完成

总结

本文系统性地梳理了AI Agent的核心概念与基础范式,旨在帮助读者构建清晰的理解框架。

核心要点回顾:

  1. Agent是什么?
    AI Agent是目标驱动、具备感知、规划、决策、工具调用与记忆能力的智能系统。其核心公式为Agent = LLM + Planning + Memory + Tools,实现了从被动问答到主动处理复杂任务的跨越。

  2. Agent vs. Workflow

    • Workflow(工作流):是预设的、固定的自动化流水线,遵循DAG结构,按既定步骤机械执行。
    • Agent(智能体):是具备自主决策能力的动态执行者,其内部可以调用和编排多个Workflow。二者是“智能增强”与“基础流程”的层级关系。
  3. 两大基础范式

    • ReAct(Reasoning + Acting):采用“走一步看一步”的单步决策循环(思考→行动→观察)。优势在于灵活性极高,能即时调整;劣势是缺乏全局视野,长任务中易偏离目标,且Token消耗大。
    • Plan-and-Execute:采用“先规划后执行”的全局蓝图模式。优势在于路线稳定、全局视野强、支持步骤并行、Token效率高;劣势是对突发变化的响应不够灵活,初始计划若出错影响较大。
  4. 范式选择指南

    • 选择 ReAct:当任务简单、动态、未知或需要频繁探索时(例如:调试代码、信息检索)。
    • 选择 Plan-and-Execute:当任务复杂、固定、步骤清晰且可预规划时(例如:生成数据报表、执行项目排期)。
  5. 增强模式:Reflection(反思)
    Reflection 是一种为上述范式叠加的“纠错大脑”,通过自我评估、错误归因和策略修正来提升任务的完成质量和鲁棒性。

展望:
理解这些基础范式是构建和运用更复杂Agent系统(如多智能体协作、分层规划等)的基石。在实际应用中,往往需要根据具体场景,灵活组合或改造这些模式,以设计出最有效的智能体解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 3:51:54

从BMP文件头到像素遍历:手把手教你用C语言解析一张图片的完整数据

从BMP文件头到像素遍历:手把手教你用C语言解析一张图片的完整数据在数字图像处理领域,理解图像文件的底层存储结构是开发者必须掌握的核心技能。本文将带您深入BMP文件格式的二进制世界,通过纯C语言实现从文件头解析到像素遍历的全过程。不同…

作者头像 李华
网站建设 2026/6/2 3:49:21

海康VisionMaster与西门子1200 PLC TCP/IP通信(第二讲:PLC端接收数据)

一、前言 上一讲我们讲了PLC发送数据给VisionMaster,两种模式都能实现,配置各有不同。 本讲继续讲反向流程:VisionMaster发送数据给PLC,PLC接收数据。 同样的硬件平台,同样的两种模式,但接收和发送在指令选择、端口设置上有本质区别。本文继续用对比表格加实操步骤,一…

作者头像 李华
网站建设 2026/6/2 3:49:00

大型语言模型稀疏化技术与PATCH框架解析

1. 大型语言模型稀疏化技术现状大型语言模型(LLMs)如LLaMA、GPT等已在自然语言处理领域取得突破性进展,但其庞大的参数量(通常达数十亿)带来了显著的内存开销和高昂的推理成本。以LLaMA-2 7B模型为例,仅加载FP16精度的模型就需要约14GB显存,在…

作者头像 李华