news 2026/6/3 0:01:05

从ReAct到Plan-and-Execute:Agent推理框架演进全解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从ReAct到Plan-and-Execute:Agent推理框架演进全解析

从ReAct到Plan-and-Execute:Agent推理框架演进全解析


一、 引言 (Introduction)

1.1 钩子:从“AI只会做题”到“AI能像人一样做事”的跨越门槛是什么?

想象一下这个场景:你在2023年初第一次使用ChatGPT Plus时,让它帮你“安排本周日去北京香山公园看红叶的行程,预算人均200元以内,还要避开上午10点到下午2点的人流高峰,回来时顺路买盒稻香村的山楂锅盔(要前门大街总店的,别买分店代加工的)”。

你得到的回答大概率是什么?
ChatGPT可能会:

  1. 告诉你北京香山红叶的最佳观赏期是10月中旬到11月上旬(这是基于训练截止到2023年10月的数据瞎蒙?哦不对是2023年3月Plus刚出时,训练数据截止到2022年9月,连2022年的红叶峰期都得靠常识推理偏通用化);
  2. 给出一条“避开高峰”的伪路线——比如让你“早上6点从家出发,坐地铁西郊线,8点前入园,逛到9点50分就去北门找个咖啡馆躲到2点01分再出来下山”(完全忽略西郊线早高峰6:30-8:30从巴沟到香山段的人流爆炸程度,更不知道香山北门根本没有正经能待3个多小时的平价咖啡馆);
  3. 关于稻香村的部分,只会笼统地说“下山后坐地铁到前门站,从C口出步行到前门大街买稻香村”(完全不知道前门稻香村总店具体位置、具体分店标识是“稻香村有限责任公司第一营业部”、山楂锅盔的具体规格/库存时段、甚至不知道如果从香山回来走哪条地铁换乘最快,还不会查实时路况)。

到了2023年底,同样的需求,你用LangChain Plan-and-Execute Agent或者GPT-4 Turbo + Custom Tools(本质是P&E的简化版)来做呢?
Agent可能会:

  1. 先调用外部天气查询工具,确认当天香山的气温、风力(会不会太冷/太大);
  2. 调用人流预测工具(比如基于百度地图/高德地图历史数据+当天预约量的第三方接口),确认当天香山入园人数的具体波峰波谷,甚至可能发现当天西郊线8点前巴沟站限流,建议你改坐公交331路到香泉环岛再步行10分钟到东门;
  3. 调用大众点评/高德美食工具,确认东门附近的24小时便利店(比如全家、罗森)可以躲1小时人流,北门附近的“香山小馆”在9:50-11:00有空位(人均25元的早餐收尾时段+午餐预备时段的空档);
  4. 调用百度地图路径规划工具,查实时路况下从香山小馆到前门稻香村第一营业部的最快路线(可能建议坐西郊线到巴沟换乘10号线外环到国贸再换乘1号线八通线到前门站C口?不对10号线到公主坟换乘1号线更快——哦工具会查实时换乘拥挤度和路况,如果公主坟换乘拥挤,可能换另一条);
  5. 调用稻香村官方小程序/电话API工具,确认当天前门第一营业部山楂锅盔的库存时段(比如10:00-12:00有一批刚出炉的,下午4:00-6:00有另一批,Agent会根据你的避峰下山时间调整购买时机,甚至可能提前帮你生成预约取货码——如果接口支持的话);
  6. 最后把所有信息整合起来,生成一份可执行、可调整、带具体工具查询链接/截图占位符的详细行程表,人均预算算下来是:公交331路2元+全家咖啡12元+香山小馆豆浆油条包子25元+香山门票10元(淡季)+稻香村山楂锅盔18元(1盒10个)+地铁1号线+10号线5元=72元,远低于200元。

这中间的差距,本质上就是AI推理框架从“只会单步/短链调用常识+静态训练数据”的“做题家”,进化到“能多步、长链、动态调用外部工具、能反思、能调整、能分阶段完成复杂任务”的“行动者”的跨越

而推动这一跨越的两个里程碑式的推理框架,就是今天这篇文章要深度解析的:

  1. ReAct(Reasoning + Acting,推理-行动交替框架):2022年10月由普林斯顿大学、Google Research、UC Berkeley联合提出,第一次将“显式的思维链推理”和“显式的外部工具调用”完美结合,打破了之前“要么只会推理(Chain-of-Thought, CoT)、要么只会调用工具做简单任务(比如WebGPT、AlphaCode的单步调试)”的僵局;
  2. Plan-and-Execute(规划-执行分离框架):2023年6月由LangChain团队在ReAct的基础上优化提出,第一次将“复杂任务的高层规划”和“子任务的底层执行”解耦,解决了ReAct在处理超长链、高不确定性、多约束条件任务时容易“迷失方向”(比如查着查着人流就去看香山的历史了,忘记了要安排稻香村的购买)、“执行效率低”(比如每做一个小决策都要重新思考一遍整个任务的背景)、“容错能力差”(比如某一步工具调用失败就直接放弃整个任务)的三大核心问题。

1.2 定义问题/阐述背景:为什么我们需要Agent推理框架?

1.2.1 问题背景:大语言模型(LLMs)的“能力边界悖论”

从2022年11月ChatGPT发布以来,大语言模型(LLMs)已经展现出了令人惊叹的能力:

  • 通用语言理解与生成能力:能写文章、能翻译、能写代码、能做数学题、能回答各种专业问题;
  • 弱推理能力:通过Chain-of-Thought(思维链)提示词工程,能解决一些中等难度的逻辑推理问题(比如小学数学应用题、简单的编程bug修复);
  • 有限的工具调用能力:一些早期的LLM扩展(比如WebGPT、LaMDA Toolformer)能调用简单的搜索引擎工具或计算器工具,但只能单步或短链调用,无法处理复杂的多步任务。

但同时,LLMs也存在着三个无法仅靠扩大模型规模、增加训练数据就能解决的“硬伤”,这就是我们常说的“LLM能力边界悖论”:

  1. 静态知识的局限性:LLMs的训练数据是有截止日期的(比如GPT-3.5的训练数据截止到2022年9月,GPT-4 Turbo的训练数据截止到2024年7月),无法获取实时信息(比如当天的天气、当天的股票价格、当天的新闻);
  2. 弱长期记忆与规划能力:LLMs的Context Window(上下文窗口)是有限的(比如GPT-3.5 Turbo 16k的上下文窗口只能处理约1.2万个汉字,GPT-4 Turbo 128k的上下文窗口只能处理约9.6万个汉字),无法处理超长的历史对话或复杂的多步任务的上下文;同时,LLMs在没有显式提示的情况下,很难自发地将一个复杂任务分解成多个小的、可执行的子任务,更难根据执行过程中的反馈调整计划;
  3. 缺乏可执行的行动能力:LLMs本质上是“信息处理引擎”,只能“说”不能“做”——无法直接访问互联网搜索信息、无法直接调用计算器计算复杂的数学公式、无法直接控制电脑或手机上的应用程序、无法直接发送邮件或短信、无法直接控制智能家居设备。
1.2.2 问题定义:什么是“智能Agent”?什么是“Agent推理框架”?

为了解决LLMs的这三个“硬伤”,学术界和工业界提出了“大语言模型驱动的智能Agent(LLM-powered Intelligent Agent)”的概念。

根据经典的人工智能定义(Russell & Norvig, 2020),一个智能Agent是指:

“一个能通过传感器(Sensors)感知环境(Environment),并通过执行器(Actuators)作用于环境,以实现某个目标(Goal)的实体。”

大语言模型驱动的智能Agent,就是将大语言模型(LLMs)作为Agent的“大脑(Central Processing Unit, CPU)”,负责:

  1. 感知与理解:将传感器收集到的环境信息(比如文本对话、图片、语音、传感器数据)转换成LLMs能理解的自然语言或结构化数据;
  2. 推理与决策:根据感知到的环境信息、Agent的目标、Agent的长期记忆(Long-term Memory),进行显式或隐式的推理,生成下一步的行动计划;
  3. 执行与反馈:将行动计划转换成执行器能执行的指令(比如调用外部工具的API请求、控制智能家居设备的指令),执行指令后收集反馈信息,再将反馈信息传回给LLMs的大脑,进行下一轮的感知-推理-决策-执行循环。

Agent推理框架,就是定义和规范Agent“大脑”内部的感知-推理-决策-执行循环的具体流程和步骤的一套方法论和技术架构。

简单来说,Agent推理框架就是给LLMs这个“大脑”装上的“思维操作系统”——没有这个操作系统,LLMs就只是一个“只会胡说八道或只能做简单任务的书呆子”;有了这个操作系统,LLMs才能变成一个“能感知环境、能思考、能决策、能行动、能学习、能调整的真正的智能体”。

1.2.3 问题解决的必要性与紧迫性

在过去的两年里,大语言模型驱动的智能Agent已经从“学术研究的玩具”变成了“工业界的生产力工具”,应用场景覆盖了个人助手、代码开发、数据分析、客服聊天、内容创作、教育辅导、医疗诊断、金融分析、法律审查、智能家居控制、自动驾驶辅助等几乎所有领域。

根据Gartner的预测,到2027年,超过80%的企业将部署至少一个大语言模型驱动的智能Agent,用于处理日常的重复性工作或复杂的多步任务;到2030年,大语言模型驱动的智能Agent将为全球经济贡献超过10万亿美元的产值

而要想部署一个高效、稳定、可靠、可扩展的大语言模型驱动的智能Agent,选择一个合适的Agent推理框架是最重要的第一步——没有合适的推理框架,Agent要么无法完成任务,要么效率低下,要么容易出错,要么无法扩展。

1.3 亮明观点/文章目标:读完这篇文章你能学到什么?

这篇文章是一篇面向软件工程师、AI产品经理、AI研究者的深度技术解析文章,我们不会只停留在“介绍ReAct和Plan-and-Execute的概念”的层面,而是会从理论基础、核心原理、技术架构、算法流程、代码实现、实际应用、最佳实践、常见陷阱、未来发展趋势等多个维度,对从ReAct到Plan-and-Execute的Agent推理框架演进进行全链路、全流程、全方位的深度解析

读完这篇文章,你将能够:

  1. 理解Agent推理框架的核心概念和基本原理,包括什么是智能Agent、什么是Agent推理框架、Agent推理框架的核心组成部分是什么、Agent推理框架的分类标准是什么;
  2. 掌握Chain-of-Thought(思维链)、ReAct、Plan-and-Execute这三个里程碑式的推理框架的理论基础、核心原理、技术架构、算法流程、优缺点对比;
  3. 从零开始用Python和LangChain实现一个简单的ReAct Agent和一个简单的Plan-and-Execute Agent,并通过一个实际的“安排周末行程”的任务来测试这两个Agent的性能;
  4. 了解ReAct和Plan-and-Execute的常见陷阱与避坑指南、性能优化方法、成本控制方法、最佳实践总结;
  5. 了解Agent推理框架的未来发展趋势,包括什么是Self-Refine(自我反思)、什么是Tree-of-Thought(思维树)、什么是Graph-of-Thought(思维图)、什么是Multi-Agent(多智能体协作)、这些技术如何与ReAct和Plan-and-Execute结合。

1.4 文章结构预告

为了让你能循序渐进地理解从ReAct到Plan-and-Execute的Agent推理框架演进,我们将这篇文章分为以下几个部分:

  1. 引言(Introduction):就是你现在正在读的这部分,用一个实际的场景引出问题,定义什么是智能Agent和Agent推理框架,阐述问题解决的必要性与紧迫性,亮明文章的目标和结构;
  2. 基础知识/背景铺垫(Foundational Concepts):在这部分,我们将介绍理解Agent推理框架必须知道的关键术语和基本原理,包括大语言模型(LLMs)的核心能力、Context Window(上下文窗口)、思维链(Chain-of-Thought, CoT)、自我一致性(Self-Consistency)、思维树(Tree-of-Thought, ToT)、外部工具(External Tools)、记忆系统(Memory System);
  3. 核心内容一:ReAct推理框架全解析(The Core Part 1: Deep Dive into ReAct):在这部分,我们将从理论基础、核心原理、技术架构、算法流程、代码实现、优缺点分析、实际应用等多个维度,对ReAct推理框架进行全解析;
  4. 核心内容二:从ReAct到Plan-and-Execute的演进逻辑(The Core Part 2: The Evolutionary Logic from ReAct to Plan-and-Execute):在这部分,我们将分析ReAct推理框架的三大核心问题,以及为什么需要从ReAct演进到Plan-and-Execute;
  5. 核心内容三:Plan-and-Execute推理框架全解析(The Core Part 3: Deep Dive into Plan-and-Execute):在这部分,我们将从理论基础、核心原理、技术架构、算法流程、代码实现、优缺点分析、实际应用等多个维度,对Plan-and-Execute推理框架进行全解析;
  6. 进阶探讨/最佳实践(Advanced Topics / Best Practices):在这部分,我们将探讨ReAct和Plan-and-Execute的常见陷阱与避坑指南、性能优化方法、成本控制方法、最佳实践总结;
  7. 未来发展趋势(Future Trends):在这部分,我们将探讨Agent推理框架的未来发展趋势,包括Self-Refine、ToT、GoT、Multi-Agent等技术如何与ReAct和Plan-and-Execute结合;
  8. 结论(Conclusion):在这部分,我们将总结文章的核心要点,展望Agent推理框架的未来发展,并给读者留下一个行动号召。

(全文未完待续,下一节将进入《基础知识/背景铺垫》,为你详细解析理解Agent推理框架必须知道的关键术语和基本原理)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 23:56:08

探索游戏画质革命:OptiScaler多平台超分辨率技术全面解析

探索游戏画质革命:OptiScaler多平台超分辨率技术全面解析 【免费下载链接】OptiScaler OptiScaler bridges upscaling/frame gen across GPUs. Supports DLSS2/XeSS/FSR2 inputs, replaces native upscalers, enables FSR3 FG on non-FG titles. Supports Nukem mod…

作者头像 李华
网站建设 2026/6/2 23:52:59

告别命令行恐惧:在Ubuntu 22.04上用CuteCom图形化搞定串口调试

告别命令行恐惧:在Ubuntu 22.04上用CuteCom图形化搞定串口调试嵌入式开发的第一步往往从串口调试开始,但面对黑底白字的命令行终端,不少开发者会感到无从下手。如果你正在Ubuntu 22.04上连接Arduino、ESP32或树莓派等设备,CuteCom…

作者头像 李华
网站建设 2026/6/2 23:52:58

洛雪音乐音源配置全指南:5步打造个性化高品质音乐库

洛雪音乐音源配置全指南:5步打造个性化高品质音乐库 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 在数字音乐时代,如何免费获取高品质音乐资源成为了许多音乐爱好者的共同…

作者头像 李华