news 2026/6/14 23:52:04

【第二十九周】机器学习笔记三十

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【第二十九周】机器学习笔记三十

摘要

本周学习了强化学习中是如何对actor的行为进行评估的,了解了critic的基本概念与工作原理,并进一步学习了Advantage Actor-Critic架构

abstract

This week, I learned about how the actor's behavior is evaluated in reinforcement learning, understood the basic concepts and working principles of the critic, and further studied the Advantage Actor-Critic architecture.

Critic

Critic 在强化学习系统中用于评估和预测价值。通过提供对未来回报的预测来指导 Actor(策略)的学习和优化。 它使得强化学习的学习过程更加稳定和高效

Critic 如何工作?

  1. 观察:Critic 观看 Actor 与环境互动,看到大量的(状态,动作,奖励,下一个状态)数据。

  2. 学习:Critic 使用这些数据,通过时间差分误差等方法来训练自己,目标是让自己对价值的预测越来越准确

  3. 反馈:Critic 将这个预测误差(TD Error)或梯度信息反馈给 Actor。这个误差是 Actor 学习的核心信号:

    • 如果误差为正:说明实际结果比预期好,Actor 应该加强导致这个结果的行为。

    • 如果误差为负:说明实际结果比预期差,Actor 应该减弱导致这个结果的行为。

强化学习两种方法

强化学习中两个核心概念:蒙特卡洛方法时序差分学习。蒙特卡洛(MC):通过完整轨迹的真实回报来更新价值估计。时序差分(TD):通过相邻状态的估计值差分来更新价值估计。

特性蒙特卡洛时序差分
更新时机必须等到一幕结束每步之后立即更新
学习目标实际累积回报 GtGt​TD目标 Rt+1+γV(St+1)Rt+1​+γV(St+1​)
偏差/方差无偏,高方差有偏,低方差
对环境的了解不需要环境模型不需要环境模型(都是无模型方法)
收敛性收敛性较好,但慢通常收敛更快,但不一定收敛到全局最优
核心概念采样,完整回报自举,TD误差

Advantage Actor-Critic

A2C的核心是引入优势函数的Actor-Critic架构。Critic学习状态价值V(s)作为基线,通过TD误差估计优势函数A(s,a)=Q(s,a)-V(s),衡量动作相对平均水平的优劣。Actor使用优势估计而非原始回报更新策略,大幅降低方差。这种"评估优势+策略优化"的双网络结构,使智能体既获得低方差更新信号,又能精确分配动作价值,成为现代策略梯度算法的稳定基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:20:10

SSM人才猎聘系统j9d6n(程序+源码+数据库+调试部署+开发环境)

本系统(程序源码数据库调试部署开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。 系统程序文件列表 开题报告内容 一、项目背景 随着企业竞争的日益激烈,人才已成为推动企业发展的重要资源。然而&#…

作者头像 李华
网站建设 2026/6/15 7:51:19

SSM入学新生信息管理系统y0mew程序+源码+数据库+调试部署+开发环境

本系统(程序源码数据库调试部署开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。 系统程序文件列表 开题报告内容 一、项目背景与意义 随着高校招生规模的不断扩大,新生信息管理工作变得日益复杂和繁琐…

作者头像 李华
网站建设 2026/6/15 5:02:17

Autodesk Inventor professiona

链接:https://pan.quark.cn/s/2a0c7227e03fAutodesk inventor professional 是欧特克公司针对机械设计领域而打造的一整套功能强大的机械设计解决方案,主要用于三维建模、仿真、可视化和文档编制。利用软件,工程师可以创建最终产品的虚拟表示…

作者头像 李华
网站建设 2026/6/15 11:18:29

C++之派生类的构造与析构

文章目录构造析构构造 如果子类构造函数没有显式指明基类部分(基类子对象)的初始化方式,那么编译器将会自动调用基类的无参构造函数来初始化基类子对象如果希望以有参的方式来初始化基类部分,那么必须使用初始化列表来显式指明子对象构造顺序 分配内存构…

作者头像 李华
网站建设 2026/6/11 14:42:22

Python快速入门(6)——for/if/while语句

Python快速入门(6)——for/if/while语句Python的运算基本运算符常用数学运算For循环If条件While循环Python的运算 基本运算符 除了数字支持基本运算符外,python支持幂乘(**),python的字符串、列表、元组都…

作者头像 李华
网站建设 2026/6/15 11:23:58

jsp党员信息管理系统76673--(程序+源码+数据库+调试部署+开发环境)

本系统(程序源码数据库调试部署开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表用户,党费信息,培训公告,奖惩信息,参加活动,基层党组织,党委,党支部开题报告内容一、研究背景与意义随着信息化技术的…

作者头像 李华