大模型学习基础（五）强化学习（Reinforcement Learning，RL）初步-编程实验室

前面的文章简单介绍过，传统的监督学习所使用的数据集是（特征，标签），有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案，而只是知晓一个大概正确的方向：如在下围棋时，第一步下在哪里？显然这个问题没有一个明确答案，这个时候使用强化学习显然比监督学习更加合适，因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示：

三要素：1.Actor，即模型；2.Environment，环境 3.Action，即模型的输出

Environment输入Observation给Actor，Actor输出一个Action给Environment，Environment回复一个Reward（奖励）分数给Actor，接着继续把Observation交给Actor，如此循环。模型训练的要求就是使得Reward最大，代表我们找到了最优的模型。

对于模型来说，Environment输入Observation给Actor，即代表模型从环境中提取到了状态信息，根据这个状态信息模型来判断下一步的动作；而模型输出的是一个分类的结果，即多个动作对应多个不同的概率；在输出概率分布以后要添加一定的随机性，使得每次的输出结果具有差异性，然后选择最大概率所对应的动作。

模型在选择一个动作之后，这个动作实际是对Environment发生，相应的Environment会给模型一个回馈Reward，然后再给模型一个新的Observation，模型继续选择新的动作，循环此过程。这个过程中的Reward会被累积下来，Reward越大，代表模型做出的动作越好。用表示reward累计，因为我们希望R越大越好，所以R取反可以直接作为损失函数，使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下：

需要注意的是，只有Actor本身是神经网络结构，而Env和Reward都是黑盒子，这意味着我们只能优化Actor的参数，而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数，有了模型Actor，显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时，模型能输出指定的值a？

这个时候的输出是可以明确的，这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理，即用交叉熵定义损失函数。如果不想要模型输出指定的值a，只需要对损失函数取反。

而实际的情况是，环境的状态S是由多个Si构成的，每训练一组S-a即训练一个多分类问题，把这些问题的损失函数（交叉熵）加在一起，即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问：上述介绍的问题似乎都是监督学习问题，即可以明确正确输出的标签，与reward又有什么关联呢？这个问题将在下一讲给出答案。

转行IT：网络工程师VS网络安全工程师，哪个能带你走上人生巅峰？

前言记得曾经有人说过这样一个俗语：三百六十行，行行转IT。或许听到这个话的时候会觉得是一句玩笑话，但是浏览到网络上一些关于就业的文章，就能够明白这句话的真正意义所在。随着互联网的发展，越来越多人选择&#…

李华

27 岁从传统行业裸辞转网络安全，我是如何做到的？

27 岁女生从传统行业裸辞转网络安全，3 个月拿到大厂 offer：这行真的没你想的那么难后台经常收到私信，问我一个做了 4 年传统行业（之前是线下品牌运营）的女生，为什么突然 “跨界” 转做网络安全&#xff1…

李华

效率提升25%，灵巧操作数采困境被「臂-手共享自主框架」解决

实现通用机器人的类人灵巧操作能力，是机器人学领域长期以来的核心挑战之一。近年来，视觉 - 语言 - 动作 (Vision-Language-Action，VLA) 模型在机器人技能学习方面展现出显著潜力，但其发展受制于一个根本性瓶颈：高质量操…

李华

利用瑞士球训练、穆利根贴扎和运动中松动术的综合康复方法，同时治疗一名羽毛球运动员的骶髂关节功能障碍与外侧踝关节扭伤：病例研究原文翻译

严正声明：本博客内容仅为学习使用，不具备任何医学建议或者参考价值。如有不适，请遵医嘱。本博客所转载之内容，不能作为正式的医学参考，仅供学习利用瑞士球训练、穆利根贴扎和运动中松动术的综合康复方法，同…

李华

59.遗留系统改造（上）-DDD改造遗留系统4个步骤-附改造路线图

59 遗留系统改造（上）：DDD 改造遗留系统的 4 个步骤你好，欢迎来到第 59 讲。在上一讲，我们了解到，亟待改造的“大泥球”遗留系统，是 DDD 落地的一个绝佳“试验田”。因为这类系统通常痛点明确，团队变革意愿强，并且 DDD 的价值能立竿见影地体现出来。但是，面对一…

李华

61.研发流程优化-DDD与敏捷开发结合实践-提升团队协作效率

61 研发流程优化：DDD 与敏捷开发的结合实践你好，欢迎来到第 61 讲。在我们深入探讨了 DDD 的团队、项目选择和改造策略之后，一个非常实践性的问题浮出水面：在日常的开发迭代中，我们该如何将 DDD 的建模活动，与我们已经习惯的敏捷开发（如 Scrum、Kanban）流程，进行有…