news 2026/5/1 11:05:46

每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

大模型的训练数据来自大规模的语料库,数据中包含海量的信息,那如何训练出一个可以进行交互的大语言模型呢?

大语言模型的训练往往包含三个阶段,预训练阶段,监督微调阶段,和强化学习阶段。

第一阶段是pretraining,也就是预训练阶段。预训练阶段的数据由没有标签的海量数据构成,目的是让大模型学会或记住这些知识。训练采用自回归的方法,通过前几个token预测下一个token,从而得到一个基础模型。

第二个阶段是监督微调阶段。当模型拥有了知识之后,下一步是教会大模型如何理解并遵循人类指令回答问题。监督微调阶段使用高质量的“指令-回复”配对数据,对基础模型进行微调。训练数据提供“期望的回复”作为学习目标,使模型从通用的文本生成器,转变为能够理解并遵循人类指令的对话助手。

第三个阶段是RLHF阶段,也就是人类反馈强化学习阶段。在第二阶段模型学会回答问题之后,第三阶段的目的是教会模型按人类的偏好进行学习,目标是让模型的输出更符合人类的安全与价值偏好。首先,收集人类对模型不同回复的偏好数据,训练一个奖励模型来模拟人类的判断。接着,使用强化学习算法,以奖励模型的打分为信号,优化微调后的语言模型,同时约束其输出不要过于偏离微调阶段的水平,以确保生成质量。
如今,直接偏好优化等方法因更简单高效,也常被用于此阶段。首先是对模型提问,让模型输出两个回答,人类专业对回答进行打分,模型根据打分更新模型参数,从而让大模型的回答更符合人类的偏好。

通过这三个阶段的学习,模型记住了知识,学会了回答问题,并通过人类的反馈,使其回答的更加贴合人类的偏好。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 8:36:57

vue基于Spring Boot的校园餐厅菜品自选系统_96f895uz

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/5/1 9:48:16

vue基于Spring Boot的野生动物公益保护平台应用和研究_j6j88589

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/5/1 8:19:26

Bash /dev/tcp、nc 与 nmap:端口检测的定位与取舍

注:以下来自ai生成,未经过测试,如有错误请告知 在 Linux / Unix 网络运维与安全场景中,端口检测几乎是每天都会遇到的需求。从最简单的“这个端口通不通”,到完整的服务识别、漏洞扫描,不同工具的适用边界差…

作者头像 李华
网站建设 2026/5/1 6:05:32

第5篇 | EPON vs. GPON:那场发生在“标准”里的隐形战争

《固定接入网:光纤的“最后一公里”》 第5篇 01. 引子:为什么同样是光纤,你的“猫”却不能去邻居家串门? 如果你在搬家时试过把旧房子的光猫带到新家用,或者在闲鱼上买过二手光猫,你很可能遭遇过这样的“滑铁卢”: 明明接口长得一模一样,明明都是光纤入户,甚至明明都…

作者头像 李华
网站建设 2026/5/1 7:07:25

2、搭建Kali Linux测试环境全攻略

搭建Kali Linux测试环境全攻略 在进行Web应用程序安全测试之前,我们需要确保拥有最新的工具和合适的测试环境。以下将详细介绍如何更新Kali Linux、安装相关工具、创建虚拟机以及了解易受攻击的Web应用程序。 1. 更新和升级Kali Linux 在开始测试Web应用程序的安全性之前,…

作者头像 李华
网站建设 2026/5/1 6:08:39

3、渗透测试侦察阶段技术指南

渗透测试侦察阶段技术指南 1. 渗透测试流程概述 在进行网络或Web应用程序渗透测试时,有一套既定的工作流程。这个流程通常包含以下几个阶段,完成这些阶段有助于提高发现并利用目标系统中所有可能存在的漏洞的几率: - 侦察(Reconnaissance) - 枚举(Enumeration) - 利…

作者头像 李华