大模型微调经验分享：数据预处理、模型结构、训练参数与错误处理

本文从训练数据预处理、模型结构、训练参数设置与错误处理四大角度，详细分享了大模型微调实战经验。涵盖对话数据优化方法、历史对话长度设置建议、OOM问题解决方案、模型结构选择技巧、训练参数配置经验及错误崩溃处理策略，帮助程序员避开微调过程中的常见坑点，提升大模型训练效果。

前言

本篇主要从训练数据预处理、模型结构、训练参数设置与错误处理四大角度比较细节地分享大模型微调经验。

大模型的训练和微调过程相对于以前NLP中fine-tuning模式存在一些新的坑，并且做一些简单的消融实验相对于以前的模式试错成本也更高；此外目前很多算法工程师更多精力都放在了处理数据上，工作之余很难有精力去做探索实验。

所以小伙伴们在实践前可以多看看一些通用的实践经验，带着一些先验知识去探索，尽量规避自己陷入一些无意义的坑中。

本篇将开启一个新系列，尽量细节的讲讲大模型中训练和微调的经验。

本篇主要从训练数据预处理、模型结构、训练参数设置与错误处理四大角度来谈经验，下面是一个问题的快捷目录。

拿到业务产生的一批新的对话数据，需要进行SFT，怎样对这批数据进行优化？
模型训练时，历史对话长度是不是设置得越长越好，一般设置多少？
模型训练样本量规模增大，导致训练任务直接报OOM了，该怎么办？
微调大模型的时候在模型结构方面有哪些经验？
微调大模型的时候训练配置一般是怎样的？
微调大模型时出现错误崩溃该怎么办？

拿到业务产生的一批对话数据，需要进行SFT，怎样对这批数据进行优化？

1. 上下文内容处理

考虑具体模型历史对话长度，输入历史对话数据进行左截断，保留最新的对话记录。

2. 语句顺滑处理

把一些口语化的语气词、语法错误等进行顺滑，如嗯嗯、呃、啊啊之类的口语词。

3. 去掉一些敏感或不合适的内容

这里可以从整句和词的角度来考虑。

整句

可以基于如fasttext等模型训练一个简单的文本分类模型，把价值观不正确的或不合适的样本数据筛出来；

这里比较直接，可以设置一个敏感词列表。

4. 扩充用户特征标签

基于年龄、性别、地域、人群等，针对对话的用户做一个特征标签，可以便于后期分析，做其他实验等。

模型训练时，历史对话长度是不是设置得越长越好，一般设置多少？

这个消融实验是这么设计的，选同一个模型，分别用两种方案训练，变量是max_source_length和max_target_length，对训练好之后的模型从Loss、Bleu指标、离线人工评估等角度进行对比分析。

下面直接附上结论：

基于现有显存条件，从人工评估少量样本以及loss下降来看，历史对话长度设置得越长越好。历史对话长度1024比512长度好，后续如果训练可能上线模型，可以扩大到1024长度。

模型训练样本量规模增大，导致训练任务直接报OOM了，该怎么办？

1. 方案

对数据并行处理，核心思想是使数据向量化耗时随处理进程的增加线性下降，训练时数据的内存占用只和数据分段大小有关，可以根据数据特点，灵活配置化。

2. 具体操作

均分完整数据集到所有进程（总的GPU卡数）；
每个epoch训练时整体数据分片shuffle一次，在每个进程同一时间只加载单个分段大小数据集；
重新训练时可以直接加载向量化后的数据。

微调大模型的时候在模型结构有哪些经验？

模型结构：目前都用Causal Decoder + LM。有很好的zero-shot和few-shot能力，涌现效应
Layer normalization: 使用Pre RMS Norm
激活函数: 使用GeGLU或SwiGLU
Embedding层后不添加layer normalization，否则会影响LLM的性能
位置编码: 使用ROPE或ALiBi。ROPE应用更广
去除偏置项: 去除dense层和layer norm的偏置项，有助于提升稳定性

微调大模型的时候在训练配置方面有哪些经验？

Batch size: 大模型在硬件显存满足的情况下，一般batch size越大越好，建议选用很大的batch size; 后期动态地增加batch size的策略，GPT3逐渐从32K增加到3.2M tokens。
学习率设置: 先warmup再衰减。学习率先线性增长，再余弦衰减到最大值的10%。最大值一般在 5e-5到1e-4之间。
梯度裁剪: 通常将梯度裁剪为1.0。
权重衰减: 采用AdamW优化器，权重衰减系数设置为0.1Adamw相当于Adam加了一个L2正则项。
混合精度训练: 采用bfloat16，而不是foat16来训练。

微调大模型时出现错误崩溃该怎么办？

前面都好好的，过某个shard的时候突然崩溃了大概率是数据问题。

选择一个好的断点，跳过训练崩溃的数据段，进行断点重训。

选择一个好的断点的两点标准:

损失标度 lossscale>0；
梯度的L2范数<一定值且波动小。

最后的最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓