大模型开发工程师招聘中经常提到的技术名词,按预训练任务/参数高效微调技术和模型微调技巧两类整理,方便理解和记忆:
一、 预训练任务/参数高效微调技术
- MLM(Masked Language Model,掩码语言模型)
- 定义:一种自监督预训练任务,核心是随机掩盖输入文本中的部分 token(单词/子词),让模型预测被掩盖的内容。
- 核心用途:是 BERT 系列模型的核心预训练方式,能让模型学习到文本的上下文语义信息,适用于分类、命名实体识别等下游任务。
- CLM(Causal Language Model,因果语言模型)
- 定义:自监督预训练任务的一种,模型基于前文内容,逐词预测下一个可能出现的 token,遵循因果关系(只能看到前文,无法看到后文)。
- 核心用途:是 GPT 系列模型的核心预训练方式,擅长生成类任务,比如文本续写、对话生成。
- LoRA(Low-Rank Adaptation,低秩适应)
- 定义:参数高效微调(PEFT)技术的代表,冻结预训练大模型的大部分权重,仅在模型的注意力层插入少量可训练的低秩矩阵。
- 核心用途:大幅减少微调时的参数量和计算资源消耗,同时保证微调效果,是大模型落地微调的主流方案。
- P-tuning(Prompt Tuning,提示微调)
- 定义:另一种主流的参数高效微调技术,将人工设计的离散 prompt 转化为可训练的连续向量(即 prompt embedding),并融入模型输入层。
- 核心用途:无需调整模型主体权重,仅优化 prompt 向量,适配不同下游任务,尤其适合小样本场景。
二、 模型微调技巧(正则化/优化策略)
- EMA(Exponential Moving Average,指数移动平均)
- 定义:一种模型权重平滑策略,在训练过程中维护一个“影子权重”,该权重是历史训练权重的指数加权平均,而非直接使用当前迭代的权重。
- 核心用途:提升模型的泛化能力和稳定性,缓解模型过拟合,训练完成后通常用影子权重作为最终模型权重。
- FGM(Fast Gradient Method,快速梯度方法)
- 定义:一种对抗训练技巧,通过对模型的嵌入层参数添加微小的梯度方向扰动,构造对抗样本,让模型在扰动样本上继续训练。
- 核心用途:增强模型的鲁棒性,使其在面对噪声输入或对抗攻击时,仍能保持稳定的性能。
- SWA(Stochastic Weight Averaging,随机权重平均)
- 定义:在模型训练的后期(通常是学习率降低后),收集多个不同迭代步的模型权重,对其进行平均得到最终权重。
- 核心用途:相比单一权重模型,SWA 能显著提升模型的泛化能力,尤其在小数据集或复杂任务上效果明显。
- R-Dropout(Regularized Dropout,正则化 Dropout)
- 定义:一种改进的 Dropout 正则化方法,对同一样本进行两次不同的 Dropout 前向传播,通过约束两次输出的 KL 散度,减少模型的不确定性。
- 核心用途:缓解传统 Dropout 训练和推理阶段的差异问题,提升模型的预测稳定性和精度。
一、预训练任务与参数高效微调技术 适用场景对比表
| 技术名称 | 核心目标 | 适用场景 | 核心优势 | 注意事项 |
|---|---|---|---|---|
| MLM(掩码语言模型) | 让模型学习文本上下文语义关联 | 1. 自然语言理解任务(分类、NER、语义匹配) 2. BERT系列模型预训练 | 1. 双向上下文信息捕捉能力强 2. 下游理解任务效果优异 | 1. 不适合生成类任务 2. 训练时需处理掩码token的预测逻辑 |
| CLM(因果语言模型) | 让模型学习基于前文的文本生成逻辑 | 1. 自然语言生成任务(续写、对话、摘要) 2. GPT系列模型预训练 | 1. 单向上下文建模,贴合生成任务逻辑 2. 生成文本流畅度高 | 1. 无法利用后文信息,理解任务效果弱于MLM 2. 易出现文本重复生成问题 |
| LoRA(低秩适应) | 以少量参数实现大模型高效微调 | 1. 大模型下游任务适配(分类、生成、翻译等) 2. 资源受限场景的微调需求 | 1. 冻结主模型权重,参数量减少90%以上 2. 训练速度快,显存占用低 | 1. 仅针对注意力层优化,部分任务效果不如全量微调 2. 需调整秩(rank)等超参数 |
| P-tuning(提示微调) | 优化连续prompt向量,适配下游任务 | 1. 小样本/低资源下游任务 2. 多任务统一建模场景 | 1. 无需调整模型主体权重,迁移成本低 2. 适合任务间快速切换 | 1. prompt初始化对效果影响大 2. 复杂任务效果可能不及LoRA |
二、模型微调技巧 适用场景对比表
| 技术名称 | 核心目标 | 适用场景 | 核心优势 | 注意事项 |
|---|---|---|---|---|
| EMA(指数移动平均) | 平滑模型权重,提升泛化能力 | 1. 各类深度学习模型微调(CV/NLP) 2. 缓解训练不稳定、过拟合问题 | 1. 影子权重更鲁棒,测试集效果更稳定 2. 无需额外增加训练参数 | 1. 需设置合适的衰减系数(通常0.999) 2. 推理时需切换为EMA权重 |
| FGM(快速梯度方法) | 构造对抗样本,增强模型鲁棒性 | 1. 对抗攻击风险高的场景(如风控、安全检测) 2. 提升模型对噪声输入的容忍度 | 1. 训练成本低,仅需额外一次梯度计算 2. 显著增强模型抗干扰能力 | 1. 扰动幅度需精细调整,过大易导致训练崩溃 2. 部分任务可能出现精度小幅下降 |
| SWA(随机权重平均) | 融合多迭代权重,优化模型泛化性能 | 1. 小数据集微调场景 2. 复杂模型(如大模型、CNN)的精度提升 | 1. 相比单权重模型,泛化能力提升明显 2. 实现简单,无需修改模型结构 | 1. 需在训练后期(学习率降低后)收集权重 2. 会增加一定的显存占用(存储多份权重) |
| R-Dropout(正则化Dropout) | 约束同一样本的输出一致性,降低不确定性 | 1. 解决传统Dropout训练/推理差异问题 2. 分类、生成等任务的精度提升 | 1. 增强模型预测稳定性 2. 兼容各类使用Dropout的模型 | 1. 需引入KL散度损失,增加训练计算量 2. 损失权重需合理设置,避免过约束 |