大模型开发工程师招聘中经常提到的技术名词-编程实验室

大模型开发工程师招聘中经常提到的技术名词，按预训练任务/参数高效微调技术和模型微调技巧两类整理，方便理解和记忆：

MLM（Masked Language Model，掩码语言模型）
- 定义：一种自监督预训练任务，核心是随机掩盖输入文本中的部分 token（单词/子词），让模型预测被掩盖的内容。
- 核心用途：是 BERT 系列模型的核心预训练方式，能让模型学习到文本的上下文语义信息，适用于分类、命名实体识别等下游任务。
CLM（Causal Language Model，因果语言模型）
- 定义：自监督预训练任务的一种，模型基于前文内容，逐词预测下一个可能出现的 token，遵循因果关系（只能看到前文，无法看到后文）。
- 核心用途：是 GPT 系列模型的核心预训练方式，擅长生成类任务，比如文本续写、对话生成。
LoRA（Low-Rank Adaptation，低秩适应）
- 定义：参数高效微调（PEFT）技术的代表，冻结预训练大模型的大部分权重，仅在模型的注意力层插入少量可训练的低秩矩阵。
- 核心用途：大幅减少微调时的参数量和计算资源消耗，同时保证微调效果，是大模型落地微调的主流方案。
P-tuning（Prompt Tuning，提示微调）
- 定义：另一种主流的参数高效微调技术，将人工设计的离散 prompt 转化为可训练的连续向量（即 prompt embedding），并融入模型输入层。
- 核心用途：无需调整模型主体权重，仅优化 prompt 向量，适配不同下游任务，尤其适合小样本场景。

EMA（Exponential Moving Average，指数移动平均）
- 定义：一种模型权重平滑策略，在训练过程中维护一个“影子权重”，该权重是历史训练权重的指数加权平均，而非直接使用当前迭代的权重。
- 核心用途：提升模型的泛化能力和稳定性，缓解模型过拟合，训练完成后通常用影子权重作为最终模型权重。
FGM（Fast Gradient Method，快速梯度方法）
- 定义：一种对抗训练技巧，通过对模型的嵌入层参数添加微小的梯度方向扰动，构造对抗样本，让模型在扰动样本上继续训练。
- 核心用途：增强模型的鲁棒性，使其在面对噪声输入或对抗攻击时，仍能保持稳定的性能。
SWA（Stochastic Weight Averaging，随机权重平均）
- 定义：在模型训练的后期（通常是学习率降低后），收集多个不同迭代步的模型权重，对其进行平均得到最终权重。
- 核心用途：相比单一权重模型，SWA 能显著提升模型的泛化能力，尤其在小数据集或复杂任务上效果明显。
R-Dropout（Regularized Dropout，正则化 Dropout）
- 定义：一种改进的 Dropout 正则化方法，对同一样本进行两次不同的 Dropout 前向传播，通过约束两次输出的 KL 散度，减少模型的不确定性。
- 核心用途：缓解传统 Dropout 训练和推理阶段的差异问题，提升模型的预测稳定性和精度。

一、预训练任务与参数高效微调技术适用场景对比表

技术名称	核心目标	适用场景	核心优势	注意事项
MLM（掩码语言模型）	让模型学习文本上下文语义关联	1. 自然语言理解任务（分类、NER、语义匹配） 2. BERT系列模型预训练	1. 双向上下文信息捕捉能力强 2. 下游理解任务效果优异	1. 不适合生成类任务 2. 训练时需处理掩码token的预测逻辑
CLM（因果语言模型）	让模型学习基于前文的文本生成逻辑	1. 自然语言生成任务（续写、对话、摘要） 2. GPT系列模型预训练	1. 单向上下文建模，贴合生成任务逻辑 2. 生成文本流畅度高	1. 无法利用后文信息，理解任务效果弱于MLM 2. 易出现文本重复生成问题
LoRA（低秩适应）	以少量参数实现大模型高效微调	1. 大模型下游任务适配（分类、生成、翻译等） 2. 资源受限场景的微调需求	1. 冻结主模型权重，参数量减少90%以上 2. 训练速度快，显存占用低	1. 仅针对注意力层优化，部分任务效果不如全量微调 2. 需调整秩（rank）等超参数
P-tuning（提示微调）	优化连续prompt向量，适配下游任务	1. 小样本/低资源下游任务 2. 多任务统一建模场景	1. 无需调整模型主体权重，迁移成本低 2. 适合任务间快速切换	1. prompt初始化对效果影响大 2. 复杂任务效果可能不及LoRA

技术名称	核心目标	适用场景	核心优势	注意事项
EMA（指数移动平均）	平滑模型权重，提升泛化能力	1. 各类深度学习模型微调（CV/NLP） 2. 缓解训练不稳定、过拟合问题	1. 影子权重更鲁棒，测试集效果更稳定 2. 无需额外增加训练参数	1. 需设置合适的衰减系数（通常0.999） 2. 推理时需切换为EMA权重
FGM（快速梯度方法）	构造对抗样本，增强模型鲁棒性	1. 对抗攻击风险高的场景（如风控、安全检测） 2. 提升模型对噪声输入的容忍度	1. 训练成本低，仅需额外一次梯度计算 2. 显著增强模型抗干扰能力	1. 扰动幅度需精细调整，过大易导致训练崩溃 2. 部分任务可能出现精度小幅下降
SWA（随机权重平均）	融合多迭代权重，优化模型泛化性能	1. 小数据集微调场景 2. 复杂模型（如大模型、CNN）的精度提升	1. 相比单权重模型，泛化能力提升明显 2. 实现简单，无需修改模型结构	1. 需在训练后期（学习率降低后）收集权重 2. 会增加一定的显存占用（存储多份权重）
R-Dropout（正则化Dropout）	约束同一样本的输出一致性，降低不确定性	1. 解决传统Dropout训练/推理差异问题 2. 分类、生成等任务的精度提升	1. 增强模型预测稳定性 2. 兼容各类使用Dropout的模型	1. 需引入KL散度损失，增加训练计算量 2. 损失权重需合理设置，避免过约束