news 2026/5/1 5:07:35

大模型开发工程师招聘中经常提到的技术名词

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型开发工程师招聘中经常提到的技术名词

大模型开发工程师招聘中经常提到的技术名词,按预训练任务/参数高效微调技术模型微调技巧两类整理,方便理解和记忆:

一、 预训练任务/参数高效微调技术

  1. MLM(Masked Language Model,掩码语言模型)
    • 定义:一种自监督预训练任务,核心是随机掩盖输入文本中的部分 token(单词/子词),让模型预测被掩盖的内容。
    • 核心用途:是 BERT 系列模型的核心预训练方式,能让模型学习到文本的上下文语义信息,适用于分类、命名实体识别等下游任务。
  2. CLM(Causal Language Model,因果语言模型)
    • 定义:自监督预训练任务的一种,模型基于前文内容,逐词预测下一个可能出现的 token,遵循因果关系(只能看到前文,无法看到后文)。
    • 核心用途:是 GPT 系列模型的核心预训练方式,擅长生成类任务,比如文本续写、对话生成。
  3. LoRA(Low-Rank Adaptation,低秩适应)
    • 定义:参数高效微调(PEFT)技术的代表,冻结预训练大模型的大部分权重,仅在模型的注意力层插入少量可训练的低秩矩阵。
    • 核心用途:大幅减少微调时的参数量和计算资源消耗,同时保证微调效果,是大模型落地微调的主流方案。
  4. P-tuning(Prompt Tuning,提示微调)
    • 定义:另一种主流的参数高效微调技术,将人工设计的离散 prompt 转化为可训练的连续向量(即 prompt embedding),并融入模型输入层。
    • 核心用途:无需调整模型主体权重,仅优化 prompt 向量,适配不同下游任务,尤其适合小样本场景。

二、 模型微调技巧(正则化/优化策略)

  1. EMA(Exponential Moving Average,指数移动平均)
    • 定义:一种模型权重平滑策略,在训练过程中维护一个“影子权重”,该权重是历史训练权重的指数加权平均,而非直接使用当前迭代的权重。
    • 核心用途:提升模型的泛化能力和稳定性,缓解模型过拟合,训练完成后通常用影子权重作为最终模型权重。
  2. FGM(Fast Gradient Method,快速梯度方法)
    • 定义:一种对抗训练技巧,通过对模型的嵌入层参数添加微小的梯度方向扰动,构造对抗样本,让模型在扰动样本上继续训练。
    • 核心用途:增强模型的鲁棒性,使其在面对噪声输入或对抗攻击时,仍能保持稳定的性能。
  3. SWA(Stochastic Weight Averaging,随机权重平均)
    • 定义:在模型训练的后期(通常是学习率降低后),收集多个不同迭代步的模型权重,对其进行平均得到最终权重。
    • 核心用途:相比单一权重模型,SWA 能显著提升模型的泛化能力,尤其在小数据集或复杂任务上效果明显。
  4. R-Dropout(Regularized Dropout,正则化 Dropout)
    • 定义:一种改进的 Dropout 正则化方法,对同一样本进行两次不同的 Dropout 前向传播,通过约束两次输出的 KL 散度,减少模型的不确定性。
    • 核心用途:缓解传统 Dropout 训练和推理阶段的差异问题,提升模型的预测稳定性和精度。

一、预训练任务与参数高效微调技术 适用场景对比表

技术名称核心目标适用场景核心优势注意事项
MLM(掩码语言模型)让模型学习文本上下文语义关联1. 自然语言理解任务(分类、NER、语义匹配)
2. BERT系列模型预训练
1. 双向上下文信息捕捉能力强
2. 下游理解任务效果优异
1. 不适合生成类任务
2. 训练时需处理掩码token的预测逻辑
CLM(因果语言模型)让模型学习基于前文的文本生成逻辑1. 自然语言生成任务(续写、对话、摘要)
2. GPT系列模型预训练
1. 单向上下文建模,贴合生成任务逻辑
2. 生成文本流畅度高
1. 无法利用后文信息,理解任务效果弱于MLM
2. 易出现文本重复生成问题
LoRA(低秩适应)以少量参数实现大模型高效微调1. 大模型下游任务适配(分类、生成、翻译等)
2. 资源受限场景的微调需求
1. 冻结主模型权重,参数量减少90%以上
2. 训练速度快,显存占用低
1. 仅针对注意力层优化,部分任务效果不如全量微调
2. 需调整秩(rank)等超参数
P-tuning(提示微调)优化连续prompt向量,适配下游任务1. 小样本/低资源下游任务
2. 多任务统一建模场景
1. 无需调整模型主体权重,迁移成本低
2. 适合任务间快速切换
1. prompt初始化对效果影响大
2. 复杂任务效果可能不及LoRA

二、模型微调技巧 适用场景对比表

技术名称核心目标适用场景核心优势注意事项
EMA(指数移动平均)平滑模型权重,提升泛化能力1. 各类深度学习模型微调(CV/NLP)
2. 缓解训练不稳定、过拟合问题
1. 影子权重更鲁棒,测试集效果更稳定
2. 无需额外增加训练参数
1. 需设置合适的衰减系数(通常0.999)
2. 推理时需切换为EMA权重
FGM(快速梯度方法)构造对抗样本,增强模型鲁棒性1. 对抗攻击风险高的场景(如风控、安全检测)
2. 提升模型对噪声输入的容忍度
1. 训练成本低,仅需额外一次梯度计算
2. 显著增强模型抗干扰能力
1. 扰动幅度需精细调整,过大易导致训练崩溃
2. 部分任务可能出现精度小幅下降
SWA(随机权重平均)融合多迭代权重,优化模型泛化性能1. 小数据集微调场景
2. 复杂模型(如大模型、CNN)的精度提升
1. 相比单权重模型,泛化能力提升明显
2. 实现简单,无需修改模型结构
1. 需在训练后期(学习率降低后)收集权重
2. 会增加一定的显存占用(存储多份权重)
R-Dropout(正则化Dropout)约束同一样本的输出一致性,降低不确定性1. 解决传统Dropout训练/推理差异问题
2. 分类、生成等任务的精度提升
1. 增强模型预测稳定性
2. 兼容各类使用Dropout的模型
1. 需引入KL散度损失,增加训练计算量
2. 损失权重需合理设置,避免过约束

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 8:37:38

UI-TARS-desktop实战:自动化测试脚本开发指南

UI-TARS-desktop实战:自动化测试脚本开发指南 1. UI-TARS-desktop简介 1.1 Agent TARS 核心定位与能力 Agent TARS 是一个开源的多模态 AI Agent 框架,致力于通过融合视觉理解(Vision)、图形用户界面操作(GUI Agent…

作者头像 李华
网站建设 2026/4/27 6:02:39

Unsloth新手指南:零基础手把手教学,云端GPU轻松体验

Unsloth新手指南:零基础手把手教学,云端GPU轻松体验 你是不是也和我一样,刚转行AI不久,听说大模型微调是进阶必经之路?朋友推荐用 Unsloth 来做高效微调,说它速度快、省显存、效果好。可当你兴冲冲地打开终…

作者头像 李华
网站建设 2026/5/1 7:18:18

WeChatMsg微信聊天记录导出工具:从入门到精通的完整指南

WeChatMsg微信聊天记录导出工具:从入门到精通的完整指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeC…

作者头像 李华
网站建设 2026/5/1 4:02:54

FSMN-VAD助力语音唤醒系统快速落地

FSMN-VAD助力语音唤醒系统快速落地 1. 引言:语音端点检测在唤醒系统中的关键作用 在智能语音交互系统中,语音唤醒(Wake-up Word Detection) 是用户与设备建立连接的第一步。然而,在真实使用场景中,环境噪…

作者头像 李华
网站建设 2026/4/30 22:18:25

vivado卸载系统学习:构建清晰的卸载认知路径

Vivado卸载实战指南:从清理残留到环境重建的完整路径你有没有遇到过这种情况?想升级到新版Vivado,安装程序却弹出提示:“检测到旧版本,请先卸载”。可你明明已经在“控制面板”里删过了——这说明什么?卸载…

作者头像 李华