常见的微调的方式有哪些？（Lora...）-编程实验室

1.LoRA(Low-Rank Adaptation)

核心思想: 不修改原始权重，旁路添加低秩矩阵

┌─────────────────────────────────┐
│ 原始Linear层 (W: 4096×4096) │
│ ❄️ 冻结不训练 │
│ ↓ x │
│ W·x (输出) │
└─────────────────────────────────┘
+ (相加)
┌─────────────────────────────────┐
│ LoRA旁路 │
│ x → A(8×4096) → B(4096×8) │
│ 🔥 只训练这两个矩阵 │
│ ↓ │
│ B·A·x (输出) │
└─────────────────────────────────┘

2.Prompt Tuning

核心思想: 在输入序列前添加可学习的"软提示词"

原始输入:
[The, movie, is, great] → Encoder → 输出

Prompt Tuning:
[P1, P2, P3, ..., Pk, The, movie, is, great] → Encoder → 输出
↑____________↑
可学习的soft prompts
(只训练这些)

具体做法:

模型权重全部冻结
只在输入前添加 k 个可学习的embedding向量 (比如20个)
只训练这20个向量
参数量: 极少 (20 × 768维 ≈ 15K参数)

输入层:
┌──────────────────────────────────────┐
│ [🔥P₁] [🔥P₂] [🔥P₃] ... [🔥Pₖ] │ ← 可训练的prompt embeddings
│ [❄️The] [❄️movie] [❄️is] [❄️great] │ ← 真实输入(正常处理)
└──────────────────────────────────────┘
↓
❄️ Transformer层 (冻结)
↓
输出

3.Adapter

核心思想: 在Transformer层之间插入小型瓶颈网络

原始Transformer块: Input → Self-Attention → Add&Norm → FFN → Add&Norm → Output 加入Adapter后: Input → Self-Attention → Add&Norm → [🔥Adapter] → FFN → Add&Norm → [🔥Adapter] → Output ↑ ↑ 新插入的模块 新插入的模块

具体做法:

Transformer层冻结
在每层后插入Adapter模块
只训练Adapter参数
参数量: 1-3% (取决于bottleneck大小)

4.IA3(Infused Adapter by Inhibiting and Amplifying Inner Activations)【基本不用】

核心思想: 用可学习的缩放向量调整激活值

原始: h = W·x IA3: h = (W · diag(l)) · x = W · (l ⊙ x) ↑ ↑ 可学习的缩放向量 逐元素相乘

具体做法:

权重矩阵W冻结
只学习一个缩放向量l(长度等于输入维度)
将输入x逐元素乘以l，然后再乘以W
参数量: 极少 (每层只有一个向量, 比如768个参数)

可视化:

对于 K、V、FFN 的投影: 输入 x (768维) ↓ x ⊙ l_k (逐元素相乘) ← 🔥 l_k是768维可训练向量 ↓ ❄️ W_k · (缩放后的x) ← W_k冻结 ↓ 输出

5.Full FT(Full Fine-Tuning / 全量微调)

核心思想: 所有参数都训练

预训练模型的所有参数 → 🔥全部解冻 → 在下游任务上训练

具体做法:

加载预训练权重
所有层的所有参数都设为可训练
在目标数据集上重新训练
参数量: 100%

6.固定Encoder(Feature Extraction)

核心思想: 把预训练模型当特征提取器，只训练新加的分类头

输入 → ❄️Encoder(冻结) → 特征 → 🔥分类头(新建+训练) → 输出

具体做法:

Encoder所有层冻结
去掉原来的输出层，加一个新的（比如线性层）
只训练这个新的分类头
参数量: <1% (只有分类头)

https://mp.weixin.qq.com/s/aAIuZ8LH3flnxNLtlP6d0w

企业级情感分析方案：StructBERT部署优化实战案例

企业级情感分析方案：StructBERT部署优化实战案例 1. 中文情感分析的业务价值与技术挑战在当前以用户为中心的数字服务生态中，中文情感分析已成为企业洞察客户情绪、优化产品体验和提升服务质量的关键技术手段。无论是电商平台的用户评论、社交媒体的品…

李华

中文情感分析实战：StructBERT模型指南

中文情感分析实战：StructBERT模型指南 1. 引言：中文情感分析的现实价值在社交媒体、电商评论、客服对话等场景中，海量的中文文本数据每天都在产生。如何从中快速识别用户情绪倾向，成为企业洞察用户需求、优化产品服务的关键能力…

李华

StructBERT模型训练：提升特定任务准确率方法

StructBERT模型训练：提升特定任务准确率方法 1. 中文情感分析的技术挑战与需求背景在自然语言处理（NLP）领域，中文情感分析是企业级应用中高频且关键的任务之一。无论是电商平台的用户评论挖掘、社交媒体舆情监控，还…

李华

AI智能体医疗问诊测试：合规云端GPU，3步部署Demo

AI智能体医疗问诊测试：合规云端GPU，3步部署Demo 引言：为什么医疗团队需要合规AI问诊方案在医疗健康领域，AI智能体正在改变传统的问诊方式。想象一下，一个能24小时在线、快速响应患者咨询的"数字医生助手"…

李华

AI智能体联邦学习：云端协作训练，保护数据隐私不泄露

AI智能体联邦学习：云端协作训练，保护数据隐私不泄露 1. 引言：当医疗数据遇上AI训练难题想象一下，全国各地的医院都想用AI辅助诊断疾病，但每家医院的数据都像锁在保险箱里的珍宝——既想共享数据训练出更强大的AI模型…

李华

AXT 发行股票募集资金 1 亿美元

AXT 完成 1 亿美元融资，用于扩产磷化铟衬底化合物半导体衬底制造商 AXT 已完成了一次由承销商负责的公开发售。本次发行共出售了 8,163,265 股普通股，发行价格为每股 12.25 美元。该数字包括了承销商全额行使购买额外 1,064,773 股普通股的选择权。公司在…

李华