手把手教你用ms-swift微调Qwen2.5-7B，只需三步就搞定-编程实验室

手把手教你用ms-swift微调Qwen2.5-7B，只需三步就搞定

在大模型时代，微调已成为定制化AI能力的核心手段。然而，全量微调成本高昂，对硬件要求极高。LoRA（Low-Rank Adaptation）作为一种高效参数微调技术，能够在保持原始模型性能的同时，显著降低显存占用和训练开销。

本文将基于预置ms-swift框架与Qwen2.5-7B-Instruct模型的专用镜像环境，手把手带你完成一次轻量级指令微调实战。整个过程仅需三步：准备数据、执行微调、验证效果，单卡RTX 4090D环境下十分钟内即可完成首次微调实验。

1. 环境概览与前置准备

1.1 镜像环境说明

本镜像为开发者提供了一个“开箱即用”的微调环境，已预装以下核心组件：

基础模型：Qwen2.5-7B-Instruct（路径：/root/Qwen2.5-7B-Instruct）
微调框架：ms-swift（支持LoRA、全量微调等多种模式）
默认工作目录：/root
推荐显卡配置：NVIDIA RTX 4090D 或同等 24GB+ 显存GPU
显存占用：微调过程中约消耗 18~22GB 显存

该环境专为单卡LoRA微调优化，适合快速验证想法、构建原型系统或进行小规模定制训练。

1.2 启动容器并进入工作空间

使用镜像启动容器后，自动进入/root目录。建议所有操作均在此目录下执行，避免路径错误。

# 示例：Docker方式启动（若本地运行） docker run -it --gpus all --name qwen-lora your-mirror-image:latest /bin/bash

确认当前路径：

pwd # 应输出 /root

2. 三步实现LoRA微调

我们以“修改模型自我认知”为例，将其从“我是阿里云开发的……”更改为“我由CSDN迪菲赫尔曼开发和维护”，展示完整微调流程。

2.1 第一步：准备自定义数据集

LoRA微调依赖高质量的小样本数据。我们在/root下创建一个名为self_cognition.json的JSON文件，包含关于身份认知的问答对。

执行以下命令生成数据集：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

提示：实际应用中建议构造50条以上样本，并覆盖多种问法，提升泛化能力。

2.2 第二步：执行LoRA微调命令

接下来使用swift sft命令启动监督微调（Supervised Fine-Tuning, SFT）。以下是针对单卡4090D优化的完整参数配置：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

参数解析：

参数	说明
`--train_type lora`	使用LoRA进行低秩适配，大幅减少可训练参数量
`--lora_rank 8`,`--lora_alpha 32`	控制LoRA矩阵的秩与缩放系数，影响拟合能力和过拟合风险
`--target_modules all-linear`	将LoRA注入所有线性层，增强表达力
`--gradient_accumulation_steps 16`	在batch size受限时累积梯度，模拟更大批次
`--torch_dtype bfloat16`	使用bfloat16混合精度，节省显存且不影响收敛性
`--num_train_epochs 10`	因数据量少，增加训练轮数强化记忆

训练完成后，权重保存在/root/output目录下，结构如下：

output/ └── v2-2025xxxx-xxxx/ ├── checkpoint-xxx/ │ ├── adapter_model.bin │ └── configuration.json └── logging.json

2.3 第三步：验证微调效果

使用swift infer加载训练好的LoRA权重，测试模型输出是否发生变化。

请根据实际生成的路径替换checkpoint-xxx：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

启动后输入测试问题：

用户: 你是谁？ 模型: 我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。

如果返回结果符合预期，则说明微调成功！

3. 进阶技巧与最佳实践

3.1 混合数据训练（保持通用能力）

单纯使用少量身份数据可能导致模型“遗忘”原有知识。推荐采用混合训练策略，在注入新知识的同时保留通用能力。

示例命令如下：

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'self_cognition.json' \ --torch_dtype bfloat16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 8 \ --max_length 2048 \ --output_dir output_mixed \ --system 'You are a helpful assistant.'

说明：通过#500指定每个开源数据集采样500条，控制总训练量平衡。

3.2 LoRA参数调优建议

场景	推荐设置
轻量身份/角色注入	`rank=8`,`alpha=16~32`
复杂任务适配（如代码生成）	`rank=64`,`alpha=128`
显存紧张	`rank=4`,`alpha=16`，或改用`q-lora`
防止过拟合	减少`epochs`，增加`dropout`，使用早停机制