轻松上手 Qwen2.5-7B 指令微调，小白也能行-编程实验室

轻松上手 Qwen2.5-7B 指令微调，小白也能行

1. 引言：为什么你需要关注这次微调？

你有没有想过，让一个大模型“认”你是它的开发者？听起来很酷，对吧？其实这并不需要多么高深的技术。今天，我们就来手把手教你如何在十分钟内，用一块消费级显卡完成Qwen2.5-7B模型的指令微调（SFT），让它从“我是阿里云开发的”变成“我由 CSDN 迪菲赫尔曼开发和维护”。

这不仅仅是一个技术演示，它代表了当前大模型应用落地的一个重要趋势——低成本、高效率的个性化定制。通过 LoRA（低秩适应）这种参数高效微调（PEFT）技术，我们可以在不改变原始模型主体的情况下，仅训练少量新增参数，就能让模型学会新的知识或行为模式。

本文将基于一个预置了Qwen2.5-7B-Instruct模型和ms-swift微调框架的镜像环境，带你从零开始，快速完成一次完整的微调实践。整个过程简单直接，即使你是 AI 领域的新手，也能轻松跟上。

2. 环境准备与快速验证

2.1 环境概览

在开始之前，先了解一下我们的工作环境。这个镜像已经为你准备好了一切，你只需要专注于微调本身。

基础模型：Qwen2.5-7B-Instruct，一个拥有 70 亿参数的强大语言模型。
微调框架：ms-swift，一个轻量级、高效的微调工具，开箱即用。
硬件要求：推荐使用NVIDIA RTX 4090D (24GB)或同等显存的显卡。微调过程大约占用 18GB~22GB 显存。
工作路径：所有操作都在/root目录下进行。

2.2 验证原始模型性能

在动手修改模型之前，先看看它原本的表现。这一步非常重要，它能帮助你确认环境是否正常，并为后续的微调效果提供对比基准。

执行以下命令，启动模型推理：

cd /root CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048

运行后，你会进入一个对话界面。试着问它：“你是谁？” 正常情况下，它会回答类似“我是阿里云开发的...”这样的内容。记下这个回答，等会儿我们要让它彻底改口。

3. 自定义身份微调实战

现在，重头戏来了！我们将通过一个简单的数据集，教会模型一个新的“自我认知”。

3.1 准备你的专属数据集

微调的核心是数据。我们需要告诉模型，在特定问题下，它应该给出什么样的回答。这里，我们创建一个名为self_cognition.json的文件，里面包含了关于“你是谁”、“谁开发的你”这类问题的标准答案。

如果你的环境中还没有这个文件，可以直接运行下面的命令生成：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

小贴士：为了获得更好的微调效果，建议准备 50 条以上的高质量数据。这里的示例仅为演示目的。

3.2 执行微调命令

一切就绪，现在启动微调！这条命令看起来有点长，但别担心，我们来逐个解析关键参数：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

--train_type lora：指定使用 LoRA 技术进行微调，这是节省显存的关键。
--dataset self_cognition.json：指明我们刚刚创建的数据集文件。
--num_train_epochs 10：由于我们的数据量较小，增加训练轮数以强化记忆。
--per_device_train_batch_size 1和--gradient_accumulation_steps 16：单卡 batch size 设为 1，通过梯度累积 16 步来模拟更大的 batch size，既稳定又省显存。
--output_dir output：微调后的权重文件将保存在此目录。

执行这条命令后，你就可以去喝杯咖啡了。根据硬件配置，整个过程大约需要 10 分钟左右。

3.3 查看训练产物

微调完成后，你会在/root/output目录下看到一个或多个以时间戳命名的文件夹，例如output/v2-2025xxxx-xxxx/checkpoint-xx。这些文件夹里存放的就是我们训练好的 LoRA 适配器（Adapter）权重。

4. 效果验证：见证“变身”时刻

理论讲得再多，不如亲眼看看效果。现在，让我们加载微调后的权重，测试一下模型的新“人格”。

注意：请将下方命令中的output/vx-xxx/checkpoint-xx替换为你实际生成的目录路径。

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

再次提问：“你是谁？”

如果一切顺利，你应该会听到一个全新的回答：“我是一个由 CSDN 迪菲赫尔曼开发和维护的大语言模型。” 恭喜你，成功完成了第一次大模型微调！

5. 进阶技巧：混合数据微调

上面的例子只改变了模型的“自我认知”。但在实际应用中，我们往往希望模型在掌握新知识的同时，不丢失原有的通用能力。

这时，可以采用混合数据微调的策略。比如，我们可以将自定义的身份数据集与开源的通用指令数据集（如alpaca-gpt4-data）结合起来进行训练：

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'self_cognition.json' \ --torch_dtype bfloat16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --output_dir output_mixed \ # 其他参数保持不变...

在这个例子中：