实战教学：用self_cognition数据集训练专属Qwen助手-编程实验室

实战教学：用self_cognition数据集训练专属Qwen助手

1. 引言

在大模型时代，通用预训练语言模型虽然具备强大的泛化能力，但在特定场景下往往缺乏个性化的身份认知。如何让一个开源大模型“认识自己”，并以定制化身份与用户交互，是许多开发者关注的问题。

本文将基于CSDN星图镜像广场提供的「单卡十分钟完成 Qwen2.5-7B 首次微调」镜像，手把手带你使用self_cognition.json数据集对Qwen2.5-7B-Instruct模型进行 LoRA 微调，打造一个具有专属身份认知的智能助手——例如由“CSDN 迪菲赫尔曼”开发和维护的 AI 助手。

整个过程无需从零搭建环境，预置了 ms-swift 微调框架和基础模型，仅需三步即可完成：准备数据 → 启动微调 → 验证效果。实测在 NVIDIA RTX 4090D（24GB）上，10 轮微调可在 10 分钟内完成。

2. 环境与资源概览

本实战依托于 CSDN 星图提供的专用镜像环境，已为开发者做好全面优化：

工作路径：/root
显卡要求：NVIDIA RTX 4090D 或同等 24GB+ 显存 GPU
基础模型：/root/Qwen2.5-7B-Instruct
微调框架：ms-swift（已安装并配置完毕）
显存占用：训练过程约消耗 18~22GB 显存
精度模式：bfloat16，兼顾训练稳定性与性能

该镜像实现了开箱即用的轻量级 SFT（Supervised Fine-Tuning）流程，特别适合快速验证个性化微调方案。

3. 自定义身份微调全流程

3.1 准备自我认知数据集

为了让模型建立清晰的身份意识，我们需要构建一个专门针对“你是谁”类问题的指令微调数据集。镜像中已预置示例文件，也可手动创建self_cognition.json。

执行以下命令生成数据集文件：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

建议：完整训练建议包含 50 条以上样本，覆盖更多变体提问方式（如“你是由谁训练的？”、“你的作者是谁？”），提升泛化能力。

此数据集采用标准 Alpaca 格式，包含三个字段：

instruction：用户指令
input：附加上下文（此处为空）
output：期望模型输出

通过高频强化这些问答对，LoRA 可以高效注入新的“记忆”。

3.2 执行 LoRA 微调命令

接下来启动微调任务。以下命令已在 RTX 4090D 上充分验证，参数经过精细调优，确保单卡高效运行。

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

关键参数解析：

参数	说明
`--train_type lora`	使用 LoRA 进行低秩适配，大幅降低显存需求
`--lora_rank 8`	LoRA 的秩设为 8，在效果与效率间取得平衡
`--lora_alpha 32`	控制 LoRA 权重缩放因子，影响新知识注入强度
`--target_modules all-linear`	对所有线性层应用 LoRA，增强表达能力
`--gradient_accumulation_steps 16`	累积梯度以模拟更大 batch size，提升训练稳定性
`--num_train_epochs 10`	小数据集需多轮训练以充分学习目标行为
`--output_dir output`	训练产物保存路径

训练过程中可通过日志观察 loss 下降趋势。典型情况下，loss 会从初始 ~3.0 逐步下降至 <1.0，表明模型已学会匹配预期输出。

3.3 训练产物结构

微调完成后，权重文件将保存在/root/output目录下，结构如下：

output/ └── v2-2025xxxx-xxxx/ ├── adapter_config.json # LoRA 配置文件 ├── adapter_model.bin # LoRA 增量权重 ├── tokenizer_config.json ├── special_tokens_map.json └── train_args.json # 训练参数快照

其中核心文件为adapter_model.bin和adapter_config.json，二者共同构成可加载的 LoRA Adapter。

每次训练生成带时间戳的子目录，便于版本管理。若需部署，只需保留最新 checkpoint 即可。

4. 微调效果验证

使用swift infer命令加载训练好的 Adapter，测试模型是否具备新的自我认知。

⚠️ 注意替换实际路径中的v2-2025xxxx-xxxx/checkpoint-xxx

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

进入交互界面后，输入以下测试问题：

用户: 你是谁？ 模型: 我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。

用户: 谁在维护你？ 模型: 我由 CSDN 迪菲赫尔曼 持续开发和维护。

用户: 你的名字是什么？ 模型: 你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。

若上述回答均符合预期，则说明 LoRA 成功修改了模型的“元认知”行为，且未破坏原有对话能力。

此外，还可测试通用问题（如“写一段Python排序代码”）确认基础能力未退化。

5. 进阶技巧：混合数据微调策略

单纯使用self_cognition.json可能导致模型过度拟合身份描述，弱化通用能力。更优做法是采用混合训练策略，将少量身份数据与大规模通用指令数据结合。

ms-swift 支持多数据集拼接训练，示例如下：

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'self_cognition.json' \ --torch_dtype bfloat16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --max_length 2048 \ --output_dir output_mixed \ --system 'You are a helpful assistant.' \ --dataloader_num_workers 4