当前大模型研发进入“提速增效”的关键阶段,训练流程的简洁度直接影响模型的迭代频率。传统Megatron训练架构下,开发者需要先离线将HuggingFace转换为Megatron格式,再手动预处理原始数据集,步骤冗余且易出错,不仅增加了开发周期,更易因流程疏漏导致算力资源的无效损耗。MindSpeed LLM 始终致力于构建“易用高效”的昇腾训练生态,针对上述挑战推出 「数据/权重在线加载训练(Train_from_HF)」 功能。该功能深度集成“自动权重转换”与“在线数据处理”技术,单脚本即可启动全流程训练,彻底打破预处理、转换、训练之间的技术壁垒,显著提升大模型训练效率。
MindSpeed LLM推出Train_from_HF功能
下图以共享存储环境为例:
原始方案痛点:权重转换、数据处理与训练流程割裂
权重转换、数据处理与训练流程割裂,脚本之间独立维护,常出现路径或并行配置不一致问题,重复转换造成时间和资源浪费。
权重转换、数据在线加载训练:参数复用、配置一致
直接复用训练脚本的args参数,避免路径或并行配置不一致问题。权重转换、数据处理逻辑前置到训练初始化阶段(initialize_megatron_wrapper),流程自动化、无缝衔接。
高效集成权重转换与数据预处理
相比原有流程, Train_from_HF功能具有以下核心优势:
权重转换:自动识别,双向互转
新功能支持HuggingFace与Megatron格式权重双向自动转换,全程无需额外命令。通过config.json文件推断模型类型,仅mamba2等特殊模型需手动配置,实现“加载即转换,转换即训练”。
在训练初始化时,MindSpeed LLM会自动检测加载目录中的权重文件(如 .safetensors 或 .bin 文件),无需显式设置转换标志,自动将HuggingFace权重转为Megatron格式用于训练;训练过程中每次保存分布式权重后,会自动转回HuggingFace格式,兼顾训练效率与后续复用需求。
数据预处理:自动转换,多格式兼容
针对原始数据集格式杂乱的问题,新功能实现了对多种原始数据格式的深度兼容,不需要再手动转换为Megatron支持的 .bin/.idx 格式。
在启动训练时,通过--data-path参数指定原始数据集路径,系统就会在训练初始化阶段自动识别数据格式,完成预处理转换,无需单独运行数据处理脚本。
配置原始文件路径或已转换好的数据集前缀,新功能都可以自动识别,同时支持线程数调整、pack模式等灵活配置。
极简操作:单脚本启动,参数灵活适配
新功能只需单脚本就能串联起“权重转换-数据预处理-模型训练”全流程,并针对不同训练场景提供了多样化的参数配置方案:无论是从 HuggingFace 加载权重直接训练、开启双向权重转换、仅转换最终模型权重,还是自定义数据处理规则,通过参数配置即可实现,兼顾通用性与针对性,适配预训练、微调等多种使用场景。
广泛适配:覆盖多场景,兼容多模型多格式
模型兼容:支持Qwen3、Qwen3-MoE、DeepSeek-V3、GLM4.5-MoE等多种主流HuggingFace模型;
格式兼容:数据集支持parquet、arrow、csv、json等多种原始格式,权重支持 .safetensors、mamba 模型 .bin等格式,无需额外格式转换;
场景兼容:支持单机/共享存储环境,适配预训练、微调等多种训练场景,暂不支持LoRA/QLoRA微调后权重转换。
快速上手:Qwen3-8B微调实战指南
开发者仅需在原有训练脚本中增加少量核心参数,便能同时开启权重转换和数据预处理,解锁一键式训练体验。
以Qwen3-8B模型微调为例,仅需添加如下参数:
bashDATA_PATH="/path/your_dataset/xxx.parquet"CKPT_LOAD_DIR="/path/to/huggingface_model/Qwen3-8B"--data-path DATA_PATH \--load CKPT_LOAD_DIR \--enable-hf2mg-convert \--model-type-hf qwen3 \--handler-name AlpacaStyleInstructionHandler \--prompt-type qwen3 \
通过上述配置,框架将自动完成HuggingFace权重转换和原始数据集预处理工作,随后直接启动微调训练,实现“加载即训练”。
使用小贴士:启动脚本前请确保相关路径有读写权限,预留足够磁盘空间,根据模型规模预留2分钟-2小时的权重转换时间。
结语
Train_from_HF功能精准解决了传统训练流程繁琐的痛点,让开发者能够一键开启便捷训练模式,从而提升训练效率,专注模型调优。欢迎广大开发者体验交流!
MindSpeed LLM开源仓库:
https://gitcode.com/Ascend/MindSpeed-LLM
Train_from_HF使用指南:
https://gitcode.com/Ascend/MindSpeed-
LLM/blob/master/docs/zh/pytorch/training/pretrain/mcore/train_from_hf.md
昇腾开源微信小助手:ascendosc