news 2026/5/26 17:22:12

告别繁琐预处理!MindSpeed LLM推出Train_from_HF功能,实现加载即训练

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别繁琐预处理!MindSpeed LLM推出Train_from_HF功能,实现加载即训练

当前大模型研发进入“提速增效”的关键阶段,训练流程的简洁度直接影响模型的迭代频率。传统Megatron训练架构下,开发者需要先离线将HuggingFace转换为Megatron格式,再手动预处理原始数据集,步骤冗余且易出错,不仅增加了开发周期,更易因流程疏漏导致算力资源的无效损耗。MindSpeed LLM 始终致力于构建“易用高效”的昇腾训练生态,针对上述挑战推出 「数据/权重在线加载训练(Train_from_HF)」 功能。该功能深度集成“自动权重转换”与“在线数据处理”技术,单脚本即可启动全流程训练,彻底打破预处理、转换、训练之间的技术壁垒,显著提升大模型训练效率。

MindSpeed LLM推出Train_from_HF功能

下图以共享存储环境为例:

原始方案痛点:权重转换、数据处理与训练流程割裂

权重转换、数据处理与训练流程割裂,脚本之间独立维护,常出现路径或并行配置不一致问题,重复转换造成时间和资源浪费。

权重转换、数据在线加载训练:参数复用、配置一致

直接复用训练脚本的args参数,避免路径或并行配置不一致问题。权重转换、数据处理逻辑前置到训练初始化阶段(initialize_megatron_wrapper),流程自动化、无缝衔接。

高效集成权重转换与数据预处理

相比原有流程, Train_from_HF功能具有以下核心优势:

权重转换:自动识别,双向互转

新功能支持HuggingFace与Megatron格式权重双向自动转换,全程无需额外命令。通过config.json文件推断模型类型,仅mamba2等特殊模型需手动配置,实现“加载即转换,转换即训练”。

在训练初始化时,MindSpeed LLM会自动检测加载目录中的权重文件(如 .safetensors 或 .bin 文件),无需显式设置转换标志,自动将HuggingFace权重转为Megatron格式用于训练;训练过程中每次保存分布式权重后,会自动转回HuggingFace格式,兼顾训练效率与后续复用需求。

数据预处理:自动转换,多格式兼容

针对原始数据集格式杂乱的问题,新功能实现了对多种原始数据格式的深度兼容,不需要再手动转换为Megatron支持的 .bin/.idx 格式。

在启动训练时,通过--data-path参数指定原始数据集路径,系统就会在训练初始化阶段自动识别数据格式,完成预处理转换,无需单独运行数据处理脚本。

配置原始文件路径或已转换好的数据集前缀,新功能都可以自动识别,同时支持线程数调整、pack模式等灵活配置。

极简操作:单脚本启动,参数灵活适配

新功能只需单脚本就能串联起“权重转换-数据预处理-模型训练”全流程,并针对不同训练场景提供了多样化的参数配置方案:无论是从 HuggingFace 加载权重直接训练、开启双向权重转换、仅转换最终模型权重,还是自定义数据处理规则,通过参数配置即可实现,兼顾通用性与针对性,适配预训练、微调等多种使用场景。

广泛适配:覆盖多场景,兼容多模型多格式

模型兼容:支持Qwen3、Qwen3-MoE、DeepSeek-V3、GLM4.5-MoE等多种主流HuggingFace模型;

格式兼容:数据集支持parquet、arrow、csv、json等多种原始格式,权重支持 .safetensors、mamba 模型 .bin等格式,无需额外格式转换;

场景兼容:支持单机/共享存储环境,适配预训练、微调等多种训练场景,暂不支持LoRA/QLoRA微调后权重转换。

快速上手:Qwen3-8B微调实战指南

开发者仅需在原有训练脚本中增加少量核心参数,便能同时开启权重转换和数据预处理,解锁一键式训练体验。

以Qwen3-8B模型微调为例,仅需添加如下参数:

bashDATA_PATH="/path/your_dataset/xxx.parquet"CKPT_LOAD_DIR="/path/to/huggingface_model/Qwen3-8B"--data-path DATA_PATH \--load CKPT_LOAD_DIR \--enable-hf2mg-convert \--model-type-hf qwen3 \--handler-name AlpacaStyleInstructionHandler \--prompt-type qwen3 \

通过上述配置,框架将自动完成HuggingFace权重转换和原始数据集预处理工作,随后直接启动微调训练,实现“加载即训练”。

使用小贴士:启动脚本前请确保相关路径有读写权限,预留足够磁盘空间,根据模型规模预留2分钟-2小时的权重转换时间。

结语

Train_from_HF功能精准解决了传统训练流程繁琐的痛点,让开发者能够一键开启便捷训练模式,从而提升训练效率,专注模型调优。欢迎广大开发者体验交流!

MindSpeed LLM开源仓库:

https://gitcode.com/Ascend/MindSpeed-LLM

Train_from_HF使用指南:

https://gitcode.com/Ascend/MindSpeed-
LLM/blob/master/docs/zh/pytorch/training/pretrain/mcore/train_from_hf.md

昇腾开源微信小助手:ascendosc

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 17:20:59

企业内训场景下利用Taotoken搭建安全可控的AI实验环境

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业内训场景下利用Taotoken搭建安全可控的AI实验环境 对于企业培训部门而言,引入大模型技术进行员工赋能已成为趋势。…

作者头像 李华
网站建设 2026/5/26 17:17:07

从开发者视角谈taotoken api调用的整体稳定性体验

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从开发者视角谈 Taotoken API 调用的整体稳定性体验 在构建和运维依赖大模型能力的线上服务时,API 调用的稳定性是核心…

作者头像 李华
网站建设 2026/5/26 17:10:58

KiCad泪滴插件:提升PCB可靠性的完整指南

KiCad泪滴插件:提升PCB可靠性的完整指南 【免费下载链接】kicad_scripts Some kicad scripts 项目地址: https://gitcode.com/gh_mirrors/ki/kicad_scripts 在PCB设计领域,泪滴(Teardrop)功能是提升电路板可靠性的重要技术…

作者头像 李华
网站建设 2026/5/26 17:10:03

如何快速掌握缠论分析:通达信CZSC插件的完整使用指南

如何快速掌握缠论分析:通达信CZSC插件的完整使用指南 【免费下载链接】Indicator 通达信缠论可视化分析插件 项目地址: https://gitcode.com/gh_mirrors/ind/Indicator 缠论插件是专为通达信软件设计的自动化交易分析工具,能够将复杂的缠论理论转…

作者头像 李华