CANN训练优化样例集-编程实验室

cann-recipes-train

【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train

🚀 Latest News

[2026/04] 新增DeepSeek-V3模型MXFP8/HiF8 低精度预训练样例。
[2026/04] 新增DeepSeek-V4-Flash模型续训练0day支持（基于torchtitan框架）样例，支持训练入图、AutoFuse特性。
[2026/02] 新增DeepSeek-V3.2模型torchtitan框架预训练样例。
[2026/02] 新增Qwen3系列模型RL训练使能npugraph_ex图模式样例。
[2025/12] 新增Qwen2.5/Qwen3模型Code RL长上下文代码生成强化学习样例。
[2025/12] 新增Qwen3系列模型RL训练使能SAM投机推理、tool agent RL样例。
[2025/11] Qwen3模型长序列RL样例首次上线。
[2025/10] DeepSeek-R1、Qwen2.5模型样例首次上线。

🎉 概述

cann-recipes-train仓库旨在针对LLM与多模态模型训练业务中的典型模型、算法，提供基于CANN平台的优化样例，方便开发者简单、快速、高效地使用CANN平台进行模型训练。

✨ 实践列表

实践	简介
DeepSeek-R1 RL训练优化样例	基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群实现GRPO算法的高吞吐RL训练，并达到120TPS/卡的系统吞吐量。
基于verl框架的Qwen2.5强化学习（入门样例）	基于Qwen2.5-1.5B-Instruct模型，采用verl强化学习框架，在MATH-lighteval数学推理数据集上进行了训练。本样例只需要单卡Atlas A2环境，帮助大家快速上手，使用昇腾NPU完成RL训练任务。
Qwen3-235B-A22B RL训练优化样例	基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群实现GRPO/DAPO算法的长序列 2k+32k训练，GRPO达到120TPS/卡的系统吞吐量。
Qwen3-32B RL训练使能SAM投机推理样例	基于开源veRL框架，搭配MindSpeed+vLLM-Ascend框架，在Atlas A3集群，GRPO/DAPO算法的2k+32k训练场景下，使能SAM投机推理特性，达成10%性能提升。
Qwen3 tool agent RL训练样例	基于verl/recipe中的retool项目，调用Sandbox工具，使能`asyncLLM`和`agent_loop`特性，在昇腾NPU上完成端到端agent RL训练任务。
基于ScaleBox沙盒的Code RL训练样例	基于verl框架和ScaleBox代码沙盒，支持长上下文(2k+16k) Code RL训练，Qwen3-30B-A3B在LiveCodeBench上Pass@1从46.59提升至56.27。
DeepSeek-V3.2 Pretrain训练样例	基于torchtitan，在64卡Atlas A3集群上完成DeepSeek-V3.2模型32K长序列预训练复现。
DeepSeek-V4-Flash 续训练样例	基于torchtitan + autufuse，使能极简切分和训练入图，在Atlas A3 64卡集群支持DeepSeek-V4-Flash-285B模型的续训练，吞吐达成1100tokens/p/s。
DeepSeek-V3 MXFP8/HiF8 低精度预训练样例	基于MindSpeed，在 8 卡 Atlas A5 环境上完成 DeepSeek-V3 裁剪模型8k序列预训练复现。

🏃 一站式平台快速体验

「一站式平台」是为开发者提供的 NPU 环境，内部已集成完整的 CANN 环境，可以直接使用。

cann-recipes-train 针对该平台在相应样例 README 中提供了简化的「快速启动」路径，帮助用户最小步骤完成 NPU 模型训练体验。当前支持的模型正在持续扩展中，敬请关注：

实践	简介
Qwen3-1.7B SFT训练样例	在一站式平台Atlas A2/A3环境中完成Qwen3-1.7B 单卡SFT训练。

💡 特性介绍

本项目在探索最佳实践的过程中引入了如下特性：

特性	介绍
SAM无损投机推理	docs/features/sam_speculative_decoding.md
RL On-Policy 推理场景的序列级均衡调度引擎	docs/features/rollout_rebalance.md

📖 目录结构说明

├── docs # 优化技术介绍文档 ├── llm_rl # llm强化学习训练相关代码 │ ├── deepseek # deepseek强化学习训练相关代码 │ ├── qwen2_5 # Qwen2.5强化学习训练相关代码 │ ├── qwen3 # Qwen3强化学习训练相关代码 │ └── ... ├── agent_rl # agent强化学习训练相关代码 │ ├── qwen3_tool_agent # Qwen3 tool agent RL训练 │ ├── qwen2_code_rl # 基于ScaleBox沙盒的Code RL训练 │ └── ... ├── multimodal_rl # 多模态强化学习训练相关代码 ├── llm_sft # llm有监督微调训练相关代码 ├── llm_pretrain # llm预训练相关代码 ├── CONTRIBUTION.md ├── README.md └── ...