news 2026/6/26 1:33:38

llamafactory gradient_checkpointing 梯度检查点 通俗完整讲解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
llamafactory gradient_checkpointing 梯度检查点 通俗完整讲解

llamafactory gradient_checkpointing 梯度检查点 通俗完整讲解

1. 原生不开启时(你现在 false 的状态)

模型走一遍前向传播,会把所有中间激活值全部存在显存里
作用:反向传播算梯度时,直接拿这些中间值计算,不用重新跑前向,速度快。
代价:序列越长、batch越大,中间激活占的显存爆炸,很容易冲到99%。

举个你场景的例子:cutoff_len=1024、bs=32,14B大模型,中间激活张量体积非常大,这就是你显存经常顶满的核心元凶。

2. 开启 gradient_checkpointing: true 做了什么?

核心逻辑:以少量重复计算,换取大幅显存节省

  1. 前向传播时,不保存全部中间激活,只存少量关键节点;
  2. 等到反向传播需要某一段中间数据时,重新再跑一遍对应区间的前向计算,现场算出激活;
  3. 全程不会一次性堆海量中间张量在显存里,显存峰值直接下降 30%~50%。

和你梯度累积完全无关

不管 gradient_accumulation_steps 是2还是4,梯度检查点只管「前向激活要不要存」,不影响梯度累加逻辑。

3. 优缺点

优点

  • 大幅压低显存峰值,解决你 88%~99% 冲高、偶尔OOM崩溃问题;
  • 同样显卡下,可以开更大 batch / 更长序列长度;
  • 搭配 FlashAttention2 双重省显存,MI300 192GB 体验提升明显。

缺点

  • 每一步训练会多跑一小段前向计算,训练速度大概慢 10%~20%;
  • CPU算力、读写开销轻微上涨,preprocessing_num_workers=8完全能扛住。

4. 适配你当前场景怎么选

  1. 现状:显存经常冲到99%,波动极大
    建议开启 true,稳定性优先,轻微降速完全可接受;
  2. 如果你后续调小batch、且全程显存稳定80以内不报警,再切回 false 提速。

5. 补充关键细节(SFT训练专用)

  • use_cache: false必须搭配梯度检查点一起用(你配置里已经开了,正确),训练阶段禁用KV缓存,额外省一大块显存;
  • LoRA微调场景下开启梯度检查点不影响LoRA梯度更新,只冻结基础模型部分重算,LoRA训练效果无损失;
  • 和 bf16 / FlashAttention2 兼容,ROCm MI300无兼容性bug。

极简总结

不开:存所有中间激活 → 显存占用高、跑的快
开启:丢掉大部分中间激活,反向时临时重算 → 显存砍半、速度略慢
专门解决你长文本1024序列导致的显存爆满问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 1:28:49

RAG分块大小怎么定?召回质量实测对比

先把结论甩出来:大部分中文文档场景,chunk 控制在 300-500 字、overlap 给 50-80 字,召回质量最稳。太小了语义碎、太大了噪声多,两头都不讨好。下面是我用同一份知识库跑出来的对比数据,场景不一样结论会偏,但这个区间能少踩一半坑。 起因:客服机器人答非所问 上个月帮公司搭…

作者头像 李华
网站建设 2026/6/26 1:27:27

华为openUBMC/长江计算 BMC服务器日志分析

BMC为长江计算的BMC产品,源自于华为设立的openUBMC 电源故障分析 先看AppDump/event下的current_event.txt 看到目前没有告警 System in health state.说明告警已经消除了,看下历史告警sel.txt 发现历史有多次PSU1的故障告警,且每次都是持续…

作者头像 李华
网站建设 2026/6/26 1:26:33

2026优质EMBA客观测评:高管科学择校选型指南

一、引言:EMBA择校行业痛点与测评初衷随着企业数字化转型、跨境出海需求激增,职场高管、企业创始人对EMBA深造的需求持续攀升。当前国内及港澳EMBA项目数量繁多,涵盖内地联考项目、港澳国际化项目、海外合作项目等多种类型,市场信…

作者头像 李华
网站建设 2026/6/26 1:25:12

MCP服务器:AI与外部工具安全交互的协议中枢

1. 项目概述:MCP服务器到底是什么,它解决了什么真实问题?你有没有过这种体验:花大价钱部署了一套AI推理服务,模型参数量拉满,显存堆到顶,结果一跑实际任务就卡壳?不是返回空结果&…

作者头像 李华
网站建设 2026/6/26 1:24:43

csdn怎么获取c币

CSDN获取C币主要分为‌免费任务获取‌和‌付费充值‌两类正规渠道,具体方法如下:一、免费任务获取 基础新手任务‌:完善个人资料可获得5个C币,首次绑定手机可获得5个C币。 内容创作类‌:撰写博文,单篇阅读每…

作者头像 李华
网站建设 2026/6/26 1:23:12

嵌入式测试学习第 43 天:变频冰箱主板嵌入式FCT整机测试

变频冰箱主控板嵌入式FCT整机测试拆解项目基础信息产品规格一、企业变频冰箱主板6阶段标准化测试流水线(研发产线双流程)(一)研发实验室完整6阶段流程(二)产线在线FCT工位简化流程(批量生产&…

作者头像 李华