训练篇第8节：分布式优化器：ZeRO系列（ZeRO-1, ZeRO-2, ZeRO-3）原理与CUDA实现-编程实验室

当千亿参数遇上显存瓶颈，ZeRO用一套“分片存储、按需加载”的哲学，让模型的三个“内存大户”不再冗余，实现了显存占用的线性解耦。

在搭建“训练篇”大模型加速体系的过程中，我们先后学习了梯度累积、激活重计算与3D并行。然而，当模型膨胀到千亿参数级别，即使将这些技术用到极致，单张GPU卡的显存依然捉襟见肘。

在单卡完成梯度累积与激活重计算，通过混合并行将模型切分后，ZeRO（零冗余优化器）将分布式训练的显存优化推向了极致。

一、ZeRO的核心思想：分片存储，按需加载

ZeRO全称Zero Redundancy Optimizer——“零冗余优化器”。在普通的数据并行（DDP）中，每张GPU各自保留一份完整模型副本，存储优化器状态、梯度和参数。当一个百亿参数模型使用Adam优化器训练时，即便参数本身（FP16）只要20GB，其优化器状态（动量等 FP32）与梯度等加起来，总显存需求会飙升到参数量的十几倍，这便是ZeRO要解决的“冗余”与“浪费”。

ZeRO的核心思想是：分片存储、按需加载。它将庞大的“模型状态”（优化器状态、梯度、参数）切分成多个分片，分布式地存储在不同GPU上，并在执行某一层的计算时，通过高效的集体通信，临时从其他设备拉取当前所需分片，计算完成后立即释放。

二、ZeRO三步走：从ZeRO-1到ZeRO-3

ZeRO策略通过三个阶段的渐进式优化，实现显存占用

轻量级对话机器人框架nanobot：基于大语言模型的智能体开发实践

1. 项目概述：当大语言模型遇见“纳米机器人”最近在开源社区里，HKUDS/nanobot 这个项目引起了我的注意。乍一看名字，你可能会联想到医疗或者精密制造领域的“纳米机器人”，但实际上，这是一个非常有意思的AI项目。简单来…

李华

OpenLLMWiki：构建开放协作的LLM知识库与实战指南

1. 项目概述：一个开放的LLM知识库与协作平台最近在折腾大语言模型（LLM）相关项目时，我经常遇到一个痛点：信息太散了。某个模型的最新论文、某个开源项目的部署踩坑记录、某个微调技巧的最佳实践，往往散落在G…

李华

Linuxcoredump留存自动化巡检实践

Linuxcoredump留存自动化巡检实践这是一篇面向中级 Linux 使用者的技术文章，主题聚焦在coredump留存，重点讨论崩溃转储、现场保存和后续分析。在真实生产环境中，coredump留存相关问题往往不会以单一错误形式出现，而是混杂在日志、…

李华

GitHub个人主页打造指南：从Markdown到自动化动态展示

1. 项目概述：一个GitHub个人主页的深度剖析最近在GitHub上闲逛，偶然点进了一个名为“AntonyCanut/AntonyCanut”的仓库。乍一看，这名字有点意思，用户名和仓库名完全一致。对于刚接触GitHub的朋友来说，可能会有点懵&a…

李华

动态提示词工程：让AI提示词具备上下文学习能力的实践指南

1. 项目概述：当提示词遇上上下文学习最近在折腾大语言模型应用时，我反复遇到一个痛点：精心设计的提示词（Prompt）在特定任务上效果拔群，但换个场景或数据，效果就大打折扣。每次都得重新调整、测试…

李华

基于Adafruit FunHouse与CircuitPython的智能门磁监测系统实战

1. 项目概述与核心价值最近在折腾家里的智能安防，想给几个不常进出的储藏室和阳台门加个状态监测。市面上成品的智能门磁要么需要搭配特定的网关，要么就是订阅制服务，后期成本不低。作为一个喜欢动手的开发者，我更倾向于自己掌控数…

李华