从零实现极简GPT：用Rust手写Transformer，深入理解大模型原理-编程实验室

1. 项目概述：从零构建一个极简GPT

如果你对当下大语言模型（LLM）的内部工作原理感到好奇，但又对那些动辄数百GB、依赖庞大框架的代码库望而却步，那么femtoGPT这个项目可能就是为你准备的。它是一个用纯 Rust 语言从零开始实现的、极简的生成式预训练变换器（GPT）。这个项目的核心价值不在于追求最前沿的性能或最大的参数量，而在于其“从零构建”的透明度和教育意义。它剥离了所有复杂的深度学习框架，让你能清晰地看到矩阵乘法、注意力机制、前馈网络、反向传播这些核心组件是如何用最基础的代码一步步搭建起来的。

简单来说，femtoGPT让你能够在一个可控的、代码量有限的范围内，亲手“捏”出一个可以训练和推理的小型 GPT 模型。它支持在 CPU 上运行，也通过 OpenCL 支持 GPU 加速，这意味着你不需要安装笨重的 CUDA 工具链，用普通的 AMD 或 NVIDIA 显卡就能体验加速训练。对于学习者、教育者，或者任何想深入理解 Transformer 架构本质的开发者而言，这是一个绝佳的实践起点。通过它，你不仅能理解 GPT 在“做什么”，更能透彻地理解它是“怎么做”的。

2. 核心架构与设计思路拆解

2.1 为什么选择“从零实现”？

市面上的主流深度学习框架，如 PyTorch、TensorFlow，为我们提供了极其便利的抽象。一行torch.nn.Transformer就能创建一个强大的模型。但这种便利性也带来了一层“黑盒”，框架自动处理了张量运算、设备管理、自动微分等复杂细节。femtoGPT反其道而行之，它的设计哲学是“最小依赖”和“最大透明度”。

项目仅依赖几个基础库：rand用于随机数生成，serde/bincode用于模型序列化，rayon用于 CPU 并行计算，以及可选的ocl用于 GPU 计算。这意味着，从张量（一个多维数组）的定义，到最基本的矩阵乘法、加法，再到复杂的层归一化（LayerNorm）和自注意力（Self-Attention）计算，全部由项目自己实现。这种做法的好处是，每一行代码都直接对应着数学公式或算法步骤，没有魔法。当你调试一个训练不收敛的问题时，你可以逐层、逐操作地检查数据流和梯度，这对于深刻理解模型行为至关重要。

2.2 模型架构解析：向 nanoGPT 看齐

femtoGPT的模型架构几乎完全复刻了 Andrej Karpathy 在其著名的 nanoGPT 视频讲座中演示的极简 GPT 设计。这是一个标准的、仅包含解码器（Decoder-Only）的 Transformer 架构，主要包括以下组件：

词嵌入层（Token Embedding）：将离散的输入符号（字符或子词）映射为连续的向量表示。
位置编码（Positional Encoding）：由于 Transformer 本身不具备序列顺序信息，需要通过位置编码为输入注入位置信息。femtoGPT采用了可学习的位置编码，而非原始的正弦余弦函数。
Transformer 块（Transformer Block）：这是模型的核心，每个块包含：
- 层归一化 1（LayerNorm1）：对输入进行标准化。
- 因果自注意力层（Causal Self-Attention）：允许每个位置关注其之前的所有位置（通过掩码实现“因果性”），计算加权和。这是模型理解上下文的关键。
- 残差连接（Residual Connection）：将注意力层的输入与输出相加，缓解深层网络训练中的梯度消失问题。
- 层归一化 2（LayerNorm2）：再次标准化。
- 前馈网络（Feed-Forward Network， FFN）：一个简单的两层全连接网络（通常中间层维度更大），为模型增加非线性变换能力。
- 第二个残差连接：将 FFN 的输入与输出相加。
最终层归一化（Final LayerNorm）：在所有 Transformer 块之后进行最终的标准化。
语言模型头（LM Head）：一个线性层，将最终的隐藏状态映射回词汇表大小的向量，用于计算下一个词元的概率分布（通过 Softmax）。

这种设计是当前大多数 GPT 类模型的基石。femtoGPT的简洁实现让你可以清晰地看到，所谓的“大模型”，其基础单元就是由这些相对简单的组件堆叠而成。

2.3 CPU 与 GPU 支持策略：拥抱 OpenCL

为了提升训练速度，femtoGPT引入了 GPU 支持。其独特之处在于，它没有选择主流的 CUDA，而是采用了OpenCL。这是一个非常重要的设计决策，背后有几点考量：

平台无关性：OpenCL 是一个开放标准，支持 AMD、NVIDIA、Intel 乃至集成显卡。这意味着你的代码不依赖于某一家硬件厂商的专有生态，可移植性更强。
依赖简化：使用 CUDA 需要安装体积庞大的 CUDA Toolkit 和 cuDNN。而 OpenCL 通常只需安装显卡厂商提供的运行时驱动即可，在 Linux 上可能就是一个ocl-icd-opencl-dev包，极大地降低了环境配置的复杂度。
学习目的：对于教学项目，引入 CUDA 的复杂性会分散对模型算法本身的关注。OpenCL 的核心理念（编写内核函数在计算设备上并行执行）足以阐明 GPU 加速的原理，同时又保持了相对简洁。

在代码中，通过--features gpu编译标志来启用 GPU 支持。项目会利用oclcrate 将计算密集的操作（如矩阵乘法和某些激活函数）分派到 GPU 上执行，而控制逻辑和序列化等操作仍在 CPU 上。这种异构计算模式是现代深度学习框架的缩影，femtoGPT以最小化的形式展示了其工作原理。

注意：由于是教学性质的实现，其 GPU 内核的优化程度无法与高度优化的 cuBLAS 或 MKL 库相提并论。它的主要目标是展示“如何将计算映射到 GPU”，而非追求极致的性能。因此，即使启用 GPU，其速度可能也远不如成熟的框架，但这对于理解原理已经足够了。

3. 环境配置与项目初始化实操

3.1 Rust 工具链安装

femtoGPT基于 Rust，因此第一步是安装 Rust 编程环境。Rust 的官方安装工具rustup是首选，它能方便地管理多个 Rust 版本。

打开终端，执行以下命令：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

安装过程中，通常会选择默认选项（按回车键）。安装完成后，需要重启终端或执行source $HOME/.cargo/env来使cargo（Rust 的包管理和构建工具）和rustc（Rust 编译器）生效。

验证安装：

rustc --version cargo --version

3.2 获取项目代码

通过 Git 克隆项目仓库到本地：

git clone https://github.com/keyvank/femtoGPT.git cd femtoGPT

3.3 GPU 支持环境准备（可选）

如果你打算使用 GPU 加速训练，需要确保系统已安装正确的 OpenCL 运行时。

对于 Ubuntu/Debian 系统：
```
sudo apt update sudo apt install ocl-icd-opencl-dev
```
这个包提供了 OpenCL 的安装无关层（ICD），允许系统同时存在多个厂商的 OpenCL 实现（如nvidia-opencl-dev或rocm-opencl-runtime），并在运行时自动选择。
对于 NVIDIA 显卡用户：安装上述ocl-icd-opencl-dev后，通常还需要安装 NVIDIA 官方驱动，其中已包含 OpenCL 支持。你也可以安装nvidia-opencl-dev包以获取头文件。
对于 AMD 显卡用户：安装 ROCm 的 OpenCL 运行时或 AMDGPU-PRO 驱动中的 OpenCL 组件。

安装完成后，可以通过clinfo命令（需安装clinfo包）来查看系统可用的 OpenCL 设备和平台信息，确认 GPU 已被正确识别。

3.4 准备训练数据

femtoGPT默认从项目根目录下的dataset.txt文件中读取训练数据。这是一个纯文本文件。

关键限制：字符集大小。为了降低模型学习的初始难度（尤其是对于字符级分词），项目建议数据集中唯一字符的数量要尽可能少。原示例中只使用了 65 个不同的字符（包括大小写字母、标点、换行符等）。如果你使用包含大量中文字符或其他复杂符号的文本，需要先进行预处理，例如转换为小写、移除罕见标点，或者使用更高级的子词分词（如 SentencePiece），但后者需要修改代码以支持。

一个简单的准备步骤：

找到你想训练的文本（例如，莎士比亚戏剧、维基百科文章、你自己的日记）。
用文本编辑器打开，进行清理（去除多余空行、统一换行符、删除非目标字符）。
将其保存为dataset.txt，并放置在femtoGPT项目根目录下。

实操心得：对于第一次实验，强烈建议使用项目自带的示例数据或一个非常小的、字符集简单的英文文本（比如一篇短篇小说）。这能让你快速跑通整个流程，看到训练损失下降和生成效果，建立信心。过早使用复杂数据可能导致长时间训练却看不到明显效果，打击积极性。

4. 模型训练全流程详解

4.1 编译与启动训练

在项目根目录下，执行以下命令开始训练：

cargo run --release -- train

--release：以发布模式进行编译和运行。这会启用所有优化，显著提高运行速度，对于训练这种计算密集型任务至关重要。调试模式（cargo run）会非常慢。
-- train：传递给程序的参数，告诉femtoGPT执行训练模式。

如果你想使用 GPU 加速，需要启用gpu特性：

cargo run --release --features gpu -- train

第一次运行会花费较长时间，因为cargo需要下载所有依赖并编译整个项目（包括 Rust 标准库的依赖）。编译完成后，训练便会开始。

4.2 训练过程解读

训练开始后，终端会输出类似以下的信息：

Initializing model... Dataset loaded, number of tokens: 100000 Unique characters: 65 Model parameters: 1.2M Using device: CPU (or GPU: ...) Starting training... Step 0: loss 10.5432, lr 0.0001 Step 100: loss 8.7654, lr 0.0001 Step 500: loss 5.4321, lr 0.0001 ...

损失值（Loss）：这是衡量模型预测（下一个字符的概率分布）与真实数据差异的指标。数值越小越好。在训练初期，损失值会很高（因为模型是随机初始化的），随着训练步数增加，损失值应呈现下降趋势。这是判断训练是否正常进行的首要指标。
学习率（lr）：优化器调整模型参数的步长大小。femtoGPT可能实现了简单的学习率调度，如预热（Warmup）或余弦衰减（Cosine Decay），具体需查看代码。
检查点（Checkpoint）：训练过程中，模型会定期保存到train_data目录中。这允许你在训练中途停止（比如按Ctrl+C），并在之后从上次保存的点继续训练。

4.3 关键训练参数与调整

femtoGPT的训练参数通常在源代码的main.rs或config.rs（如果存在）中定义。你需要直接修改代码来调整它们。常见的可调参数包括：

参数	典型值	作用与影响	调整策略
批量大小 (batch_size)	32, 64, 128	一次迭代中用于计算梯度的样本数。增大可提高训练稳定性和速度，但消耗更多内存。	在内存允许范围内尽可能调大。GPU 下可以设置得比 CPU 大很多。
上下文长度 (block_size)	128, 256, 512	模型一次能看到的字符数（序列长度）。越长，模型能利用的上下文信息越多，但计算量和内存消耗呈平方级增长。	根据数据集特点和硬件能力选择。对于字符级模型，256 或 512 是常见起点。
学习率 (learning_rate)	1e-3, 5e-4, 3e-4	优化器步长。太大可能导致震荡不收敛，太小则收敛慢。	这是最重要的超参数之一。通常从 3e-4 开始尝试，观察损失曲线进行调整。
训练步数 (max_steps)	5000, 10000+	训练的总迭代次数。	根据损失曲线决定。当损失在长时间内不再明显下降时，可能已接近收敛。
模型维度 (n_embd)	128, 256, 384	词嵌入和隐藏层的维度。直接影响模型参数量和表达能力。	更大的维度通常能学习更复杂的模式，但也会增加计算量和过拟合风险。
Transformer 层数 (n_layer)	4, 6, 8	堆叠的 Transformer 块数量。层数越多，模型越“深”，理论容量越大。	与模型维度共同决定模型大小。对于小数据集，层数不宜过多（如 4-6 层）。
注意力头数 (n_head)	4, 8	多头注意力中“头”的数量。允许模型同时关注来自不同表示子空间的信息。	通常设置为模型维度（`n_embd`）能被整除的值。例如`n_embd=128`,`n_head=8`，则每个头维度为16。

修改这些参数后，需要重新编译运行（cargo run --release ...）。

注意事项：超参数调整是一个经验性很强的过程。对于femtoGPT这样的教学项目，建议采用“控制变量法”：先固定其他参数，只调整学习率，找到一个能使损失稳定下降的值；然后在此基础上调整模型大小（层数和维度）；最后再尝试调整批量大小和上下文长度。同时，务必记录每次实验的参数和最终的损失/生成效果，以便对比分析。

4.4 恢复训练与监控

由于训练可能耗时很长，中断和恢复是常态。femtoGPT将训练状态保存在train_data目录。要从中断处继续训练，只需再次运行相同的训练命令即可，程序会自动加载最新的检查点。

虽然femtoGPT本身可能没有内置的图形化监控工具，但你可以通过观察控制台输出的损失值来手动记录。更专业的做法是将损失值重定向到文件，然后用其他工具（如 Python 的 Matplotlib）绘制损失曲线。

cargo run --release --features gpu -- train 2>&1 | tee training_log.txt # 之后可以用脚本解析 training_log.txt 中的 loss 值并画图

一条平滑下降的损失曲线是训练健康的首要标志。如果损失剧烈波动、不降反升或很早就停滞不前，通常意味着学习率设置不当、模型架构有问题或数据存在异常。

5. 模型推理与文本生成

5.1 运行推理

当模型训练到一定程度（损失值降到相对较低的水平）后，就可以用它来生成文本了。使用以下命令：

cargo run --release -- infer

或使用 GPU 版本：

cargo run --release --features gpu -- infer

推理程序会加载train_data目录中训练好的最新模型，然后进入一个交互式循环（或者根据代码设计，可能直接生成一段样本）。你需要按照程序的提示进行操作，常见的模式是：

输入一个提示词（Prompt），例如“Once upon a time”。
模型会以这个词作为开头，自回归地（用前一个预测结果作为下一个输入）生成指定长度的后续文本。
生成过程中，可能会有一个“温度（Temperature）”参数控制生成的随机性。温度高（如1.0）则生成更多样、更有创意的文本，但也更可能包含错误；温度低（如0.1）则生成更保守、更确定性的文本，但也可能变得重复。这个参数需要在代码中查找或修改。

5.2 理解生成结果：从乱码到“人话”

正如项目 README 中展示的，一个随机初始化的模型，其生成结果完全是乱码。随着训练进行，你会观察到几个明显的阶段：

乱码阶段（Loss 很高）：输出是随机的字符组合，没有任何语言结构。这说明模型还没有学到任何有用的规律。
字符/词频模仿阶段（Loss 开始下降）：模型开始学习训练数据中字符或单词的统计分布。例如，在英文数据上，它可能会更频繁地输出 ‘e‘, ’t‘, ’a‘ 等字母，并开始形成一些看起来像单词的字母组合（如“the”,“and”），但句子结构依然混乱。项目示例中“LIS: Tore hend shater...”就处于这个阶段。
局部结构学习阶段（Loss 进一步下降）：模型开始捕捉单词之间的局部依赖关系，并学习简单的标点规则。输出中会出现更多真实的单词，甚至简单的短语，句子开始有逗号、句号。示例中“What like but wore pad wo me che nogns yous dares,”体现了这一点。
上下文与语法学习阶段（Loss 较低）：模型能够生成具有基本语法结构、语义上局部连贯的句子。它开始理解提示词，并围绕其展开。在 TinyStories 数据集上训练的模型生成的“Once upon a time, there was a little girl named Lily...”就是一个很好的例子，它具备了故事开头、基本句式和简单逻辑。

实操心得：不要对一个小模型在字符级数据上生成莎士比亚级别的文本抱有幻想。评估生成质量时，应关注其“进步”：从完全随机，到出现常见词，再到形成简单句子。这个过程本身就能极大地加深你对语言模型学习能力的理解。尝试用不同的提示词，观察模型的反应，是调试和验证模型行为的有趣方式。

6. 代码导读与核心实现剖析

要真正从femtoGPT中学到东西，阅读其源代码是必不可少的环节。以下是一些关键文件和作用：

src/main.rs：程序入口，负责解析命令行参数、初始化模型、数据加载和训练/推理循环。
src/model.rs：核心中的核心。定义了GPT模型结构，包括嵌入层、Transformer 块、前馈网络、注意力机制等所有组件的前向传播（forward）实现。
src/tensor.rs：实现了自定义的Tensor结构体。这是整个项目的基石，定义了张量的数据存储、形状以及最基础的操作，如+,-,*（逐元素乘）、matmul（矩阵乘）。理解这里如何实现广播（broadcasting）和维度操作是关键。
src/optimizer.rs：实现了优化器，如 AdamW。这里包含了梯度下降、动量计算、权重衰减等逻辑。你可以看到梯度如何被用于更新模型参数。
src/trainer.rs：封装了训练逻辑，包括计算损失（通常是交叉熵损失）、执行反向传播（通过手动实现的自动微分或有限差分）、管理检查点等。
src/gpu/目录（如果存在）：包含了 OpenCL 内核代码（.cl文件）和主机端调用逻辑，展示了如何将 CPU 上的张量运算（如矩阵乘）移植到 GPU 上并行执行。

学习路径建议：

从tensor.rs开始：理解张量这个基本数据结构是如何被表示的，以及如何实现两个张量的加法和矩阵乘法。这是所有深度学习运算的基础。
转向model.rs：选择一个简单的层，比如LayerNorm或Linear（全连接层），看它的前向传播是如何调用Tensor的操作实现的。
研究CausalSelfAttention：这是 Transformer 的灵魂。重点关注它如何计算 Query, Key, Value 矩阵，如何计算注意力分数，以及如何应用因果掩码（masked_fill）来防止信息“穿越未来”。
理解训练循环 (main.rs或trainer.rs)：看如何从数据集中取一个批次（batch）的数据，送入模型得到预测，计算损失，然后调用backward()方法（如果实现了自动微分）或使用梯度检查方法来计算梯度，最后用优化器更新参数。
（进阶）探索 GPU 代码：对比src/下 CPU 版本的矩阵乘法和src/gpu/下 OpenCL 版本的实现，理解并行计算的思想。

7. 常见问题、调试技巧与扩展方向

7.1 训练不收敛或损失为 NaN

这是深度学习实践中最常见的问题。

学习率过大：这是首要怀疑对象。尝试将学习率降低一个数量级（例如从1e-3降到1e-4）。
梯度爆炸：在非常深的网络中，梯度可能在反向传播过程中变得极大。检查代码中是否有梯度裁剪（Gradient Clipping）的实现。如果没有，可以考虑在优化器更新参数前，对梯度向量的范数进行限制。
数据问题：确保dataset.txt的格式正确，没有无法识别的特殊字符。尝试一个更小、更简单的数据集进行验证。
初始化问题：神经网络参数的初始化很重要。检查model.rs中权重初始化代码，通常使用 Xavier/Glorot 或 Kaiming/He 初始化。femtoGPT可能使用了简单的随机初始化，对于较深的网络可能不够好。
实现错误：这是“从零实现”项目特有的风险。利用femtoGPT中提到的梯度检查（Gradient Check）功能。该功能通过比较反向传播计算的梯度与数值方法（有限差分）计算的梯度，来验证你实现的导数是否正确。如果梯度检查失败，就需要逐层调试。

7.2 生成结果重复或单调

温度参数过低：在推理时，如果采样温度设置得太低（接近0），模型会总是选择概率最高的下一个词元，导致生成结果非常确定甚至重复。适当调高温度（如 0.7-0.9）。
模型过拟合：如果模型在训练集上损失很低，但生成的文本只是机械地记忆和重复训练数据中的片段，可能是过拟合。尝试使用更小的模型、增加 Dropout（如果实现了）、或使用更多样化的训练数据。
训练数据量太小：模型没有见过足够多的语言模式。

7.3 性能优化建议

femtoGPT的初衷不是高性能，但如果你希望它跑得快一点，可以尝试：

启用 GPU：这是最直接的加速方式。
调整编译优化：确保始终使用--release模式。你还可以在Cargo.toml中为 Rust 编译器添加更激进的优化标志（如codegen-units = 1,lto = true），但这会延长编译时间。
优化数据加载：确保数据读取不是瓶颈。如果数据集很大，可以考虑实现一个简单的数据预加载或缓存机制。
算法优化：例如，实现更高效的矩阵乘法（虽然很难达到专业库水平），或使用半精度浮点数（f16）进行训练（需要 Rust 和 OpenCL 支持）。

7.4 项目扩展与二次开发

femtoGPT是一个完美的实验平台，你可以基于它进行多种改造：

更换分词器：将字符级分词改为Byte Pair Encoding (BPE)或SentencePiece子词分词。这需要修改数据加载部分和模型的嵌入层（词汇表大小会变化）。项目 README 中提到的 Reddit 数据实验就使用了 SentencePiece。
实现新模块：尝试实现其他 Transformer 变体，如旋转位置编码（RoPE）、SwiGLU激活函数、或RMSNorm归一化层，替换掉现有组件，比较效果。
改进优化器：实现带 warmup 和 cosine decay 的学习率调度器，或者尝试 Lion、Sophia 等新的优化器。
添加评估指标：除了损失，实现困惑度（Perplexity）的计算，这是一个更直观的语言模型评估指标。
转向其他任务：修改模型头部，尝试将其用于文本分类、序列标注等下游任务，理解预训练-微调范式。