Transformer深度解析：从经典架构到现代变种，一文读懂NLP大模型核心！-编程实验室

本文深入剖析了Transformer架构的核心原理，从经典的Encoder-Decoder结构出发，详细解释了Input Embedding、Positional Encoding、Multi-Head Attention、Add&Norm、Feed Forward等关键组件的功能与作用。特别针对Decoder的Masked Multi-Head Attention和Encoder-Decoder Attention进行了重点阐述，并通过实例说明了模型如何逐步生成输出。此外，文章还对比了BERT、GPT、T5等现代模型的架构变体，并探讨了当前大模型研究的趋势，指出未来发展方向将更注重效率、长序列处理及推理能力提升。

大家好，我是小董哥。今天我们来一起了解一下Transfomer架构。

上面这张图展示的是经典Transformer的Encoder-Decoder架构，也就是论文Attention Is All You Need里最原始的结构。Transformer是一种基于注意力机制的深度学习模型架构，自2017年被提出以来，已在自然语言处理领域取得巨大成功，并逐渐扩展到计算机视觉、生物序列建模、分子建模等多个领域。它最早主要用于机器翻译，比如：

输入：I love AI 输出：我 喜欢 人工智能

整张图可以分成三部分看：

左边：Encoder，负责理解输入
右边：Decoder，负责生成输出
上面：Linear + Softmax，负责预测下一个token

先看整体：Transformer在做什么？

这张图的流程可以概括为：

输入文本 ↓ Input Embedding ↓ 加上Positional Encoding ↓ 进入Encoder（多层） ↓ Encoder输出上下文表示（向量） ↓ Decoder根据已生成内容 + Encoder输出继续生成 ↓ Linear + Softmax ↓ 输出下一个token的概率

Encoder负责读懂原文，Decoder负责根据原文一步步写出答案。

左边Encoder：负责理解输入

图左边这一大块就是Encoder。它从底部开始：

Inputs ↓ Input Embedding ↓ Positional Encoding ↓ N × Encoder Block

我们来详细走一遍这个流程：

Inputs：输入tokens

原始文本不会直接进入Transformer。比如一句话：

我喜欢大语言模型

会先被tokenizer切成token：

我 / 喜欢 / 大语言 / 模型

每个token再变成一个token ID。这些token ID才是模型真正处理的输入。

Input Embedding：把token变成向量

图中的Input Embedding表示把token ID映射成向量。比如：

我 → [0.12, -0.33, 0.58, ...] 喜欢 → [0.41, 0.09, -0.72, ...]

也就是说，模型不能直接算文字，它只能计算向量。Embedding的作用就是把离散的token编号，变成连续的向量表示。

Positional Encoding：加入位置信息

Transformer和RNN不一样。RNN是按顺序读的，所以它天然知道谁在前、谁在后。但Transformer的Attention是同时看所有token。这就带来一个问题：

我 喜欢 你 你 喜欢 我

这两句话用到的词差不多，但顺序不同，意思完全不同。所以Transformer必须额外加入位置信息。图里Input Embedding旁边有一个Positional Encoding，然后通过一个加号⊕和embedding相加。意思是：

最终输入 = token embedding + position encoding

可以简单理解为：

Embedding告诉模型：这个token是什么；
Position Encoding告诉模型：这个token在哪里。

Encoder Block：一个理解模块

图中Encoder外面标了一个：

N×

意思是这个Encoder Block会重复堆叠N次。在经典Transformer里：

N = 6

也就是6层Encoder Block。每个Encoder Block里有两个核心子层：

Multi-Head Attention Feed Forward

每个子层后面都接一个：

Add & Norm

接下来我们来看一下每个Encoder Block里的几个东西：

Multi-Head Attention：让token互相看

Encoder里的Multi-Head Attention是多头自注意力Self-Attention。它的作用是让一句话里的每个token都去看其他token，并判断谁对自己更重要。比如：

苹果 发布 了 新 手机

当模型理解“苹果”时，它会去看：

发布 新 手机

如果“发布”和“手机”权重很高，模型就更容易判断这里的“苹果”是苹果公司，而不是水果。所以Self-Attention解决的是：当前token应该参考上下文中的哪些token。为什么这里叫Multi-Head？

Multi-Head的意思是多个注意力头。一个head可以理解成一种观察角度。比如一句话中，不同head可能分别关注：

语法关系 语义关系 指代关系 远距离依赖 局部搭配关系

一个head可能关注谁修饰谁，另一个head可能关注谁和谁语义相关。所以Multi-Head Attention可以理解为：多个注意力头从不同角度同时分析句子关系。

Add&Norm：保留信息，稳定训练

图里每个子层后面都有Add&Norm。它由两部分组成：

```
Add：残差连接
```
```
Norm：LayerNorm
```

Add的意思是：

输出 = 子层输出 + 子层输入

它的作用是保留原始信息。可以理解为：子层负责学习新信息，残差连接负责把原来的信息继续传下去。这样做可以缓解深层网络训练困难的问题。

Norm：层归一化，Norm是LayerNorm。它的作用是让数值分布更稳定，避免训练过程中某些数值过大或过小。

Feed Forward：对每个token进一步加工

Encoder Block里的第二个模块是Feed Forward。它不是让token之间继续交流，而是对每个token自己的表示进行加工。可以理解为：

Attention：负责token和token之间的信息交互
Feed Forward：负责对每个token的信息进行非线性加工

经典Transformer中，Feed Forward通常是两个全连接层：

Linear ↓ ReLU ↓ Linear

维度通常会先升高再降回来。比如原始论文中：

d_model = 512 d_ff = 2048

也就是：

512 维 → 2048 维 → 512 维

这样做可以增强模型表达能力。

右边 Decoder：负责生成输出

图右边这一大块是Decoder。它的输入不是完整答案，而是：

Outputs (shifted right)

这个地方非常关键。

Outputs shifted right是什么意思？

这也是很多人刚接触Transformer架构时容易迷糊的地方：为什么Decoder右侧看起来有两个Output？

其实这两个Output不是一回事。图中下面的Outputs shifted right，不是模型真正输出的结果，而是Decoder的输入。它表示：在训练Decoder时，会把目标答案整体向右移动一位，再送进Decoder，让模型学习“根据前面的词预测下一个词”。

在训练翻译任务时，目标句子可能是：

我 喜欢 人工智能

Decoder训练时不是一次性看到完整答案，而是把输出序列右移一位。大概可以理解成：

输入给Decoder：<start> 我 喜欢 模型要预测： 我 喜欢 人工智能

也就是说，Decoder学的是根据前面已经出现的token，预测下一个token。这和GPT的训练方式很像。

Outputs shifted right就是把正确答案错开一位输入给Decoder，让它学会根据前文预测下一个词。

Output Embedding + Positional Encoding

和Encoder 一样，Decoder 输入也要先经过：

Output Embedding + Positional Encoding

也就是：

输出 token → 向量 再加上位置信息

然后进入Decoder Block。

Decoder Block：比Encoder多一个模块

图中Decoder Block里有三个核心子层：

```
Masked Multi-Head Attention
```
```
Multi-Head Attention
```
```
Feed Forward
```

每个子层后面也都有：

Add & Norm

和Encoder相比，Decoder多了一个中间的Attention。

Masked Multi-Head Attention：不能偷看未来

Decoder的第一个模块是：

Masked Multi-Head Attention

它和Encoder里的Self-Attention很像，但多了一个Mask。Mask的作用是当前token只能看到自己和前面的token，不能看到后面的token。比如目标句子是：

我 喜欢 人工智能

当模型正在预测“喜欢”时，它只能看到：

<start> 我

不能提前看到：

人工智能

否则就相当于考试时偷看答案。所以Masked Attention保证了模型是按顺序生成的。可以简单理解为：

Encoder：可以看完整句子 Decoder：只能看已经生成的部分

中间的Multi-Head Attention：连接Encoder和Decoder

Decoder里的第二个Multi-Head Attention很重要。它不是普通的Self-Attention，而是：

Encoder-Decoder Attention

或者叫：

Cross-Attention

它的作用是Decoder在生成输出时，去参考Encoder对输入句子的理解结果。在图里可以看到，左边Encoder的输出有一条线连到了右边Decoder中间的Multi-Head Attention。这表示：Encoder的输出会作为Decoder的参考信息。

这里的Q、K、V来源不一样：

```
Q来自Decoder
```
```
K和V来自Encoder
```

可以这样理解：

Decoder用Q提问：

我现在要生成下一个词，应该参考输入句子的哪一部分？

Encoder用K和V提供信息：

这是我对输入句子的理解结果，你可以来查。

举个翻译例子：

输入：I love AI 输出：我 喜欢 ...

当Decoder要生成“人工智能”时，它会通过Cross-Attention去重点关注Encoder中与 “AI” 对应的信息。所以这个模块是Encoder和Decoder之间的桥梁。

Feed Forward：继续加工生成端的信息

Decoder里的Feed Forward和Encoder里的Feed Forward作用一样。它负责对每个位置的表示进一步加工。

可以理解为：Attention负责找信息，Feed Forward负责加工信息。

顶部Linear+Softmax：输出概率

Decoder最后输出的仍然是一组向量。但我们最终要的是下一个token是谁？所以还要经过图上方的两个模块：

Linear Softmax

Linear：映射到词表大小

假设词表有50,000个token。Decoder输出的每个位置是一个向量，比如 512维。Linear层会把这个向量映射成词表大小的分数：

512 维向量 → 50000个分数

每个分数对应一个token。比如：

人工智能：8.7 模型：6.3 天气：-1.2 苹果：2.1 ......

Softmax：变成概率

Softmax 会把这些分数变成概率。比如：

人工智能：0.72 模型：0.18 苹果：0.04 天气：0.01

概率最高的token，就可能被作为当前步的输出。这就是图最上面的：

Output Probabilities

用一个翻译例子串起来

假设任务是：

输入：I love AI 输出：我 喜欢 人工智能

整个Transformer的工作过程是：

第一步：Encoder读取输入

I / love / AI ↓ Input Embedding ↓ 加 Positional Encoding ↓ 多层 Encoder Block ↓ 得到输入句子的上下文表示

Encoder读完以后，每个token都已经带有上下文信息。

比如 “AI” 的表示里，不只包含AI自己，还包含它和 “I”“love” 的关系。

第二步：Decoder开始生成输出

一开始Decoder输入：

<start>

模型预测：

我

下一步 Decoder 输入：

<start> 我

模型预测：

喜欢

下一步 Decoder 输入：

<start> 我 喜欢

模型通过Cross-Attention去看Encoder的输出，发现应该对应 “AI”，于是预测：

人工智能

最后生成完整结果：

我 喜欢 人工智能

Transformer架构这张图里最容易混淆的几个点

Encoder里的Attention和Decoder里的Attention不一样

Encoder里的Attention是Self-Attention，它只在输入句子内部计算token关系。

Decoder里有两种Attention：

Masked Self-Attention：在输出句子内部看前文

Encoder-Decoder Attention：去看输入句子的编码结果

Mask只在Decoder的自注意力里用

图中Decoder最下面是Masked Multi-Head Attention。它的目的不是提高效果，而是防止模型看到未来答案。

Encoder不需要look-ahead mask，因为Encoder是理解完整输入，可以看全文。

Add & Norm不是一个小装饰

很多人看图时会忽略Add & Norm。但它非常重要。没有残差连接和LayerNorm，深层Transformer会更难训练。它们的作用是：

残差连接：保留信息，缓解梯度问题
LayerNorm：稳定数值，加快训练

Positional Encoding是必须的

因为Attention本身不关心顺序。如果没有位置编码，模型很难区分类似这样的：

我喜欢你 你喜欢我

所以位置信息必须额外加进去。

为什么现在很多大模型图和这张不一样？

这张图是经典Encoder-Decoder Transformer。但现在的大模型会根据任务不同，采用不同变体。

BERT：主要用左边Encoder

BERT主要做理解任务，比如分类、匹配、实体识别。它更像是只使用图左边的Encoder。特点是：

能双向看完整输入 适合理解任务

GPT：主要用右边Decoder的一部分

GPT是Decoder-only架构。它主要使用带mask的自注意力，不使用图中的Encoder-Decoder Attention。它的目标是根据前文预测下一个token，所以GPT更适合生成任务。

T5：使用 Encoder-Decoder

T5这类模型更接近这张图的完整结构。它把任务统一成文本到文本：

输入文本 → 输出文本

比如翻译、摘要、问答，都可以用这种结构处理。

Encoder把输入句子读成一组带上下文的向量；Decoder一边看已经生成的内容，一边参考Encoder的理解结果，逐步预测下一个token；最后通过Linear和Softmax得到词表中每个token的概率。

Encoder负责理解
Decoder负责生成
Attention负责找关系
Feed Forward负责加工信息
Add & Norm负责稳定训练
Positional Encoding负责告诉模型顺序
Linear + Softmax负责预测下一个token

这就是经典Transformer架构的核心逻辑。

Transformer仍然是大模型的核心架构，但大家并没有停止改进。现在的架构研究主要包括：

更高效的Attention
长序列建模
MoE混合专家模型
状态空间模型
混合架构
稀疏计算
低成本推理结构

目的不是简单推翻Transformer，而是在保留其优势的基础上，让模型更快、更省、更适合长上下文和复杂任务。

这里说一下混合架构，可以简单理解为：别人发明了用筷子或者勺子吃饭，你发明了用筷子夹着勺子吃饭。但是，你得证明你的发明有价值，比如吃的更快了，或者同样的饭，吃的更香。

当前大模型研究已经从规模竞赛进入能力结构化提升阶段。模型参数仍然重要，但已经不是唯一核心。真正的创新开始转向推理能力、多模态理解、长上下文、工具调用、知识增强、垂域适配、低成本部署和安全可控。

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

Transformer深度解析：从经典架构到现代变种，一文读懂NLP大模型核心！

先看整体：Transformer在做什么？

左边Encoder：负责理解输入

我们来详细走一遍这个流程：

Encoder Block：一个理解模块

接下来我们来看一下每个Encoder Block里的几个东西：

Add的意思是：

Norm：层归一化，Norm是LayerNorm。它的作用是让数值分布更稳定，避免训练过程中某些数值过大或过小。

Decoder Block：比Encoder多一个模块

顶部Linear+Softmax：输出概率

第一步：Encoder读取输入

Transformer架构这张图里最容易混淆的几个点

为什么现在很多大模型图和这张不一样？

GPT：主要用右边Decoder的一部分

T5：使用 Encoder-Decoder

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

从rtkpost到rnx2rtkp：RTKLIB精密单点定位(PPP)与单点定位(SPP)实战与源码编译指南

光刻热点检测：SVM在45nm工艺中的创新应用

AgentPort：AI智能体服务化框架的设计原理与生产实践

油猴脚本工程化实践：从个人工具到开源项目的系统化管理

新手装 Node.js 总踩坑，这份保姆级教程帮你一次搞定（附镜像加速+版本切换）

测试数据构造还在用手工？这3种AI生成方案真香

先看整体：Transformer在做什么？

左边Encoder：负责理解输入

我们来详细走一遍这个流程：

Encoder Block：一个理解模块

接下来我们来看一下每个Encoder Block里的几个东西：

Add的意思是：

Norm：层归一化，Norm是LayerNorm。它的作用是让数值分布更稳定，避免训练过程中某些数值过大或过小。

Decoder Block：比Encoder多一个模块

顶部Linear+Softmax：输出概率

第一步：Encoder读取输入

Transformer架构这张图里最容易混淆的几个点

为什么现在很多大模型图和这张不一样？

GPT：主要用右边Decoder的一部分

T5：使用 Encoder-Decoder

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

从rtkpost到rnx2rtkp：RTKLIB精密单点定位(PPP)与单点定位(SPP)实战与源码编译指南

光刻热点检测：SVM在45nm工艺中的创新应用

AgentPort：AI智能体服务化框架的设计原理与生产实践

油猴脚本工程化实践：从个人工具到开源项目的系统化管理

新手装 Node.js 总踩坑，这份保姆级教程帮你一次搞定（附镜像加速+版本切换）

测试数据构造还在用手工？这3种AI生成方案真香

最后