大模型实习模拟面试：深入剖析BERT预训练模型核心机制（MLM+NSP+输入表示详解）-编程实验室

大模型实习模拟面试：深入剖析BERT预训练模型核心机制（MLM+NSP+输入表示详解）

关键词：BERT、预训练模型、MLM、NSP、Transformer、NLP面试、大模型实习

在大模型和AIGC热潮席卷技术圈的今天，掌握BERT等经典预训练模型的原理已成为NLP方向求职者的基本功。本文以一场高质量模拟面试的形式，带你深入理解BERT的核心机制——从输入表示到两大预训练任务（MLM与NSP），层层递进，直击面试官最关心的技术细节。

面试官提问：“请介绍一下BERT模型的基本结构和核心思想。”

候选人回答：

好的！BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年提出的预训练语言模型，它的核心思想是通过双向上下文建模来学习词的深层语义表示。

与传统的语言模型（比如ELMo或GPT）不同，BERT不再局限于单向（从左到右或从右到左）建模，而是利用Transformer的Encoder结构，在预训练阶段就能同时看到一个词左右两侧的所有上下文信息，从而实现真正的“双向”理解。

BERT的基础架构完全由多层Transformer Encoder堆叠而成，常见的有BERT-Base（12层，768维隐藏层，12个注意力头）和BERT-Large（24层，1024维隐藏层，16个注意力头）。

面试官追问：“那BERT的输入是怎么表示的？具体包含哪些部分？”

候选人回答：

这是一个非常关键的问题！BERT的输入表示设计得非常巧妙，它将词嵌入（Token Embeddings）、段落嵌入（Segment Embeddings）和位置嵌入（Position Embeddings）三者相加，构成最终的输入向量。

具体来说：

Token Embeddings：对输入文本进行WordPiece分词后，每个子词（subword）对应一个词向量。此外，BERT还引入了特殊标记：
- [CLS]：放在句首，用于分类任务时提取整个句子的聚合表示；
- [SEP]：用于分隔两个句子（如问答或句子对任务）。
Segment Embeddings：因为BERT支持处理句子对任务（比如判断两句话是否相关），所以需要区分第一句（记为A）和第二句（记为B）。所有属于句子A的token加上相同的segment A向量，句子B则加上segment B向量。
Position Embeddings：由于Transformer本身没有序列顺序的概念，BERT通过可学习的位置编码来注入token在序列中的位置信息。

这三部分都是可训练的向量，维度相同（比如768维），直接相加后送入Transformer Encoder。公式可表示为：

Input=TokenEmb+SegmentEmb+PosEmb \text{Input} = \text{TokenEmb} + \text{SegmentEmb} + \text{PosEmb}Input=TokenEmb+SegmentEmb+PosEmb

这种设计使得BERT既能理解词义，又能感知句子结构和位置关系。

面试官继续追问：“BERT的预训练任务有哪些？请详细解释MLM任务。”

候选人回答：

BERT的预训练包含两个核心任务：Masked Language Model（MLM）和Next Sentence Prediction（NSP）。我们先重点说MLM。

传统语言模型（如GPT）采用的是自回归方式，即根据前面的词预测下一个词。但这样只能单向建模。而BERT提出的MLM是一种掩码语言建模方法，它随机遮盖输入中15%的token，然后让模型去预测这些被遮盖的词。

具体操作如下：

对于选中的15% token：
- 80% 替换为[MASK]；
- 10% 替换为一个随机词；
- 10% 保持原词不变。

这样做是为了缓解预训练与微调阶段的不一致性——因为在下游任务中，输入通常不会出现[MASK]标记。通过引入随机替换和保留原词，模型被迫学习更鲁棒的上下文表示。

MLM的目标函数就是最大化被遮盖位置上真实词的对数似然，本质上是一个多分类问题（分类到词汇表中的某个词）。

面试官再问：“那NSP任务呢？为什么需要它？”

候选人回答：

NSP（Next Sentence Prediction）任务是为了让BERT更好地理解句子之间的关系，这对于很多下游任务（如问答、自然语言推理）至关重要。

具体做法是：

构造训练样本时，50%的概率让第二个句子（B）确实是第一个句子（A）的下一句（标签为IsNext）；
另外50%则从语料库中随机抽取一个句子作为B（标签为NotNext）。

模型需要基于[CLS]位置的输出向量，判断这两个句子是否连续。

虽然后续研究（如RoBERTa）发现NSP可能并非必要，甚至在某些任务上会带来负面影响，但在BERT原始设计中，NSP确实帮助模型在句子对任务（如MNLI、QQP）上取得了显著提升。

不过值得注意的是，NSP任务也存在争议。因为它过于简单——随机采样的句子往往主题完全不同，模型可能只是学到了“主题一致性”而非真正的逻辑连贯性。这也是后来ALBERT等模型对NSP进行改进的原因。

面试官最后挑战：“你能说说BERT输出的概率分布是如何计算的吗？”

候选人回答：

这个问题很有深度！其实BERT本身并不直接输出一个完整的语言模型概率分布，因为它不是自回归模型。

在MLM任务中，对于每一个被掩码的位置iii，BERT会通过以下步骤计算该位置的预测概率：

将输入序列送入Transformer Encoder，得到每个位置的上下文表示Hi∈RdH_i \in \mathbb{R}^dHi∈Rd；
对掩码位置的输出HiH_iHi进行线性变换并接一个softmax，映射到词汇表大小∣V∣|V|∣V∣的概率分布：

P(wi∣context)=softmax(WHi+b) P(w_i | \text{context}) = \text{softmax}(W H_i + b)P(wi∣context)=softmax(WHi+b)

其中W∈R∣V∣×dW \in \mathbb{R}^{|V| \times d}W∈R∣V∣×d是可学习的权重矩阵。

需要注意的是，BERT无法像GPT那样计算整句话的联合概率P(w1,w2,...,wn)P(w_1, w_2, ..., w_n)P(w1,w2,...,wn)，因为它在预测每个词时都依赖于完整的双向上下文（包括未来的词），这破坏了概率链式法则的前提。因此，BERT主要用于表示学习（representation learning），而不是生成任务。