BERT 和 GPT 有什么区别？为什么一个擅长理解一个擅长生成？

Question

Levenx · Accepted Answer

BERT 用 Transformer 编码器，GPT 用 Transformer 解码器。这一个选择决定了它们的所有差异：BERT 双向看上下文（适合理解），GPT 只看上文（适合生成）。架构选择：编码器 vs 解码器Transformer 原论文有编码器和解码器两部分。编码器的自注意力是双向的——处理"苹果"这个词时，"苹果"前后所有词都能看到。解码器的自注意力是单向的（也叫因果注意力）——只能看到当前词和它之前的词，后面的词被遮住。BERT 选了编码器，因为它要做的是"完形填空"：遮住一些词，根据前后文预测。双向注意力让模型能同时利用左右两侧的上下文信息。GPT 选了解码器，因为它要做的是"续写"：给定前文，预测下一个词。单向注意力保证训练和推理的一致性——推理时确实只能看到已生成的前文。如果用双向注意力，训练时能看到"未来"但推理时看不到，就会产生不一致。训练目标：MLM vs CLMBERT 的掩码语言模型（MLM）：随机遮住 15% 的 token，让模型预测被遮住的词。这就像做完形填空——"The [MASK] sat on the mat"，模型要预测 [MASK] 是

BERT 和 GPT 有什么区别？为什么一个擅长理解一个擅长生成？

架构选择：编码器 vs 解码器

训练目标：MLM vs CLM

能力差异的本质

2024-2025 的格局