Transformer 架构是怎么工作的？自注意力、位置编码和残差连接详解

Question

Levenx · Accepted Answer

Transformer 是 2017 年 Google 在《Attention is All You Need》里提出的架构，用纯注意力机制替代了 RNN 和 CNN 做序列建模。它是 BERT、GPT 以及所有现代大语言模型的基础。核心思想：注意力替代递归RNN 处理序列要一步一步来——看第 3 个词之前必须先处理第 1 和第 2 个词。这导致两个问题：无法并行训练，长距离依赖会衰减（梯度消失）。Transformer 的解决方案是：让每个位置直接和所有其他位置交互，一步到位。不需要逐步递归，训练时所有位置可以并行计算——GPU 最擅长这种矩阵运算。自注意力：序列中的每个词和所有词交互对序列中的每个词，自注意力计算它和其他所有词的相关性（注意力权重），然后按权重聚合信息。具体来说：每个词生成三个向量——Query（我在找什么）、Key（我能提供什么）、Value（我的实际内容）。Query 和所有 Key 做点积得到相关性分数，softmax 归一化后对 Value 加权求和。Attention(Q, K, V) = softmax(QK^T / √d_k) V除以 √d_k 是缩放

Transformer 架构是怎么工作的？自注意力、位置编码和残差连接详解

核心思想：注意力替代递归

自注意力：序列中的每个词和所有词交互

多头注意力：同时学多种关系

位置编码：没有递归，怎么知道词的顺序

残差连接和层归一化

编码器-解码器结构

前馈网络：注意力的补充