Transformer 是 2017 年 Google 在论文《Attention Is All You Need》中提出的神经网络架构,彻底改变了 NLP 领域,也是 GPT、BERT、Claude 等所有现代大语言模型的基础。
它的核心思想只有一句话:用注意力机制完全取代循环结构,让模型能同时处理整个序列,而不是逐词推进。
先看整体结构。Transformer 由编码器和解码器两部分构成,各自叠加若干相同的层。

关键组件详解
1. 输入嵌入 + 位置编码
词语先转化为高维向量(Embedding),但 Transformer 没有时序概念,所以必须手动注入位置信息。位置编码用正弦/余弦函数生成,与词向量直接相加,让模型知道”第 1 个词”和”第 5 个词”的区别。
2. 注意力机制(最核心的部分)
注意力的本质是:让每个词去”询问”其他所有词,按重要性加权聚合信息。

每个词会生成三个向量:Query(我在找什么)、Key(我能提供什么)、Value(我实际的内容)。计算过程如下:计算步骤分三步:① 用 Query 和所有 Key 做点积(衡量相关性),② 除以 √d_k 稳定梯度,③ Softmax 归一化成权重,最后加权累加所有 Value。
3. 多头注意力(Multi-Head Attention)
与其只做一次注意力计算,不如并行做 h 次,每个”头”学习不同维度的关联(一个头关注语法,一个头关注语义,一个头关注距离……),最后拼接起来。这让模型同时捕捉多种类型的依赖关系。
4. Add & Norm(残差连接 + 层归一化)
每个子层的输出都会加上它的输入(残差连接),然后做层归一化:
输出 = LayerNorm(x + Sublayer(x))
残差连接防止深层网络的梯度消失,层归一化稳定训练过程。这是 Transformer 能堆到几十层的关键。
5. 前馈网络(Feed-Forward Network)
每个位置独立经过两层全连接:
FFN(x) = max(0, xW₁ + b₁)W₂ + b₂
维度先扩大 4 倍(引入非线性),再压回来。注意力层负责”收集信息”,FFN 负责”处理信息”,两者分工明确。
6. 解码器的特殊机制
解码器有两处不同:
- 掩码注意力:生成第 t 个词时,只能看到前 t-1 个词(用掩码遮住未来),确保模型不”作弊”。
- 交叉注意力:Query 来自解码器自身,但 Key 和 Value 来自编码器输出。这就是翻译时”对齐”源语言和目标语言的机制。
为什么 Transformer 比 RNN 强?
| 对比项 | RNN | Transformer |
|---|---|---|
| 并行度 | 顺序处理,无法并行 | 全序列并行 |
| 长距离依赖 | 信号衰减,难以保留 | 注意力直接连接任意两词 |
| 训练速度 | 慢 | 快(GPU 友好) |
| 扩展性 | 增大模型收益递减 | 规模扩大持续涨点 |
Transformer 最革命性的地方不仅是效果好,更在于它天然适合大规模并行训练,这才奠定了 LLM 时代的基础。v