Transformer

Transformer 是 2017 年 Google 在论文《Attention Is All You Need》中提出的神经网络架构，彻底改变了 NLP 领域，也是 GPT、BERT、Claude 等所有现代大语言模型的基础。

它的核心思想只有一句话：用注意力机制完全取代循环结构，让模型能同时处理整个序列，而不是逐词推进。

先看整体结构。Transformer 由编码器和解码器两部分构成，各自叠加若干相同的层。

关键组件详解

词语先转化为高维向量（Embedding），但 Transformer 没有时序概念，所以必须手动注入位置信息。位置编码用正弦/余弦函数生成，与词向量直接相加，让模型知道”第 1 个词”和”第 5 个词”的区别。

注意力的本质是：让每个词去”询问”其他所有词，按重要性加权聚合信息。

每个词会生成三个向量：Query（我在找什么）、Key（我能提供什么）、Value（我实际的内容）。计算过程如下：计算步骤分三步：① 用 Query 和所有 Key 做点积（衡量相关性），② 除以 √d_k 稳定梯度，③ Softmax 归一化成权重，最后加权累加所有 Value。

与其只做一次注意力计算，不如并行做 h 次，每个”头”学习不同维度的关联（一个头关注语法，一个头关注语义，一个头关注距离……），最后拼接起来。这让模型同时捕捉多种类型的依赖关系。

每个子层的输出都会加上它的输入（残差连接），然后做层归一化：

输出 = LayerNorm(x + Sublayer(x))

残差连接防止深层网络的梯度消失，层归一化稳定训练过程。这是 Transformer 能堆到几十层的关键。

每个位置独立经过两层全连接：

FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

维度先扩大 4 倍（引入非线性），再压回来。注意力层负责”收集信息”，FFN 负责”处理信息”，两者分工明确。

解码器有两处不同：

Transformer 最革命性的地方不仅是效果好，更在于它天然适合大规模并行训练，这才奠定了 LLM 时代的基础。v