AlexNet 论文详细解读（Krizhevsky et al., 2012）

论文：ImageNet Classification with Deep Convolutional Neural Networks（NIPS 2012）
PDF：https://proceedings.neurips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

1 论文在解决什么问题？

ImageNet/ILSVRC-2012：1000 类的大规模图像分类，训练集规模达百万级。
评价指标常用 top-1 / top-5 error（top-5：正确类别不在前 5 个预测里）。

这篇论文要证明一件事：

只用端到端的深度卷积网络（CNN），配上合适的训练/正则化套路，就能在大规模视觉任务上显著超过传统“特征工程 + 分类器”。

2 AlexNet 结构长什么样？

2.1 结构总览（8 个可学习层）

AlexNet：5 个卷积层 + 3 个全连接层，最后接 1000-way softmax。
每个卷积层/全连接层后用 ReLU。

经典配置（抓住骨架即可）：

Conv1：11×11, stride=4, 96
Conv2：5×5, 256
Conv3：3×3, 384
Conv4：3×3, 384
Conv5：3×3, 256
FC6：4096
FC7：4096
FC8：1000

可以把它当作 “Conv 抽特征 + FC 做分类” 的原型 CNN。

2.2 结构节奏与直觉

开局大核大步长：快速降采样，节省计算（历史选择）
中间小核堆叠：逐步组合更高级的局部特征
末端大 MLP（FC）：把空间特征压成分类决策

3 论文真正的贡献：哪些招数最关键？

AlexNet 的“封神点”

不是发明了卷积，而是第一次把 大数据 + 大模型 + 可训练的 recipe 跑通，并且在 ImageNet 上打出断档领先。

3.1 ReLU：让深网“训得动”

ReLU 属于非饱和激活，相比 tanh/sigmoid：

梯度更不容易消失
训练收敛更快

今天仍然成立的抽象结论：

选一个让优化更顺滑的激活函数非常关键
现代常见替代（GELU/SiLU）本质仍在这个方向上

3.2 数据增强：真正的救命正则化

论文非常明确：不做增强会严重过拟合，甚至不得不缩小模型。

两类增强最关键：

几何增强（裁剪/翻转）

训练：从更大尺度图里随机裁 224×224，并做水平翻转
测试：经典 10-crop（五个位置 + 翻转），对预测概率取平均

颜色增强（PCA jitter）

对 RGB 做 PCA，在主方向加噪声，模拟光照/颜色变化

今天你可能用 ColorJitter / RandAugment / Mixup / CutMix

但核心思想不变：增强 ≈ 数据层面的强正则化。

3.3 Dropout：压住大 FC 的过拟合

Dropout 用在 FC6/FC7（大参数量层）：

训练时以 p=0.5 随机置零神经元
直觉：阻止“特征共适应”，近似做了模型集成

今天怎么用：

在 MLP / Transformer 里依旧常用
在现代 CNN（尤其有 BN/残差）里权重下降，但小数据/大分类头仍很有价值

3.4 LRN：当年的稳定化技巧（现在多被替代）

LRN（跨通道局部归一化）直觉是“侧抑制/通道竞争”。

常见形式（理解思路即可）：

b_{x, y}^{i} = \frac{a _{x, y}^{i}}{( k + α \sum _{j = i - \frac{n}{2}}^{i + \frac{n}{2}} ( a _{x, y}^{j} ) ^{2} ) ^{β}}

今天的结论：

LRN 大多被 BatchNorm / LayerNorm / 更好的初始化与架构替代
但它在论文里承担的角色：提高稳定性与泛化

3.5 Overlapping Max Pooling：重叠池化的含义

AlexNet 使用 kernel=3, stride=2（重叠池化），报告有小幅收益。

今天更值得记住的抽象点：

下采样会影响信息保留与泛化
“别太粗暴地降分辨率”是普适经验（现代也会用 stride conv / anti-aliasing 等）

4 训练配方（只保留可迁移部分）

AlexNet 的经典 recipe（今天仍常见变体）：

优化器：SGD
batch size：128
momentum：0.9
weight decay：0.0005
学习率：初始 0.01，验证集不再提升就 ×0.1（分段下降）
初始化：权重 N(0, 0.01)；部分 bias 设为 1（帮助 ReLU 早期进入有效区间）

可以背的一句话

SGD + momentum + weight decay + LR schedule，配上强增强与 dropout，深网就能稳定训出来。

5 结果：为什么当年震撼？

ILSVRC-2012 上 AlexNet top-5 test error 约 15.3%，而第二名约 26.2%。
这是“断档式”领先，直接改变了视觉领域路线选择。

6 今天最值得带走的重点（TL;DR）

最有用（强烈建议记住）

训练深网的关键在 recipe：ReLU + 合理优化与 LR 策略
数据增强是强正则化：随机裁剪/翻转（+颜色扰动）
Dropout 对大 MLP 头非常有效
SGD+momentum+wd+LR schedule 这套范式至今仍常见
测试时多视角平均（TTA） 属于“稳一点”的通用技巧

现在可弱化（理解即可，不必执着）

LRN：大多被 BN/LN 等替代
重叠池化：不是核心创新点
大核大步长开局：现代常用更温和的 stem（但“早期下采样很关键”的结论依旧成立）

7 总结

结构：5×Conv + 3×FC，ReLU everywhere，softmax 1000
关键：ReLU（可训练）+ 强增强（抗过拟合）+ Dropout（压 FC）
训练：SGD(0.9) + wd(5e-4) + 分段降 LR
结论：端到端深 CNN 在大规模 ImageNet 上系统性超越传统特征工程

Starry's Blog

Explorer

AlexNet

AlexNet 论文详细解读（Krizhevsky et al., 2012）

论文：ImageNet Classification with Deep Convolutional Neural Networks（NIPS 2012）
PDF：https://proceedings.neurips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

1 论文在解决什么问题？

2 AlexNet 结构长什么样？

2.1 结构总览（8 个可学习层）

2.2 结构节奏与直觉

3 论文真正的贡献：哪些招数最关键？

3.1 ReLU：让深网“训得动”

3.2 数据增强：真正的救命正则化

3.3 Dropout：压住大 FC 的过拟合

3.4 LRN：当年的稳定化技巧（现在多被替代）

3.5 Overlapping Max Pooling：重叠池化的含义

4 训练配方（只保留可迁移部分）

5 结果：为什么当年震撼？

6 今天最值得带走的重点（TL;DR）

7 总结

Graph View

Table of Contents

Starry's Blog

Explorer

AlexNet

AlexNet 论文详细解读（Krizhevsky et al., 2012）

论文：ImageNet Classification with Deep Convolutional Neural Networks（NIPS 2012） PDF：https://proceedings.neurips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

1 论文在解决什么问题？

2 AlexNet 结构长什么样？

2.1 结构总览（8 个可学习层）

2.2 结构节奏与直觉

3 论文真正的贡献：哪些招数最关键？

3.1 ReLU：让深网“训得动”

3.2 数据增强：真正的救命正则化

3.3 Dropout：压住大 FC 的过拟合

3.4 LRN：当年的稳定化技巧（现在多被替代）

3.5 Overlapping Max Pooling：重叠池化的含义

4 训练配方（只保留可迁移部分）

5 结果：为什么当年震撼？

6 今天最值得带走的重点（TL;DR）

7 总结

Graph View

Table of Contents

论文：ImageNet Classification with Deep Convolutional Neural Networks（NIPS 2012）
PDF：https://proceedings.neurips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf