Qwen3 Technical Report

论文基本信息

论文标题：Qwen3 Technical Report

作者：Qwen Team (Alibaba Cloud), An Yang et al. (60+ 作者)

arXiv：2505.09388

发布日期：2025 年 5 月 14 日

开源协议：Apache 2.0

核心贡献：统一思考/非思考双模式 + 强到弱蒸馏 + 三阶段预训练 + 四阶段后训练

一、前置知识体系

学习建议

阅读本节可以帮助你在没有深厚基础的情况下理解 Qwen3 的每个技术决策。每个概念都与论文中的具体模块直接挂钩。

1.1 Transformer 基础架构

Transformer 是当代几乎所有大型语言模型（LLM）的核心骨架，由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。

核心思想： 用”注意力（Attention）“机制替代 RNN 的顺序计算，实现对序列的并行处理。

输入序列 → Embedding → [多层 Transformer Block] → 输出
                               ↓
              每个 Block = 多头注意力 + 前馈网络（FFN）

自注意力机制（Self-Attention）： 给定输入 $X$ ，计算三个矩阵： $Q = X W_{Q}, K = X W_{K}, V = X W_{V}$ $Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V$

其中 $d_{k}$ 是 Key 向量的维度， $d_{k}$ 用于缩放防止梯度消失。

与 Qwen3 的关联： Qwen3 的全部密集模型和 MoE 模型均基于 Transformer Decoder-only 架构。

1.2 分组查询注意力（GQA）

问题背景： 原始多头注意力（MHA）中，每个查询头（Q head）都有对应的独立 K、V 头，推理时需要将 K、V 全部缓存（KV Cache），显存占用大。

MQA（Multi-Query Attention）： 所有 Q 头共享一组 K、V，显存极省但表达能力弱。

GQA（Grouped Query Attention）： 将 Q 头分成若干组，组内共享一对 K、V，是 MHA 与 MQA 的折中方案。

MHA:   Q1 K1 V1 | Q2 K2 V2 | Q3 K3 V3 | Q4 K4 V4
MQA:   Q1 Q2 Q3 Q4 → 共享 K1 V1
GQA:   [Q1 Q2] → K1 V1 | [Q3 Q4] → K2 V2

与 Qwen3 的关联：

Qwen3-32B：Q heads = 64，KV heads = 8（8:1 比例）
Qwen3-235B-A22B：Q heads = 64，KV heads = 4（16:1 比例）
GQA 在维持性能的同时大幅减少推理时的显存占用

1.3 旋转位置编码（RoPE）

问题背景： Transformer 需要感知 token 的相对/绝对位置，早期用固定正弦位置编码，局限性大，无法很好地泛化到训练时未见过的长度。

RoPE 核心思想： 不在 Embedding 中加入位置信息，而是在计算注意力时，对 Q 和 K 向量施加一个与位置相关的旋转变换。

$q_{m}^{rotated} = q_{m} \cdot e^{im θ}$

其中 $m$ 是 token 位置， $θ$ 是频率参数（base frequency）。

为何有利于长度外推： 通过调整 base frequency（ABF 技术），可以拉伸 RoPE 的波长，使模型能处理更长的上下文。

与 Qwen3 的关联：

预训练阶段 base frequency 从 10,000 提升到 1,000,000（使用 ABF 技术）
配合 YaRN 和 DCA（双块注意力）实现从 32K → 128K 的上下文窗口推断扩展

1.4 RMSNorm 与 Pre-Normalization

LayerNorm： 对每个样本在特征维度做归一化，稳定训练。

RMSNorm（Root Mean Square Layer Normalization）： 去掉了均值中心化操作，只做缩放： $RMSNorm (x) = \frac{x}{RMS ( x )} \cdot γ, RMS (x) = \frac{1}{n} \sum x_{i}^{2}$

计算更快，效果接近 LayerNorm。

Pre-Normalization： 在每个子层（Attention/FFN）的输入前做归一化，而非输出后，训练更稳定（Residual Stream 始终保持原始幅度）。

与 Qwen3 的关联： Qwen3 所有模型均采用 RMSNorm + Pre-Normalization 组合。

1.5 SwiGLU 激活函数

FFN 的演化：

原始 FFN： $FFN (x) = W_{2} \cdot ReLU (W_{1} x)$
GLU：引入门控机制， $GLU (x) = x_{1} \otimes σ (x_{2})$
SwiGLU：用 Swish 替代 Sigmoid 作为门控： $SwiGLU (x) = Swish (W_{1} x) \otimes (W_{3} x)$ $Swish (x) = x \cdot σ (β x)$

优势： 比 ReLU 和 GeLU 在语言模型上表现更好（Google PaLM 证实），Llama、Qwen 系列均采用。

与 Qwen3 的关联： Qwen3 全系列 FFN 采用 SwiGLU。

1.6 QK-Norm

问题背景： 在超大规模或长上下文训练时，注意力的 Q、K 向量的内积可能爆炸，导致 softmax 梯度消失（所谓”attention sink”问题），训练不稳定。

QK-Norm： 对 Query 和 Key 向量在计算注意力之前分别做 L2 归一化： $q_{norm} = \frac{q}{∥ q ∥}, k_{norm} = \frac{k}{∥ k ∥}$

确保内积的量级受控，训练稳定性大幅提升。

与 Qwen3 的关联： 这是相比 Qwen2 的一个重要改动——去掉了 QKV-bias，引入了 QK-Norm，是支持大规模稳定训练的关键设计。

1.7 混合专家模型（MoE）

密集模型（Dense）： 每次前向传播，所有参数都参与计算。

MoE（Mixture of Experts）： FFN 层被替换为多个并列的”专家（Expert）“网络，每次只激活其中少数几个。

输入 token x
     ↓
  Router（路由器）
  ↓       ↓       ↓  
Expert1 Expert2 Expert3 ... Expert N
         ↓ 选择 Top-K
     加权求和输出

路由器（Router）： 一个小型线性层，为每个 token 打分，选出 Top-K 个专家。

$score_{i} = W_{router} \cdot x$ $selected experts = Top-K (softmax (score))$

关键参数：

Total Experts：模型中专家的总数
Activated Experts：每个 token 实际使用的专家数
激活参数比例 = Activated / Total（即推理成本）

负载均衡（Load Balancing Loss）： 防止所有 token 都路由到同一个专家（路由坍缩），通过辅助损失强制各专家均匀使用。

细粒度专家分割（Fine-grained Expert Segmentation）： DeepSeekMoE 提出的策略——将原本较大的专家切分为更细粒度的小专家，增加路由的灵活性。

与 Qwen3 的关联：

Qwen3 MoE 模型：128 个专家，每次激活 8 个
采用细粒度专家分割
使用全局批次负载均衡损失（global-batch load balancing loss）
不使用共享专家（与 Qwen2.5-MoE 的差异）

1.8 字节对编码（BPE）与 Tokenizer

BPE（Byte-Pair Encoding）： 一种子词分词算法，通过迭代合并频率最高的字节对来构建词表。

BBPE（Byte-level BPE）： 在字节级别操作，理论上可以编码任意 Unicode 字符，对多语言支持更好。

与 Qwen3 的关联： 采用 Qwen 系列统一 Tokenizer，基于 BBPE，词表大小 151,669，支持 119 种语言。

1.9 Chain-of-Thought（CoT）推理

标准推理（Direct Answer）： 模型直接输出最终答案。

CoT 推理： 模型先生成一系列中间推理步骤，再给出最终答案：

问：12 个苹果分成 3 份，每份多少？
CoT：先把12分成3组，12÷3=4，所以每份4个。
答：4个

Long-CoT（长链式推理）： 更复杂的多步骤推理，可以包含自我反思、假设验证、回溯等认知操作，常见于数学竞赛题和复杂代码生成。

与 Qwen3 的关联： Qwen3 的”思考模式”本质上就是 Long-CoT，输出结果包裹在 <think>...</think> 标签中。

1.10 强化学习（RL）在 LLM 对齐中的应用

RLHF（Reinforcement Learning from Human Feedback）： 经典对齐方法，人类标注偏好，训练奖励模型，再用 PPO 优化语言模型。

GRPO（Group Relative Policy Optimization）： DeepSeekMath 提出，不需要单独的价值网络（Critic），通过对一组输出进行相对评分来估算优势函数（Advantage）： $\hat{A}_{i} = \frac{r _{i} - mean ( r _{1.. N} )}{std ( r _{1.. N} )}$

其中 $r_{i}$ 是第 $i$ 个生成结果的奖励（通常是 0/1 的正确性奖励）。

与 Qwen3 的关联： Qwen3 的推理 RL 阶段（Stage 2）采用 GRPO，使用 3,995 个可验证题目，AIME’24 分数从 70.1 → 85.1。

1.11 知识蒸馏（Knowledge Distillation）

核心思想： 让小模型（Student）学习大模型（Teacher）的”软标签”（Soft Labels / Logits），而不只是学习 one-hot 的真实标签。

Teacher Model → logits 分布（概率向量）
Student Model → 尽量匹配这个分布（KL 散度最小化）

Off-policy 蒸馏： 使用 Teacher 生成的数据来训练 Student（Teacher 的轨迹）。

On-policy 蒸馏： Student 自己生成轨迹，再让 Teacher 为这些轨迹的 logits 提供监督信号。

与 Qwen3 的关联： 小模型（0.6B ~ 14B）通过”强到弱蒸馏”（Strong-to-Weak Distillation）从 Qwen3-32B 或 Qwen3-235B-A22B 获取能力，效率是 RL 的 10 倍。

1.12 标量缩放定律（Scaling Laws）

Chinchilla 定律： 模型参数量 $N$ 和训练 token 数 $D$ 存在最优比例关系。

与 Qwen3 的关联： 论文指出他们基于三阶段预训练，建立了超参数（学习率调度、批大小）的缩放定律预测系统，为每个模型预测最优超参数。

二、模型架构

2.1 模型系列总览

Qwen3 发布了 6 个密集模型 + 2 个 MoE 模型，共 8 个规模：

模型	类型	总参数	激活参数	上下文长度
Qwen3-0.6B	Dense	0.6B	0.6B	32K
Qwen3-1.7B	Dense	1.7B	1.7B	32K
Qwen3-4B	Dense	4B	4B	128K
Qwen3-8B	Dense	8B	8B	128K
Qwen3-14B	Dense	14B	14B	128K
Qwen3-32B	Dense	32B	32B	128K
Qwen3-30B-A3B	MoE	30B	3B	128K
Qwen3-235B-A22B	MoE	235B	22B	128K

效率亮点

Qwen3-30B-A3B 仅激活 3B 参数，推理成本约等于一个 3B 密集模型，但性能堪比 14B 密集模型

Qwen3-235B-A22B 激活 22B 参数，性能达到 SOTA，超过 DeepSeek-V3（671B 总参数）

2.2 密集模型详细配置

模型	层数	Q heads	KV heads	权重绑定	上下文
Qwen3-0.6B	28	16	8	✅ 是	32K
Qwen3-1.7B	28	16	8	✅ 是	32K
Qwen3-4B	36	32	8	✅ 是	128K
Qwen3-8B	36	32	8	❌ 否	128K
Qwen3-14B	40	40	8	❌ 否	128K
Qwen3-32B	64	64	8	❌ 否	128K

权重绑定（Tie Embedding）： 输入 Embedding 矩阵和输出 LM Head 矩阵共享参数，小模型常用此技术减少参数量。

2.3 MoE 模型详细配置

模型	层数	Q heads	KV heads	专家 (总/激活)	上下文
Qwen3-30B-A3B	48	32	4	128 / 8	128K
Qwen3-235B-A22B	94	64	4	128 / 8	128K

注意：

MoE 模型 KV heads 更少（4 heads），进一步降低推理时 KV Cache 占用
每层 128 个专家中只激活 8 个（激活率 6.25%）

2.4 关键架构组件对比（Qwen2 vs Qwen3）

组件	Qwen2	Qwen3
注意力	GQA + QKV-bias	GQA，移除 QKV-bias
训练稳定性	-	新增 QK-Norm
激活函数	SwiGLU	SwiGLU（不变）
归一化	RMSNorm + Pre-Norm	RMSNorm + Pre-Norm（不变）
位置编码	RoPE	RoPE，base freq → 1M
MoE 共享专家	✅ 有	❌ 移除
MoE 负载均衡	-	全局批次负载均衡

2.5 架构设计的深层逻辑

graph TD
    A[稳定训练需求] --> B[QK-Norm]
    A --> C[移除QKV-bias]
    D[推理效率需求] --> E[GQA减少KV Cache]
    D --> F[MoE减少激活参数]
    G[长上下文需求] --> H[RoPE base=1M]
    G --> I[YaRN + DCA推理扩展]
    J[专家专业化] --> K[全局负载均衡Loss]
    J --> L[细粒度专家分割]
    J --> M[移除共享专家]

三、预训练

3.1 数据规模与覆盖

维度	Qwen2.5	Qwen3	提升
总 Token 数	~18T	36T	2×
语言数量	29	119	4×
合成数据	有限	数万亿 tokens	大幅增加

3.2 数据来源与构建策略

三大数据来源：

① 网页与文档文本

传统网络爬取 + 质量过滤
使用 Qwen2.5-VL 对 PDF 类文档进行 OCR 文字识别
用 Qwen2.5 模型对识别文字进行质量精炼
额外产出数万亿高质量 tokens

② 合成数据（Synthetic Data） 使用专有模型生成多种格式的合成数据：

Qwen2.5-Math → 数学教材、数学解题过程
Qwen2.5-Coder → 代码片段、编程问答
Qwen2.5 → 通用教材、指令数据、问答对
格式覆盖：教材、问答、指令、代码片段，跨越数十个领域

③ 多语言数据扩展

专门增加低资源语言的覆盖
从 29 种语言扩展到 119 种语言和方言

3.3 实例级数据混合优化

传统方法的局限： 之前的研究（DOReMi, DOGE 等）通常在数据源或领域级别优化数据混合比例。

Qwen3 的创新：

建立多维度数据标注系统，对超过 30 万亿 tokens 进行标注
标注维度包括：教育价值、领域、安全性 等细粒度标签
在实例（instance）级别优化数据混合，通过代理小模型（proxy model）的消融实验确定最优配比

3.4 三阶段预训练策略

Stage 1: General Stage (S1)
    数据量: ~30T tokens
    序列长度: 4,096 tokens
    目标: 建立通用语言能力和世界知识基础
    语言覆盖: 119 种语言和方言
         ↓
Stage 2: Reasoning Stage (S2)
    数据量: ~5T tokens（高质量）
    序列长度: 4,096 tokens
    目标: 增强 STEM、代码、推理能力
    特点: 提高 STEM/Coding/Reasoning/Synthetic 数据比例
          加速学习率衰减（LR decay）
         ↓
Stage 3: Long Context Stage
    数据量: 数千亿 tokens
    序列长度: 32,768 tokens
    目标: 将上下文窗口从 4K 扩展到 32K
    数据构成: 75% 长文本 (16K-32K) + 25% 中等文本 (4K-16K)
    技术: ABF (RoPE base 1M) + YaRN + DCA

三阶段设计的核心逻辑

Stage 1 打宽度：覆盖广，建立知识边界

Stage 2 打深度：数据更精，强化推理能力

Stage 3 打长度：专攻长上下文，解锁长文理解

3.5 长上下文技术详解

ABF（Adjusted Base Frequency）： 将 RoPE 的 base frequency 从 10,000 提高到 1,000,000，使位置编码的波长更长，从而让模型”感知”更远距离的相对位置。

YaRN（Yet Another RoPE extaNsion）： 一种推理阶段的上下文外推技术，通过对 RoPE 频率进行分段缩放（不同频率段用不同缩放系数），实现训练时 32K → 推理时 128K 的扩展。

DCA（Dual Chunk Attention / ChunkLlama）： 将长序列切分为块（Chunk），块内做完整注意力，块间做跨块注意力。能以低计算量支持更长序列，推理时实现 4× 的序列长度扩展。

3.6 预训练评估结果摘要

基座模型核心结论

结论 1：小模型吊打更大密集模型

Qwen3-8B-Base ≈ Qwen2.5-14B-Base（同等或更强）
Qwen3-4B-Base ≈ Qwen2.5-7B-Base
Qwen3-1.7B-Base ≈ Qwen2.5-3B-Base
效率提升约 2×

结论 2：MoE 模型的极致效率

Qwen3-30B-A3B（仅激活 3B）≈ Qwen3-14B-Base（14B 密集）
相当于 1/10 的激活参数量实现同等性能

结论 3：旗舰 MoE 超越更大规模模型

Qwen3-235B-A22B-Base 在 15 个评测基准中的 14 个超越 DeepSeek-V3-Base
DeepSeek-V3-Base 总参数 671B，激活 37B；而 Qwen3 仅 235B 总、22B 激活

四、后训练（Post-training）

4.1 后训练总体架构

Qwen3 的后训练分为两条并行路线：

旗舰模型路线（Qwen3-32B 和 Qwen3-235B-A22B）：
Base Model
  → Stage 1: Long-CoT Cold Start（冷启动监督微调）
  → Stage 2: Reasoning RL（推理强化学习）
  → Stage 3: Thinking Mode Fusion（思考模式融合）
  → Stage 4: General RL（通用强化学习）
  → Instruct Model

轻量模型路线（0.6B ~ 14B dense, 30B-A3B MoE）：
Base Model → Strong-to-Weak Distillation
  → Phase 1: Off-policy Distillation（离策略蒸馏）
  → Phase 2: On-policy Distillation（在策略蒸馏）
  → Instruct Model

4.2 Stage 1：Long-CoT 冷启动

目标： 让模型”学会”如何进行长链式推理，建立推理行为的基本模式。

数据构建流程：

数据集范围: 数学 + 代码 + 逻辑推理 + 通用 STEM（均有可验证答案）
         ↓
Query 过滤（使用 Qwen2.5-72B-Instruct 判断）：
  - 去除不易验证的 query（如含多个子问题、纯文本生成类）
  - 去除无需 CoT 即可正确回答的 query（防止模型走捷径）
  - 标注每个 query 的领域（保持领域平衡）
         ↓
Response 生成（使用 QwQ-32B 生成 N 个候选回答）
         ↓
Response 过滤（去除以下情况）：
  ❌ 最终答案错误
  ❌ 存在大量重复
  ❌ 明显猜测，缺乏推理
  ❌ 思考与总结不一致
  ❌ 不当语言混用或风格突变
  ❌ 与验证集过于相似（防止数据泄露）
         ↓
精选子集 → 用于冷启动 SFT

冷启动的设计哲学

目标是”植入推理模式的种子”，而不是”立即最大化性能”。因此刻意减少训练样本量和训练步数，为后续 RL 保留充足的上升空间。

4.3 Stage 2：推理强化学习（Reasoning RL）

算法： GRPO（Group Relative Policy Optimization）

数据要求（4 条标准）：

未在冷启动阶段使用过
对冷启动后的模型是”可学”的（不能太难）
尽可能有挑战性
覆盖广泛的子领域

规模： 最终收集 3,995 个 query-verifier 对（题目+验证器）

关键训练技巧：

技巧	具体做法	作用
大批量	使用较大的 batch size	提升梯度估计稳定性
多 rollout	每个 query 生成大量采样	更好的相对评分基础
Off-policy 训练	利用历史样本提升样本效率	减少所需数据量
熵控制	让模型熵稳定增长	平衡探索与利用，防止分布坍缩

结果：

Qwen3-235B-A22B 的 AIME’24 分数：70.1 → 85.1
仅需 170 个 RL 训练步骤，全程无需手动调整超参数

4.4 Stage 3：思考模式融合（Thinking Mode Fusion）

目标： 将”非思考模式”能力注入已具备强推理能力的模型，实现两种模式的统一。

4.4.1 SFT 数据构建

思考（Thinking）数据：

用 Stage 2 模型对 Stage 1 的 query 做 Rejection Sampling（拒绝采样）
保留高质量的推理轨迹，确保不损害 Stage 2 的推理能力

非思考（Non-thinking）数据（精心构建）：

编程、数学、指令跟随、多语言、创意写作、问答、角色扮演
使用自动生成的 Checklist 评估响应质量
特别增加翻译任务比例，强化低资源语言性能

4.4.2 Chat Template 设计

思考模式：
User: /think [你的问题]
Assistant: <think>
[推理过程...]
</think>
[最终答案]

非思考模式：
User: /no_think [你的问题]
Assistant: <think>
</think>
[直接回答]

多轮对话：
User: /think [问题1]  → 触发思考
User: /no_think [问题2]  → 触发非思考（遵循最后一个 flag）

设计巧思：

非思考模式保留空的 <think></think> 块，保证输出格式一致
默认为思考模式（部分训练样本不带 /think flag，模型自动思考）
开发者可以在 system message 中预填充空 think 块来禁用思考

4.4.3 Thinking Budget（思考预算）

核心机制： 用户可以在 prompt 中指定允许消耗的思考 token 上限，模型会自适应调整思考深度。

示例: "请用不超过1000个token的思考来回答这道数学题"

实验发现： 在数学、代码、STEM 任务上，增加思考 budget 的分配会持续提升模型性能（单调正相关），为计算资源的弹性分配提供了清晰的 scaling 规律。

4.5 Stage 4：通用强化学习（General RL）

目标： 广泛提升模型在各类下游任务上的综合能力。

能力覆盖：

指令跟随（Instruction Following）
格式遵循（Format Following）
偏好对齐（Preference Alignment）
Agent 能力（工具调用、多步骤规划）
专业场景（如计数事实问答、长度控制生成等）

奖励系统： 多种奖励类型的混合：

基于规则的奖励：格式正确性、指令是否遵循
基于模型的奖励（有参考）：与参考答案的质量比较
基于模型的奖励（无参考）：开放式任务的质量评判

内部测试基准（In-house Benchmarks）：

基准名	测试内容
CounterFactQA	反事实问题识别，防幻觉
LengthCtrl	创意写作长度控制精度
ThinkFollow	多轮对话中思考模式切换正确率
ToolUse	单轮/多轮/多步骤工具调用稳定性

消融分析（Qwen3-32B）：

训练阶段后	ThinkFollow	推理表现	通用能力
Stage 2（Reasoning RL）	低	最强	弱
Stage 3（Mode Fusion）	中	略降	提升
Stage 4（General RL）	98.9	略降	最强

性能权衡

Stage 3 和 Stage 4 之后，复杂推理任务（如 AIME、LiveCodeBench）的思考模式分数略有下降。这是为增强综合能力而接受的取舍，论文团队明确表示认可这一 trade-off。

4.6 强到弱蒸馏（Strong-to-Weak Distillation）

适用对象： Qwen3-0.6B, 1.7B, 4B, 8B, 14B（密集）+ Qwen3-30B-A3B（MoE）

Teacher 模型： Qwen3-32B 或 Qwen3-235B-A22B（已完成四阶段训练）

两阶段蒸馏流程

Phase 1：Off-policy 蒸馏

Teacher 生成 /think 和 /no_think 两种模式的回答
                ↓
Student 对这些回答进行 SFT 训练
                ↓
目标：让 Student 具备基本的推理能力和模式切换能力

Phase 2：On-policy 蒸馏

Student 自己生成回答（on-policy 采样）
                ↓
将 Student 生成的 logit 与 Teacher 对同一 prompt 的 logit 进行对齐
（最小化 KL 散度）
                ↓
目标：让 Student 在自己的分布上更好地模仿 Teacher

效果对比（Qwen3-8B 消融实验）

训练方式	Pass@1（即时性能）	Pass@64（探索能力）	GPU 小时
独立四阶段 RL	基线	基线	100%
强到弱蒸馏	更高	更高	约 10%

蒸馏的优势

蒸馏不仅在即时性能（Pass@1）上超过直接 RL，在探索能力（Pass@64）上也更强，同时只需 1/10 的 GPU 小时数。

五、评估与关键结果

5.1 预训练基座模型评估

15 个基准测试覆盖 4 大领域：

领域	基准
通用知识	MMLU, MMLU-Pro, MMLU-Redux, BBH, SuperGPQA
数学/STEM	GPQA, GSM8K, MATH
代码	EvalPlus, MultiPL-E, MBPP, CRUX-O
多语言	MGSM, MMMLU, INCLUDE

旗舰基座对比（Qwen3-235B-A22B-Base vs. 竞品）：

模型	总参数	激活参数	MMLU	EvalPlus	MATH
DeepSeek-V3-Base	671B	37B	87.19	63.75	62.62
Llama-4-Maverick-Base	402B	17B	85.16	68.38	63.32
Qwen2.5-72B-Base	72B	72B	86.06	65.93	62.12
Qwen3-235B-A22B-Base	235B	22B	87.81	77.60	71.84

5.2 后训练指令模型评估

旗舰模型 Qwen3-235B-A22B 关键分数：

基准	分数	对比
AIME’24	85.7	超越 o1、o3-mini
AIME’25	81.5	SOTA 水平
LiveCodeBench v5	70.7	超越 DeepSeek-V3
CodeForces Elo	2,056	顶级竞赛水平
BFCL v3 (Agent)	70.8	SOTA

5.3 Thinking Budget Scaling 曲线

实验表明，在数学、代码、STEM 任务上：

思考 token 预算: 0 → 1K → 4K → 8K → 16K → 32K+
性能:           ↑    ↑    ↑    ↑    ↑      ↑（持续上升）

这提供了弹性计算资源分配的理论依据：用户可以根据任务复杂度和延迟需求，灵活调整 thinking budget。

六、核心创新点总结

6.1 技术创新地图

mindmap
  root(Qwen3 核心创新)
    架构层
      QK-Norm稳定训练
      移除QKV-bias
      全局批次负载均衡MoE
      细粒度专家分割
    预训练层
      36T tokens大规模
      119种语言覆盖
      VL模型辅助OCR
      实例级数据混合优化
      三阶段渐进预训练
    后训练层
      统一思考/非思考双模式
      Thinking Budget机制
      四阶段旗舰训练
      强到弱蒸馏（10x效率）
      GRPO推理强化学习

6.2 统一双模式的意义

之前的痛点：

需要维护两套不同的模型（如 Qwen2.5 + QwQ）
用户需要在速度和推理质量之间手动切换模型
部署成本高，资源浪费

Qwen3 的解决方案：

单一模型，通过 /think 和 /no_think 标志动态切换
Thinking Budget 提供更细粒度的推理深度控制
一套权重，满足从快速响应到复杂推理的全场景需求

6.3 强到弱蒸馏的工程价值

传统的每个模型都要走完完整的四阶段 RL 训练，对小模型来说既费时又未必有大模型效果好。Qwen3 的强到弱蒸馏实现了：

性能更好：小模型从最强 Teacher 直接获取知识
效率更高：只需约 10% 的 GPU 计算量
能力迁移完整：推理能力和模式切换能力均可迁移

七、论文的局限性与未来方向

7.1 已知局限

模型局限

在 thinking 模式下进行长文本检索（Retrieval）任务时，额外生成的推理内容有时会干扰信息抽取

小模型经蒸馏后，与大模型独立 RL 训练相比，在极难推理问题上略有差距

推理模式在非英语/中文语言下可能出现重复生成问题

7.2 未来方向

论文指出的未来研究方向：

数据质量提升：更精细的数据过滤与领域扩展
先进架构探索：更高效的注意力机制与 MoE 设计
长上下文技术：更大的有效上下文窗口
Agent 能力增强：通过 RL + 环境反馈提升工具调用与多步规划
多模态融合：Qwen3-VL（已发布）和 Qwen3-Omni 的视觉/音频扩展

八、论文阅读导图

8.1 章节依赖关系

Section 1: 引言
    ↓ 了解 Qwen3 的背景和动机
Section 2: 架构
    ↓ 了解模型的基本组成（需要前置知识 1.1~1.8）
Section 3: 预训练
    ↓ 了解如何从零建立能力（需要理解 Scaling Laws）
Section 4: 后训练
    ↓ 了解如何对齐和增强能力（需要前置知识 1.9~1.11）
Section 5: 评估
    ↓ 理解实验设计和结论
Section 6: 总结

8.2 关键公式速查

概念	公式	位置
注意力	$softmax (Q K^{T} / d_{k}) \cdot V$	前置知识 1.1
GQA 分组	Q heads 分组共享 K/V	前置知识 1.2
RoPE 旋转	$q_{m}^{rot} = q_{m} \cdot e^{im θ}$	前置知识 1.3
RMSNorm	$x / RMS (x) \cdot γ$	前置知识 1.4
GRPO 优势	$(r_{i} - μ_{r}) / σ_{r}$	前置知识 1.10
KL 蒸馏	$min_{θ} KL (P_{teacher} ∥ P_{θ})$	前置知识 1.11

九、重要参考文献

引用	内容	与 Qwen3 的关系
GQA (2023)	Grouped Query Attention	Qwen3 注意力机制基础
RoPE (2021)	旋转位置编码	位置编码基础
RMSNorm (2019)	Root Mean Square Layer Norm	归一化方案
SwiGLU	Swish-Gated Linear Unit	FFN 激活函数
DeepSeekMoE	细粒度专家分割	MoE 架构设计
YaRN (2023)	RoPE 外推扩展	长上下文推理扩展
DCA/ChunkLlama	双块注意力	长上下文推理扩展
GRPO (DeepSeekMath)	Group Relative Policy Optimization	推理 RL 训练算法
QwQ-32B	Qwen 推理模型	冷启动数据生成 Teacher
QK-Norm (Dehghani et al.)	Query/Key 归一化	稳定训练关键设计

十、快速复习卡片

复习题 1

Qwen3 的 MoE 模型有多少专家？每个 token 激活多少个？

答案 128 个专家，每个 token 激活 8 个（激活率 6.25%）。使用细粒度专家分割和全局批次负载均衡损失，不使用共享专家。

共

复习题 2

Qwen3 的后训练分为几个阶段？小模型走哪条路线？

答案 4 阶段：冷启动 SFT → 推理 RL（GRPO）→ 思考模式融合 → 通用 RL。小模型（0.6B~14B + 30B-A3B）走 强到弱蒸馏（Off-policy + On-policy），效率是四阶段的 10 倍。

旗舰模型走

复习题 3

预训练三阶段分别解决什么问题？数据规模分别是多少？

答案

S1 通用阶段：30T tokens，4K 上下文，建立通用知识

S2 推理阶段：5T tokens，4K 上下文，强化 STEM/代码推理

S3 长上下文阶段：数百亿 tokens，32K 上下文，扩展上下文窗口

复习题 4

QK-Norm 解决了什么问题？它在 Qwen2 → Qwen3 中有何变化？

答案 新增 QK-Norm，同时移除了 Qwen2 中使用的 QKV-bias。

QK-Norm 解决了大规模/长上下文训练中 Q·K 内积爆炸导致的训练不稳定问题。 Qwen3

文档生成时间：2026-03-12 | 基于 arXiv 2505.09388 | 版本：v1

Starry's Blog

Explorer

Qwen3

Qwen3 Technical Report

一、前置知识体系

1.1 Transformer 基础架构

1.2 分组查询注意力（GQA）

1.3 旋转位置编码（RoPE）

1.4 RMSNorm 与 Pre-Normalization

1.5 SwiGLU 激活函数

1.6 QK-Norm

1.7 混合专家模型（MoE）

1.8 字节对编码（BPE）与 Tokenizer

1.9 Chain-of-Thought（CoT）推理

1.10 强化学习（RL）在 LLM 对齐中的应用

1.11 知识蒸馏（Knowledge Distillation）

1.12 标量缩放定律（Scaling Laws）

二、模型架构

2.1 模型系列总览

2.2 密集模型详细配置

2.3 MoE 模型详细配置

2.4 关键架构组件对比（Qwen2 vs Qwen3）

2.5 架构设计的深层逻辑

三、预训练

3.1 数据规模与覆盖

3.2 数据来源与构建策略

3.3 实例级数据混合优化

3.4 三阶段预训练策略

3.5 长上下文技术详解

3.6 预训练评估结果摘要

四、后训练（Post-training）

4.1 后训练总体架构

4.2 Stage 1：Long-CoT 冷启动

4.3 Stage 2：推理强化学习（Reasoning RL）

4.4 Stage 3：思考模式融合（Thinking Mode Fusion）

4.4.1 SFT 数据构建

4.4.2 Chat Template 设计

4.4.3 Thinking Budget（思考预算）

4.5 Stage 4：通用强化学习（General RL）

4.6 强到弱蒸馏（Strong-to-Weak Distillation）

两阶段蒸馏流程

效果对比（Qwen3-8B 消融实验）

五、评估与关键结果

5.1 预训练基座模型评估

5.2 后训练指令模型评估

5.3 Thinking Budget Scaling 曲线

六、核心创新点总结

6.1 技术创新地图

6.2 统一双模式的意义

6.3 强到弱蒸馏的工程价值

七、论文的局限性与未来方向

7.1 已知局限

7.2 未来方向

八、论文阅读导图

8.1 章节依赖关系

8.2 关键公式速查

九、重要参考文献

十、快速复习卡片

Graph View

Table of Contents