Qwen3 Technical Report
论文基本信息
- 论文标题:Qwen3 Technical Report
- 作者:Qwen Team (Alibaba Cloud), An Yang et al. (60+ 作者)
- arXiv:2505.09388
- 发布日期:2025 年 5 月 14 日
- 开源协议:Apache 2.0
- 核心贡献:统一思考/非思考双模式 + 强到弱蒸馏 + 三阶段预训练 + 四阶段后训练
一、前置知识体系
学习建议
阅读本节可以帮助你在没有深厚基础的情况下理解 Qwen3 的每个技术决策。每个概念都与论文中的具体模块直接挂钩。
1.1 Transformer 基础架构
Transformer 是当代几乎所有大型语言模型(LLM)的核心骨架,由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。
核心思想: 用”注意力(Attention)“机制替代 RNN 的顺序计算,实现对序列的并行处理。
输入序列 → Embedding → [多层 Transformer Block] → 输出
↓
每个 Block = 多头注意力 + 前馈网络(FFN)
自注意力机制(Self-Attention): 给定输入 ,计算三个矩阵:
其中 是 Key 向量的维度, 用于缩放防止梯度消失。
与 Qwen3 的关联: Qwen3 的全部密集模型和 MoE 模型均基于 Transformer Decoder-only 架构。
1.2 分组查询注意力(GQA)
问题背景: 原始多头注意力(MHA)中,每个查询头(Q head)都有对应的独立 K、V 头,推理时需要将 K、V 全部缓存(KV Cache),显存占用大。
MQA(Multi-Query Attention): 所有 Q 头共享一组 K、V,显存极省但表达能力弱。
GQA(Grouped Query Attention): 将 Q 头分成若干组,组内共享一对 K、V,是 MHA 与 MQA 的折中方案。
MHA: Q1 K1 V1 | Q2 K2 V2 | Q3 K3 V3 | Q4 K4 V4
MQA: Q1 Q2 Q3 Q4 → 共享 K1 V1
GQA: [Q1 Q2] → K1 V1 | [Q3 Q4] → K2 V2
与 Qwen3 的关联:
- Qwen3-32B:Q heads = 64,KV heads = 8(8:1 比例)
- Qwen3-235B-A22B:Q heads = 64,KV heads = 4(16:1 比例)
- GQA 在维持性能的同时大幅减少推理时的显存占用
1.3 旋转位置编码(RoPE)
问题背景: Transformer 需要感知 token 的相对/绝对位置,早期用固定正弦位置编码,局限性大,无法很好地泛化到训练时未见过的长度。
RoPE 核心思想: 不在 Embedding 中加入位置信息,而是在计算注意力时,对 Q 和 K 向量施加一个与位置相关的旋转变换。
其中 是 token 位置, 是频率参数(base frequency)。
为何有利于长度外推: 通过调整 base frequency(ABF 技术),可以拉伸 RoPE 的波长,使模型能处理更长的上下文。
与 Qwen3 的关联:
- 预训练阶段 base frequency 从 10,000 提升到 1,000,000(使用 ABF 技术)
- 配合 YaRN 和 DCA(双块注意力)实现从 32K → 128K 的上下文窗口推断扩展
1.4 RMSNorm 与 Pre-Normalization
LayerNorm: 对每个样本在特征维度做归一化,稳定训练。
RMSNorm(Root Mean Square Layer Normalization): 去掉了均值中心化操作,只做缩放:
计算更快,效果接近 LayerNorm。
Pre-Normalization: 在每个子层(Attention/FFN)的输入前做归一化,而非输出后,训练更稳定(Residual Stream 始终保持原始幅度)。
与 Qwen3 的关联: Qwen3 所有模型均采用 RMSNorm + Pre-Normalization 组合。
1.5 SwiGLU 激活函数
FFN 的演化:
- 原始 FFN:
- GLU:引入门控机制,
- SwiGLU:用 Swish 替代 Sigmoid 作为门控:
优势: 比 ReLU 和 GeLU 在语言模型上表现更好(Google PaLM 证实),Llama、Qwen 系列均采用。
与 Qwen3 的关联: Qwen3 全系列 FFN 采用 SwiGLU。
1.6 QK-Norm
问题背景: 在超大规模或长上下文训练时,注意力的 Q、K 向量的内积可能爆炸,导致 softmax 梯度消失(所谓”attention sink”问题),训练不稳定。
QK-Norm: 对 Query 和 Key 向量在计算注意力之前分别做 L2 归一化:
确保内积的量级受控,训练稳定性大幅提升。
与 Qwen3 的关联: 这是相比 Qwen2 的一个重要改动——去掉了 QKV-bias,引入了 QK-Norm,是支持大规模稳定训练的关键设计。
1.7 混合专家模型(MoE)
密集模型(Dense): 每次前向传播,所有参数都参与计算。
MoE(Mixture of Experts): FFN 层被替换为多个并列的”专家(Expert)“网络,每次只激活其中少数几个。
输入 token x
↓
Router(路由器)
↓ ↓ ↓
Expert1 Expert2 Expert3 ... Expert N
↓ 选择 Top-K
加权求和输出
路由器(Router): 一个小型线性层,为每个 token 打分,选出 Top-K 个专家。
关键参数:
Total Experts:模型中专家的总数Activated Experts:每个 token 实际使用的专家数- 激活参数比例 = Activated / Total(即推理成本)
负载均衡(Load Balancing Loss): 防止所有 token 都路由到同一个专家(路由坍缩),通过辅助损失强制各专家均匀使用。
细粒度专家分割(Fine-grained Expert Segmentation): DeepSeekMoE 提出的策略——将原本较大的专家切分为更细粒度的小专家,增加路由的灵活性。
与 Qwen3 的关联:
- Qwen3 MoE 模型:128 个专家,每次激活 8 个
- 采用细粒度专家分割
- 使用全局批次负载均衡损失(global-batch load balancing loss)
- 不使用共享专家(与 Qwen2.5-MoE 的差异)
1.8 字节对编码(BPE)与 Tokenizer
BPE(Byte-Pair Encoding): 一种子词分词算法,通过迭代合并频率最高的字节对来构建词表。
BBPE(Byte-level BPE): 在字节级别操作,理论上可以编码任意 Unicode 字符,对多语言支持更好。
与 Qwen3 的关联: 采用 Qwen 系列统一 Tokenizer,基于 BBPE,词表大小 151,669,支持 119 种语言。
1.9 Chain-of-Thought(CoT)推理
标准推理(Direct Answer): 模型直接输出最终答案。
CoT 推理: 模型先生成一系列中间推理步骤,再给出最终答案:
问:12 个苹果分成 3 份,每份多少?
CoT:先把12分成3组,12÷3=4,所以每份4个。
答:4个
Long-CoT(长链式推理): 更复杂的多步骤推理,可以包含自我反思、假设验证、回溯等认知操作,常见于数学竞赛题和复杂代码生成。
与 Qwen3 的关联: Qwen3 的”思考模式”本质上就是 Long-CoT,输出结果包裹在 <think>...</think> 标签中。
1.10 强化学习(RL)在 LLM 对齐中的应用
RLHF(Reinforcement Learning from Human Feedback): 经典对齐方法,人类标注偏好,训练奖励模型,再用 PPO 优化语言模型。
GRPO(Group Relative Policy Optimization): DeepSeekMath 提出,不需要单独的价值网络(Critic),通过对一组输出进行相对评分来估算优势函数(Advantage):
其中 是第 个生成结果的奖励(通常是 0/1 的正确性奖励)。
与 Qwen3 的关联: Qwen3 的推理 RL 阶段(Stage 2)采用 GRPO,使用 3,995 个可验证题目,AIME’24 分数从 70.1 → 85.1。
1.11 知识蒸馏(Knowledge Distillation)
核心思想: 让小模型(Student)学习大模型(Teacher)的”软标签”(Soft Labels / Logits),而不只是学习 one-hot 的真实标签。
Teacher Model → logits 分布(概率向量)
Student Model → 尽量匹配这个分布(KL 散度最小化)
Off-policy 蒸馏: 使用 Teacher 生成的数据来训练 Student(Teacher 的轨迹)。
On-policy 蒸馏: Student 自己生成轨迹,再让 Teacher 为这些轨迹的 logits 提供监督信号。
与 Qwen3 的关联: 小模型(0.6B ~ 14B)通过”强到弱蒸馏”(Strong-to-Weak Distillation)从 Qwen3-32B 或 Qwen3-235B-A22B 获取能力,效率是 RL 的 10 倍。
1.12 标量缩放定律(Scaling Laws)
Chinchilla 定律: 模型参数量 和训练 token 数 存在最优比例关系。
与 Qwen3 的关联: 论文指出他们基于三阶段预训练,建立了超参数(学习率调度、批大小)的缩放定律预测系统,为每个模型预测最优超参数。
二、模型架构
2.1 模型系列总览
Qwen3 发布了 6 个密集模型 + 2 个 MoE 模型,共 8 个规模:
| 模型 | 类型 | 总参数 | 激活参数 | 上下文长度 |
|---|---|---|---|---|
| Qwen3-0.6B | Dense | 0.6B | 0.6B | 32K |
| Qwen3-1.7B | Dense | 1.7B | 1.7B | 32K |
| Qwen3-4B | Dense | 4B | 4B | 128K |
| Qwen3-8B | Dense | 8B | 8B | 128K |
| Qwen3-14B | Dense | 14B | 14B | 128K |
| Qwen3-32B | Dense | 32B | 32B | 128K |
| Qwen3-30B-A3B | MoE | 30B | 3B | 128K |
| Qwen3-235B-A22B | MoE | 235B | 22B | 128K |
效率亮点
- Qwen3-30B-A3B 仅激活 3B 参数,推理成本约等于一个 3B 密集模型,但性能堪比 14B 密集模型
- Qwen3-235B-A22B 激活 22B 参数,性能达到 SOTA,超过 DeepSeek-V3(671B 总参数)
2.2 密集模型详细配置
| 模型 | 层数 | Q heads | KV heads | 权重绑定 | 上下文 |
|---|---|---|---|---|---|
| Qwen3-0.6B | 28 | 16 | 8 | ✅ 是 | 32K |
| Qwen3-1.7B | 28 | 16 | 8 | ✅ 是 | 32K |
| Qwen3-4B | 36 | 32 | 8 | ✅ 是 | 128K |
| Qwen3-8B | 36 | 32 | 8 | ❌ 否 | 128K |
| Qwen3-14B | 40 | 40 | 8 | ❌ 否 | 128K |
| Qwen3-32B | 64 | 64 | 8 | ❌ 否 | 128K |
权重绑定(Tie Embedding): 输入 Embedding 矩阵和输出 LM Head 矩阵共享参数,小模型常用此技术减少参数量。
2.3 MoE 模型详细配置
| 模型 | 层数 | Q heads | KV heads | 专家 (总/激活) | 上下文 |
|---|---|---|---|---|---|
| Qwen3-30B-A3B | 48 | 32 | 4 | 128 / 8 | 128K |
| Qwen3-235B-A22B | 94 | 64 | 4 | 128 / 8 | 128K |
注意:
- MoE 模型 KV heads 更少(4 heads),进一步降低推理时 KV Cache 占用
- 每层 128 个专家中只激活 8 个(激活率 6.25%)
2.4 关键架构组件对比(Qwen2 vs Qwen3)
| 组件 | Qwen2 | Qwen3 |
|---|---|---|
| 注意力 | GQA + QKV-bias | GQA,移除 QKV-bias |
| 训练稳定性 | - | 新增 QK-Norm |
| 激活函数 | SwiGLU | SwiGLU(不变) |
| 归一化 | RMSNorm + Pre-Norm | RMSNorm + Pre-Norm(不变) |
| 位置编码 | RoPE | RoPE,base freq → 1M |
| MoE 共享专家 | ✅ 有 | ❌ 移除 |
| MoE 负载均衡 | - | 全局批次负载均衡 |
2.5 架构设计的深层逻辑
graph TD A[稳定训练需求] --> B[QK-Norm] A --> C[移除QKV-bias] D[推理效率需求] --> E[GQA减少KV Cache] D --> F[MoE减少激活参数] G[长上下文需求] --> H[RoPE base=1M] G --> I[YaRN + DCA推理扩展] J[专家专业化] --> K[全局负载均衡Loss] J --> L[细粒度专家分割] J --> M[移除共享专家]
三、预训练
3.1 数据规模与覆盖
| 维度 | Qwen2.5 | Qwen3 | 提升 |
|---|---|---|---|
| 总 Token 数 | ~18T | 36T | 2× |
| 语言数量 | 29 | 119 | 4× |
| 合成数据 | 有限 | 数万亿 tokens | 大幅增加 |
3.2 数据来源与构建策略
三大数据来源:
① 网页与文档文本
- 传统网络爬取 + 质量过滤
- 使用 Qwen2.5-VL 对 PDF 类文档进行 OCR 文字识别
- 用 Qwen2.5 模型对识别文字进行质量精炼
- 额外产出数万亿高质量 tokens
② 合成数据(Synthetic Data) 使用专有模型生成多种格式的合成数据:
Qwen2.5-Math→ 数学教材、数学解题过程Qwen2.5-Coder→ 代码片段、编程问答Qwen2.5→ 通用教材、指令数据、问答对- 格式覆盖:教材、问答、指令、代码片段,跨越数十个领域
③ 多语言数据扩展
- 专门增加低资源语言的覆盖
- 从 29 种语言扩展到 119 种语言和方言
3.3 实例级数据混合优化
传统方法的局限: 之前的研究(DOReMi, DOGE 等)通常在数据源或领域级别优化数据混合比例。
Qwen3 的创新:
- 建立多维度数据标注系统,对超过 30 万亿 tokens 进行标注
- 标注维度包括:教育价值、领域、安全性 等细粒度标签
- 在实例(instance)级别优化数据混合,通过代理小模型(proxy model)的消融实验确定最优配比
3.4 三阶段预训练策略
Stage 1: General Stage (S1)
数据量: ~30T tokens
序列长度: 4,096 tokens
目标: 建立通用语言能力和世界知识基础
语言覆盖: 119 种语言和方言
↓
Stage 2: Reasoning Stage (S2)
数据量: ~5T tokens(高质量)
序列长度: 4,096 tokens
目标: 增强 STEM、代码、推理能力
特点: 提高 STEM/Coding/Reasoning/Synthetic 数据比例
加速学习率衰减(LR decay)
↓
Stage 3: Long Context Stage
数据量: 数千亿 tokens
序列长度: 32,768 tokens
目标: 将上下文窗口从 4K 扩展到 32K
数据构成: 75% 长文本 (16K-32K) + 25% 中等文本 (4K-16K)
技术: ABF (RoPE base 1M) + YaRN + DCA
三阶段设计的核心逻辑
- Stage 1 打宽度:覆盖广,建立知识边界
- Stage 2 打深度:数据更精,强化推理能力
- Stage 3 打长度:专攻长上下文,解锁长文理解
3.5 长上下文技术详解
ABF(Adjusted Base Frequency): 将 RoPE 的 base frequency 从 10,000 提高到 1,000,000,使位置编码的波长更长,从而让模型”感知”更远距离的相对位置。
YaRN(Yet Another RoPE extaNsion): 一种推理阶段的上下文外推技术,通过对 RoPE 频率进行分段缩放(不同频率段用不同缩放系数),实现训练时 32K → 推理时 128K 的扩展。
DCA(Dual Chunk Attention / ChunkLlama): 将长序列切分为块(Chunk),块内做完整注意力,块间做跨块注意力。能以低计算量支持更长序列,推理时实现 4× 的序列长度扩展。
3.6 预训练评估结果摘要
基座模型核心结论
结论 1:小模型吊打更大密集模型
- Qwen3-8B-Base ≈ Qwen2.5-14B-Base(同等或更强)
- Qwen3-4B-Base ≈ Qwen2.5-7B-Base
- Qwen3-1.7B-Base ≈ Qwen2.5-3B-Base
- 效率提升约 2×
结论 2:MoE 模型的极致效率
- Qwen3-30B-A3B(仅激活 3B)≈ Qwen3-14B-Base(14B 密集)
- 相当于 1/10 的激活参数量实现同等性能
结论 3:旗舰 MoE 超越更大规模模型
- Qwen3-235B-A22B-Base 在 15 个评测基准中的 14 个超越 DeepSeek-V3-Base
- DeepSeek-V3-Base 总参数 671B,激活 37B;而 Qwen3 仅 235B 总、22B 激活
四、后训练(Post-training)
4.1 后训练总体架构
Qwen3 的后训练分为两条并行路线:
旗舰模型路线(Qwen3-32B 和 Qwen3-235B-A22B):
Base Model
→ Stage 1: Long-CoT Cold Start(冷启动监督微调)
→ Stage 2: Reasoning RL(推理强化学习)
→ Stage 3: Thinking Mode Fusion(思考模式融合)
→ Stage 4: General RL(通用强化学习)
→ Instruct Model
轻量模型路线(0.6B ~ 14B dense, 30B-A3B MoE):
Base Model → Strong-to-Weak Distillation
→ Phase 1: Off-policy Distillation(离策略蒸馏)
→ Phase 2: On-policy Distillation(在策略蒸馏)
→ Instruct Model
4.2 Stage 1:Long-CoT 冷启动
目标: 让模型”学会”如何进行长链式推理,建立推理行为的基本模式。
数据构建流程:
数据集范围: 数学 + 代码 + 逻辑推理 + 通用 STEM(均有可验证答案)
↓
Query 过滤(使用 Qwen2.5-72B-Instruct 判断):
- 去除不易验证的 query(如含多个子问题、纯文本生成类)
- 去除无需 CoT 即可正确回答的 query(防止模型走捷径)
- 标注每个 query 的领域(保持领域平衡)
↓
Response 生成(使用 QwQ-32B 生成 N 个候选回答)
↓
Response 过滤(去除以下情况):
❌ 最终答案错误
❌ 存在大量重复
❌ 明显猜测,缺乏推理
❌ 思考与总结不一致
❌ 不当语言混用或风格突变
❌ 与验证集过于相似(防止数据泄露)
↓
精选子集 → 用于冷启动 SFT
冷启动的设计哲学
目标是”植入推理模式的种子”,而不是”立即最大化性能”。 因此刻意减少训练样本量和训练步数,为后续 RL 保留充足的上升空间。
4.3 Stage 2:推理强化学习(Reasoning RL)
算法: GRPO(Group Relative Policy Optimization)
数据要求(4 条标准):
- 未在冷启动阶段使用过
- 对冷启动后的模型是”可学”的(不能太难)
- 尽可能有挑战性
- 覆盖广泛的子领域
规模: 最终收集 3,995 个 query-verifier 对(题目+验证器)
关键训练技巧:
| 技巧 | 具体做法 | 作用 |
|---|---|---|
| 大批量 | 使用较大的 batch size | 提升梯度估计稳定性 |
| 多 rollout | 每个 query 生成大量采样 | 更好的相对评分基础 |
| Off-policy 训练 | 利用历史样本提升样本效率 | 减少所需数据量 |
| 熵控制 | 让模型熵稳定增长 | 平衡探索与利用,防止分布坍缩 |
结果:
- Qwen3-235B-A22B 的 AIME’24 分数:70.1 → 85.1
- 仅需 170 个 RL 训练步骤,全程无需手动调整超参数
4.4 Stage 3:思考模式融合(Thinking Mode Fusion)
目标: 将”非思考模式”能力注入已具备强推理能力的模型,实现两种模式的统一。
4.4.1 SFT 数据构建
思考(Thinking)数据:
- 用 Stage 2 模型对 Stage 1 的 query 做 Rejection Sampling(拒绝采样)
- 保留高质量的推理轨迹,确保不损害 Stage 2 的推理能力
非思考(Non-thinking)数据(精心构建):
- 编程、数学、指令跟随、多语言、创意写作、问答、角色扮演
- 使用自动生成的 Checklist 评估响应质量
- 特别增加翻译任务比例,强化低资源语言性能
4.4.2 Chat Template 设计
思考模式:
User: /think [你的问题]
Assistant: <think>
[推理过程...]
</think>
[最终答案]
非思考模式:
User: /no_think [你的问题]
Assistant: <think>
</think>
[直接回答]
多轮对话:
User: /think [问题1] → 触发思考
User: /no_think [问题2] → 触发非思考(遵循最后一个 flag)
设计巧思:
- 非思考模式保留空的
<think></think>块,保证输出格式一致 - 默认为思考模式(部分训练样本不带
/thinkflag,模型自动思考) - 开发者可以在 system message 中预填充空 think 块来禁用思考
4.4.3 Thinking Budget(思考预算)
核心机制: 用户可以在 prompt 中指定允许消耗的思考 token 上限,模型会自适应调整思考深度。
示例: "请用不超过1000个token的思考来回答这道数学题"
实验发现: 在数学、代码、STEM 任务上,增加思考 budget 的分配会持续提升模型性能(单调正相关),为计算资源的弹性分配提供了清晰的 scaling 规律。
4.5 Stage 4:通用强化学习(General RL)
目标: 广泛提升模型在各类下游任务上的综合能力。
能力覆盖:
- 指令跟随(Instruction Following)
- 格式遵循(Format Following)
- 偏好对齐(Preference Alignment)
- Agent 能力(工具调用、多步骤规划)
- 专业场景(如计数事实问答、长度控制生成等)
奖励系统: 多种奖励类型的混合:
- 基于规则的奖励:格式正确性、指令是否遵循
- 基于模型的奖励(有参考):与参考答案的质量比较
- 基于模型的奖励(无参考):开放式任务的质量评判
内部测试基准(In-house Benchmarks):
| 基准名 | 测试内容 |
|---|---|
| CounterFactQA | 反事实问题识别,防幻觉 |
| LengthCtrl | 创意写作长度控制精度 |
| ThinkFollow | 多轮对话中思考模式切换正确率 |
| ToolUse | 单轮/多轮/多步骤工具调用稳定性 |
消融分析(Qwen3-32B):
| 训练阶段后 | ThinkFollow | 推理表现 | 通用能力 |
|---|---|---|---|
| Stage 2(Reasoning RL) | 低 | 最强 | 弱 |
| Stage 3(Mode Fusion) | 中 | 略降 | 提升 |
| Stage 4(General RL) | 98.9 | 略降 | 最强 |
性能权衡
Stage 3 和 Stage 4 之后,复杂推理任务(如 AIME、LiveCodeBench)的思考模式分数略有下降。这是为增强综合能力而接受的取舍,论文团队明确表示认可这一 trade-off。
4.6 强到弱蒸馏(Strong-to-Weak Distillation)
适用对象: Qwen3-0.6B, 1.7B, 4B, 8B, 14B(密集)+ Qwen3-30B-A3B(MoE)
Teacher 模型: Qwen3-32B 或 Qwen3-235B-A22B(已完成四阶段训练)
两阶段蒸馏流程
Phase 1:Off-policy 蒸馏
Teacher 生成 /think 和 /no_think 两种模式的回答
↓
Student 对这些回答进行 SFT 训练
↓
目标:让 Student 具备基本的推理能力和模式切换能力
Phase 2:On-policy 蒸馏
Student 自己生成回答(on-policy 采样)
↓
将 Student 生成的 logit 与 Teacher 对同一 prompt 的 logit 进行对齐
(最小化 KL 散度)
↓
目标:让 Student 在自己的分布上更好地模仿 Teacher
效果对比(Qwen3-8B 消融实验)
| 训练方式 | Pass@1(即时性能) | Pass@64(探索能力) | GPU 小时 |
|---|---|---|---|
| 独立四阶段 RL | 基线 | 基线 | 100% |
| 强到弱蒸馏 | 更高 | 更高 | 约 10% |
蒸馏的优势
蒸馏不仅在即时性能(Pass@1)上超过直接 RL,在探索能力(Pass@64)上也更强,同时只需 1/10 的 GPU 小时数。
五、评估与关键结果
5.1 预训练基座模型评估
15 个基准测试覆盖 4 大领域:
| 领域 | 基准 |
|---|---|
| 通用知识 | MMLU, MMLU-Pro, MMLU-Redux, BBH, SuperGPQA |
| 数学/STEM | GPQA, GSM8K, MATH |
| 代码 | EvalPlus, MultiPL-E, MBPP, CRUX-O |
| 多语言 | MGSM, MMMLU, INCLUDE |
旗舰基座对比(Qwen3-235B-A22B-Base vs. 竞品):
| 模型 | 总参数 | 激活参数 | MMLU | EvalPlus | MATH |
|---|---|---|---|---|---|
| DeepSeek-V3-Base | 671B | 37B | 87.19 | 63.75 | 62.62 |
| Llama-4-Maverick-Base | 402B | 17B | 85.16 | 68.38 | 63.32 |
| Qwen2.5-72B-Base | 72B | 72B | 86.06 | 65.93 | 62.12 |
| Qwen3-235B-A22B-Base | 235B | 22B | 87.81 | 77.60 | 71.84 |
5.2 后训练指令模型评估
旗舰模型 Qwen3-235B-A22B 关键分数:
| 基准 | 分数 | 对比 |
|---|---|---|
| AIME’24 | 85.7 | 超越 o1、o3-mini |
| AIME’25 | 81.5 | SOTA 水平 |
| LiveCodeBench v5 | 70.7 | 超越 DeepSeek-V3 |
| CodeForces Elo | 2,056 | 顶级竞赛水平 |
| BFCL v3 (Agent) | 70.8 | SOTA |
5.3 Thinking Budget Scaling 曲线
实验表明,在数学、代码、STEM 任务上:
思考 token 预算: 0 → 1K → 4K → 8K → 16K → 32K+
性能: ↑ ↑ ↑ ↑ ↑ ↑(持续上升)
这提供了弹性计算资源分配的理论依据:用户可以根据任务复杂度和延迟需求,灵活调整 thinking budget。
六、核心创新点总结
6.1 技术创新地图
mindmap root(Qwen3 核心创新) 架构层 QK-Norm稳定训练 移除QKV-bias 全局批次负载均衡MoE 细粒度专家分割 预训练层 36T tokens大规模 119种语言覆盖 VL模型辅助OCR 实例级数据混合优化 三阶段渐进预训练 后训练层 统一思考/非思考双模式 Thinking Budget机制 四阶段旗舰训练 强到弱蒸馏(10x效率) GRPO推理强化学习
6.2 统一双模式的意义
之前的痛点:
- 需要维护两套不同的模型(如 Qwen2.5 + QwQ)
- 用户需要在速度和推理质量之间手动切换模型
- 部署成本高,资源浪费
Qwen3 的解决方案:
- 单一模型,通过
/think和/no_think标志动态切换 - Thinking Budget 提供更细粒度的推理深度控制
- 一套权重,满足从快速响应到复杂推理的全场景需求
6.3 强到弱蒸馏的工程价值
传统的每个模型都要走完完整的四阶段 RL 训练,对小模型来说既费时又未必有大模型效果好。Qwen3 的强到弱蒸馏实现了:
- 性能更好:小模型从最强 Teacher 直接获取知识
- 效率更高:只需约 10% 的 GPU 计算量
- 能力迁移完整:推理能力和模式切换能力均可迁移
七、论文的局限性与未来方向
7.1 已知局限
模型局限
- 在 thinking 模式下进行长文本检索(Retrieval)任务时,额外生成的推理内容有时会干扰信息抽取
- 小模型经蒸馏后,与大模型独立 RL 训练相比,在极难推理问题上略有差距
- 推理模式在非英语/中文语言下可能出现重复生成问题
7.2 未来方向
论文指出的未来研究方向:
- 数据质量提升:更精细的数据过滤与领域扩展
- 先进架构探索:更高效的注意力机制与 MoE 设计
- 长上下文技术:更大的有效上下文窗口
- Agent 能力增强:通过 RL + 环境反馈提升工具调用与多步规划
- 多模态融合:Qwen3-VL(已发布)和 Qwen3-Omni 的视觉/音频扩展
八、论文阅读导图
8.1 章节依赖关系
Section 1: 引言
↓ 了解 Qwen3 的背景和动机
Section 2: 架构
↓ 了解模型的基本组成(需要前置知识 1.1~1.8)
Section 3: 预训练
↓ 了解如何从零建立能力(需要理解 Scaling Laws)
Section 4: 后训练
↓ 了解如何对齐和增强能力(需要前置知识 1.9~1.11)
Section 5: 评估
↓ 理解实验设计和结论
Section 6: 总结
8.2 关键公式速查
| 概念 | 公式 | 位置 |
|---|---|---|
| 注意力 | 前置知识 1.1 | |
| GQA 分组 | Q heads 分组共享 K/V | 前置知识 1.2 |
| RoPE 旋转 | 前置知识 1.3 | |
| RMSNorm | 前置知识 1.4 | |
| GRPO 优势 | 前置知识 1.10 | |
| KL 蒸馏 | 前置知识 1.11 |
九、重要参考文献
| 引用 | 内容 | 与 Qwen3 的关系 |
|---|---|---|
| GQA (2023) | Grouped Query Attention | Qwen3 注意力机制基础 |
| RoPE (2021) | 旋转位置编码 | 位置编码基础 |
| RMSNorm (2019) | Root Mean Square Layer Norm | 归一化方案 |
| SwiGLU | Swish-Gated Linear Unit | FFN 激活函数 |
| DeepSeekMoE | 细粒度专家分割 | MoE 架构设计 |
| YaRN (2023) | RoPE 外推扩展 | 长上下文推理扩展 |
| DCA/ChunkLlama | 双块注意力 | 长上下文推理扩展 |
| GRPO (DeepSeekMath) | Group Relative Policy Optimization | 推理 RL 训练算法 |
| QwQ-32B | Qwen 推理模型 | 冷启动数据生成 Teacher |
| QK-Norm (Dehghani et al.) | Query/Key 归一化 | 稳定训练关键设计 |
十、快速复习卡片
复习题 1
Qwen3 的 MoE 模型有多少专家?每个 token 激活多少个?
答案 128 个专家,每个 token 激活 8 个(激活率 6.25%)。使用细粒度专家分割和全局批次负载均衡损失,不使用共享专家。
共
复习题 2
Qwen3 的后训练分为几个阶段?小模型走哪条路线?
答案 4 阶段:冷启动 SFT → 推理 RL(GRPO)→ 思考模式融合 → 通用 RL。 小模型(0.6B~14B + 30B-A3B)走 强到弱蒸馏(Off-policy + On-policy),效率是四阶段的 10 倍。
旗舰模型走
复习题 3
预训练三阶段分别解决什么问题?数据规模分别是多少?
答案
- S1 通用阶段:30T tokens,4K 上下文,建立通用知识
- S2 推理阶段:5T tokens,4K 上下文,强化 STEM/代码推理
- S3 长上下文阶段:数百亿 tokens,32K 上下文,扩展上下文窗口
复习题 4
QK-Norm 解决了什么问题?它在 Qwen2 → Qwen3 中有何变化?
答案 新增 QK-Norm,同时移除了 Qwen2 中使用的 QKV-bias。
QK-Norm 解决了大规模/长上下文训练中 Q·K 内积爆炸导致的训练不稳定问题。 Qwen3
文档生成时间:2026-03-12 | 基于 arXiv 2505.09388 | 版本:v1