Qwen3 notes
成果&主要创新点
- 提出Qwen3系列 包括models of both dense and Mixture-of-Expert (MoE) architectures
- 提出混合推理模型 integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework
- 发布大规模MoE架构,并证明MoE scaling law 依然成立
- 支持更多语言
- 在alignment上做了升级,从“偏好对齐”转向“可验证能力对齐”,尤其是在后训练中的Reasoning RL阶段,严选可验证结果的query-verifier对
- 观察到提高thinking budget for thinking tokens对于模型在各种任务上的性能均有提升,也就是当允许模型生成更多thinking tokens时,模型在各种任务上的表现会稳定提升
Dense model vs Sparse model
Dense model:
在一次前向传播(forward pass)时,模型中的所有参数都会被激活并参与计算的模型;也就是所有参数都会被使用、结构通常是连续堆叠且计算复杂度高
Sparse(例如 MoE= Mixture of Experts):
只用部分参数,核心思想是把一个大模型拆成很多“专家网络”,每次只让少数专家工作。
Qwen3 原始主系列
| 模型 | 类型 | 总参数 | 激活参数 | 上下文长度 |
|---|---|---|---|---|
| Qwen3-0.6B | Dense | 0.6B | 0.6B | 32K |
| Qwen3-1.7B | Dense | 1.7B | 1.7B | 32K |
| Qwen3-4B | Dense | 4B | 4B | 128K |
| Qwen3-8B | Dense | 8B | 8B | 128K |
| Qwen3-14B | Dense | 14B | 14B | 128K |
| Qwen3-32B | Dense | 32B | 32B | 128K |
| Qwen3-30B-A3B | MoE | 30B | 3B | 128K |
| Qwen3-235B-A22B | MoE | 235B | 22B | 128K |
多阶段的Post Training

- 前两个阶段:通过 “(CoT) cold-start finetuning and reinforcement learning” 专注于数学和代码任务来培养强大的推理thinking能力
- 后两个阶段:将强大的“非思考”功能集成到模型中:通过combine “data with and without reasoning” into a unified dataset进行更深一步的微调,使得模型能够高效处理这两种输入
- 应用 “general domain reinforcement learning“ 通过广泛的下游任务来提高性能
- 对于小模型:运用“strong-to-weak distillation” 也就是用大模型生成高质量数据,通过蒸馏(off-policy + on-policy)训练小模型
- off-policy:学习的数据来自teacher with both /think and /no think modes for response distillation,可以培养在不同思考模式之间切换的能力
- on-policy:由小模型自己生成用于微调的on policy sequences,通过与teacher模型(Qwen3-32B or Qwen3-235B-A22B)对齐logits来最小化KL散度实现微调
架构
Qwen2 vs Qwen3
| 组件 | Qwen2 | Qwen3 |
|---|---|---|
| 注意力 | GQA + QKV-bias | GQA,移除 QKV-bias |
| 训练稳定性 | - | 新增 QK-Norm |
| 激活函数 | SwiGLU | SwiGLU(不变) |
| 归一化 | RMSNorm + Pre-Norm | RMSNorm + Pre-Norm(不变) |
| 位置编码 | RoPE | RoPE,base freq → 1M |
| MoE 共享专家 | ✅ 有 | ❌ 移除 |
| MoE 负载均衡 | - | 全局批次负载均衡 |
| 通过global-batch load balancing loss能够有效的惩罚专家负载不均,从而让 router 更均匀地分配 token,避免专家闲置或过载 |
Qwen3 架构

局限&研究方向
模型局限
- 在 thinking 模式下进行长文本检索(Retrieval)任务时,额外生成的推理内容有时会干扰信息抽取
- 小模型经蒸馏后,与大模型独立 RL 训练相比,在极难推理问题上略有差距
- 推理模式在非英语/中文语言下可能出现重复生成问题
研究方向
数据质量提升:更精细的数据过滤与领域扩展 先进架构探索:更高效的注意力机制与 MoE 设计 长上下文技术:更大的有效上下文窗口 Agent 能力增强:通过 RL + 环境反馈提升工具调用与多步规划 多模态融合:Qwen3-VL(已发布)和 Qwen3-Omni 的视觉/音频扩展
mindmap root(Qwen3 核心创新) 架构层 QK-Norm稳定训练 移除QKV-bias 全局批次负载均衡MoE 细粒度专家分割 预训练层 36T tokens大规模 119种语言覆盖 VL模型辅助OCR 实例级数据混合优化 三阶段渐进预训练 后训练层 统一思考/非思考双模式 Thinking Budget机制 四阶段旗舰训练 强到弱蒸馏(10x效率) GRPO推理强化学习