Qwen3 notes

成果&主要创新点

提出Qwen3系列包括models of both dense and Mixture-of-Expert (MoE) architectures
提出混合推理模型 integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework
发布大规模MoE架构，并证明MoE scaling law 依然成立
支持更多语言
在alignment上做了升级，从“偏好对齐”转向“可验证能力对齐”，尤其是在后训练中的Reasoning RL阶段，严选可验证结果的query-verifier对
观察到提高thinking budget for thinking tokens对于模型在各种任务上的性能均有提升，也就是当允许模型生成更多thinking tokens时，模型在各种任务上的表现会稳定提升

Dense model vs Sparse model

Dense model：
在一次前向传播（forward pass）时，模型中的所有参数都会被激活并参与计算的模型；也就是所有参数都会被使用、结构通常是连续堆叠且计算复杂度高

Sparse（例如 MoE= Mixture of Experts）：
只用部分参数，核心思想是把一个大模型拆成很多“专家网络”，每次只让少数专家工作。

Qwen3 原始主系列

模型	类型	总参数	激活参数	上下文长度
Qwen3-0.6B	Dense	0.6B	0.6B	32K
Qwen3-1.7B	Dense	1.7B	1.7B	32K
Qwen3-4B	Dense	4B	4B	128K
Qwen3-8B	Dense	8B	8B	128K
Qwen3-14B	Dense	14B	14B	128K
Qwen3-32B	Dense	32B	32B	128K
Qwen3-30B-A3B	MoE	30B	3B	128K
Qwen3-235B-A22B	MoE	235B	22B	128K

多阶段的Post Training

前两个阶段：通过 “(CoT) cold-start finetuning and reinforcement learning” 专注于数学和代码任务来培养强大的推理thinking能力
后两个阶段：将强大的“非思考”功能集成到模型中：通过combine “data with and without reasoning” into a unified dataset进行更深一步的微调，使得模型能够高效处理这两种输入
应用 “general domain reinforcement learning“ 通过广泛的下游任务来提高性能
对于小模型：运用“strong-to-weak distillation” 也就是用大模型生成高质量数据，通过蒸馏（off-policy + on-policy）训练小模型
1. off-policy：学习的数据来自teacher with both /think and /no think modes for response distillation，可以培养在不同思考模式之间切换的能力
2. on-policy：由小模型自己生成用于微调的on policy sequences，通过与teacher模型(Qwen3-32B or Qwen3-235B-A22B)对齐logits来最小化KL散度实现微调

架构

Qwen2 vs Qwen3

组件	Qwen2	Qwen3
注意力	GQA + QKV-bias	GQA，移除 QKV-bias
训练稳定性	-	新增 QK-Norm
激活函数	SwiGLU	SwiGLU（不变）
归一化	RMSNorm + Pre-Norm	RMSNorm + Pre-Norm（不变）
位置编码	RoPE	RoPE，base freq → 1M
MoE 共享专家	✅ 有	❌ 移除
MoE 负载均衡	-	全局批次负载均衡

通过global-batch load balancing loss能够有效的惩罚专家负载不均，从而让 router 更均匀地分配 token，避免专家闲置或过载

Qwen3 架构

局限&研究方向

模型局限

在 thinking 模式下进行长文本检索（Retrieval）任务时，额外生成的推理内容有时会干扰信息抽取

小模型经蒸馏后，与大模型独立 RL 训练相比，在极难推理问题上略有差距

推理模式在非英语/中文语言下可能出现重复生成问题

研究方向

数据质量提升：更精细的数据过滤与领域扩展 先进架构探索：更高效的注意力机制与 MoE 设计 长上下文技术：更大的有效上下文窗口 Agent 能力增强：通过 RL + 环境反馈提升工具调用与多步规划 多模态融合：Qwen3-VL（已发布）和 Qwen3-Omni 的视觉/音频扩展

mindmap
  root(Qwen3 核心创新)
    架构层
      QK-Norm稳定训练
      移除QKV-bias
      全局批次负载均衡MoE
      细粒度专家分割
    预训练层
      36T tokens大规模
      119种语言覆盖
      VL模型辅助OCR
      实例级数据混合优化
      三阶段渐进预训练
    后训练层
      统一思考/非思考双模式
      Thinking Budget机制
      四阶段旗舰训练
      强到弱蒸馏（10x效率）
      GRPO推理强化学习

Starry's Blog

Explorer

Qwen3 研究报告

Qwen3 notes

成果&主要创新点

Dense model vs Sparse model

Qwen3 原始主系列

多阶段的Post Training

架构

Qwen2 vs Qwen3

Qwen3 架构

局限&研究方向

Graph View

Table of Contents