Qwen3 notes

成果&主要创新点

  1. 提出Qwen3系列 包括models of both dense and Mixture-of-Expert (MoE) architectures
  2. 提出混合推理模型 integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework
  3. 发布大规模MoE架构,并证明MoE scaling law 依然成立
  4. 支持更多语言
  5. 在alignment上做了升级,从“偏好对齐”转向“可验证能力对齐”,尤其是在后训练中的Reasoning RL阶段,严选可验证结果的query-verifier对
  6. 观察到提高thinking budget for thinking tokens对于模型在各种任务上的性能均有提升,也就是当允许模型生成更多thinking tokens时,模型在各种任务上的表现会稳定提升

Dense model vs Sparse model

Dense model
在一次前向传播(forward pass)时,模型中的所有参数都会被激活并参与计算的模型;也就是所有参数都会被使用、结构通常是连续堆叠且计算复杂度高

Sparse(例如 MoE= Mixture of Experts):
只用部分参数,核心思想是把一个大模型拆成很多“专家网络”,每次只让少数专家工作。

Qwen3 原始主系列

模型类型总参数激活参数上下文长度
Qwen3-0.6BDense0.6B0.6B32K
Qwen3-1.7BDense1.7B1.7B32K
Qwen3-4BDense4B4B128K
Qwen3-8BDense8B8B128K
Qwen3-14BDense14B14B128K
Qwen3-32BDense32B32B128K
Qwen3-30B-A3BMoE30B3B128K
Qwen3-235B-A22BMoE235B22B128K

多阶段的Post Training

  1. 前两个阶段:通过 “(CoT) cold-start finetuning and reinforcement learning” 专注于数学和代码任务来培养强大的推理thinking能力
  2. 后两个阶段:将强大的“非思考”功能集成到模型中:通过combine “data with and without reasoning”  into a unified dataset进行更深一步的微调,使得模型能够高效处理这两种输入
  3. 应用 “general domain reinforcement learning“ 通过广泛的下游任务来提高性能
  4. 对于小模型:运用“strong-to-weak distillation” 也就是用大模型生成高质量数据,通过蒸馏(off-policy + on-policy)训练小模型
    1. off-policy:学习的数据来自teacher with both /think and /no think modes for response distillation,可以培养在不同思考模式之间切换的能力
    2. on-policy:由小模型自己生成用于微调的on policy sequences,通过与teacher模型(Qwen3-32B or Qwen3-235B-A22B)对齐logits来最小化KL散度实现微调

架构

Qwen2 vs Qwen3

组件Qwen2Qwen3
注意力GQA + QKV-biasGQA,移除 QKV-bias
训练稳定性-新增 QK-Norm
激活函数SwiGLUSwiGLU(不变)
归一化RMSNorm + Pre-NormRMSNorm + Pre-Norm(不变)
位置编码RoPERoPE,base freq → 1M
MoE 共享专家✅ 有移除
MoE 负载均衡-全局批次负载均衡
通过global-batch load balancing loss能够有效的惩罚专家负载不均,从而让 router 更均匀地分配 token,避免专家闲置或过载

Qwen3 架构

局限&研究方向

模型局限

  • 在 thinking 模式下进行长文本检索(Retrieval)任务时,额外生成的推理内容有时会干扰信息抽取
  • 小模型经蒸馏后,与大模型独立 RL 训练相比,在极难推理问题上略有差距
  • 推理模式在非英语/中文语言下可能出现重复生成问题

研究方向

数据质量提升:更精细的数据过滤与领域扩展 先进架构探索:更高效的注意力机制与 MoE 设计 长上下文技术:更大的有效上下文窗口 Agent 能力增强:通过 RL + 环境反馈提升工具调用与多步规划 多模态融合:Qwen3-VL(已发布)和 Qwen3-Omni 的视觉/音频扩展

mindmap
  root(Qwen3 核心创新)
    架构层
      QK-Norm稳定训练
      移除QKV-bias
      全局批次负载均衡MoE
      细粒度专家分割
    预训练层
      36T tokens大规模
      119种语言覆盖
      VL模型辅助OCR
      实例级数据混合优化
      三阶段渐进预训练
    后训练层
      统一思考/非思考双模式
      Thinking Budget机制
      四阶段旗舰训练
      强到弱蒸馏(10x效率)
      GRPO推理强化学习