MoE LLM 剪枝
Expert-level 剪枝(整体移除专家):NAEE(ACL 2024)通过枚举专家组合最小化重建损失来移除不重要的专家;REAP(ICLR 2026)提出结合 router gate-values 和 expert activation norms 的剪枝准则,在 20B 到 1T 参数的 SMoE 模型上,50% 压缩率下持续优于 merging 和其他 pruning 方法。 arXivSTUN(ACL 2025)提出先结构化后非结构化的两阶段剪枝。
Expert merging(专家合并):M-SMoE、HC-SMoE 基于聚类合并相似专家;PuzzleMoE 提出稀疏专家合并配合 bit-packed 推理,在 Qwen3-MoE-30B 上 25% 稀疏度下保留了 99% 的推理准确率。 arXiv
Intra-expert 权重剪枝(专家内部剪枝):就是你提到的 MoE-Pruner 的思路,利用现有的 LLM 剪枝方法(SparseGPT、Wanda),结合 MoE router 权重信息来识别和移除专家层中不重要的权重。 OpenReview不过值得注意的是,MoE-Pruner 从 ICLR 2025 撤稿了,说明 intra-expert 剪枝这条路线还有改进空间。
矩阵分解:D2-MoE 提取共享权重后对残差 delta 权重做 SVD,MoLAE 用 SVD 将每个专家权重表示为专家特定变换矩阵和共享潜在矩阵的乘积,MoBE 则在 Qwen3-235B、DeepSeek-V3、Kimi-K2 上实现了 24%-30% 参数压缩同时保留 98% 性能。
VLM MOE剪枝思路
VEQ 和 MBQ 的核心发现可以直接迁移到剪枝场景:
-
不同专家被视觉 token 和语言 token 激活的频率差异很大,少数”热”专家被频繁访问并主导输出,而其他专家保持休眠。 arXiv
-
视觉 token 和语言 token 对量化噪声的敏感度差异巨大(语言 token 的平均绝对梯度比视觉 token 大一个数量级),这同样意味着不同模态对剪枝的鲁棒性也不同。
-
最近的”Super Experts”研究发现,在 Qwen3-30B-A3B 中仅剪掉 3 个关键专家就会导致模型性能显著崩溃,而随机剪掉其他专家影响小得多。 arXiv这意味着在 VLM 场景下,视觉 token 和语言 token 可能依赖不同的”超级专家”,需要模态感知的剪枝策略。
核心主张:
现有 MoE 剪枝方法忽略了多模态异质性,直接应用到 MoE VLM 上会因为视觉和语言 token 对不同专家的依赖差异而导致次优结果。
方法设计(可选方向之一):
-
Modality-Aware Expert Importance Scoring:分别统计视觉 token 和语言 token 对每个专家的激活频率/gate value/activation norm,构建模态感知的专家重要性度量
-
Modality-Balanced Pruning:类似 MBQ 在量化中平衡模态灵敏度的思路,在剪枝决策中加入模态平衡约束
-
Expert-wise KD with Modality Routing:剪枝后用模态感知的知识蒸馏恢复(比如对视觉密集任务和语言密集任务分别蒸馏)