VLMPruning for MoE

MoE LLM 剪枝

Expert-level 剪枝（整体移除专家）：NAEE（ACL 2024）通过枚举专家组合最小化重建损失来移除不重要的专家；REAP（ICLR 2026）提出结合 router gate-values 和 expert activation norms 的剪枝准则，在 20B 到 1T 参数的 SMoE 模型上，50% 压缩率下持续优于 merging 和其他 pruning 方法。 arXivSTUN（ACL 2025）提出先结构化后非结构化的两阶段剪枝。

Expert merging（专家合并）：M-SMoE、HC-SMoE 基于聚类合并相似专家；PuzzleMoE 提出稀疏专家合并配合 bit-packed 推理，在 Qwen3-MoE-30B 上 25% 稀疏度下保留了 99% 的推理准确率。 arXiv

Intra-expert 权重剪枝（专家内部剪枝）：就是你提到的 MoE-Pruner 的思路，利用现有的 LLM 剪枝方法（SparseGPT、Wanda），结合 MoE router 权重信息来识别和移除专家层中不重要的权重。 OpenReview不过值得注意的是，MoE-Pruner 从 ICLR 2025 撤稿了，说明 intra-expert 剪枝这条路线还有改进空间。

矩阵分解：D2-MoE 提取共享权重后对残差 delta 权重做 SVD，MoLAE 用 SVD 将每个专家权重表示为专家特定变换矩阵和共享潜在矩阵的乘积，MoBE 则在 Qwen3-235B、DeepSeek-V3、Kimi-K2 上实现了 24%-30% 参数压缩同时保留 98% 性能。

VLM MOE剪枝思路

VEQ 和 MBQ 的核心发现可以直接迁移到剪枝场景：

不同专家被视觉 token 和语言 token 激活的频率差异很大，少数”热”专家被频繁访问并主导输出，而其他专家保持休眠。 arXiv
视觉 token 和语言 token 对量化噪声的敏感度差异巨大（语言 token 的平均绝对梯度比视觉 token 大一个数量级），这同样意味着不同模态对剪枝的鲁棒性也不同。
最近的”Super Experts”研究发现，在 Qwen3-30B-A3B 中仅剪掉 3 个关键专家就会导致模型性能显著崩溃，而随机剪掉其他专家影响小得多。 arXiv这意味着在 VLM 场景下，视觉 token 和语言 token 可能依赖不同的”超级专家”，需要模态感知的剪枝策略。

核心主张：

现有 MoE 剪枝方法忽略了多模态异质性，直接应用到 MoE VLM 上会因为视觉和语言 token 对不同专家的依赖差异而导致次优结果。

方法设计（可选方向之一）：

Modality-Aware Expert Importance Scoring：分别统计视觉 token 和语言 token 对每个专家的激活频率/gate value/activation norm，构建模态感知的专家重要性度量
Modality-Balanced Pruning：类似 MBQ 在量化中平衡模态灵敏度的思路，在剪枝决策中加入模态平衡约束
Expert-wise KD with Modality Routing：剪枝后用模态感知的知识蒸馏恢复（比如对视觉密集任务和语言密集任务分别蒸馏）

Starry's Blog

Explorer

VLMPruning for MoE

MoE LLM 剪枝

VLM MOE剪枝思路

核心主张：

方法设计（可选方向之一）：

Graph View

Table of Contents