MoE-aware pruning 调研笔记

分类框架

MoE-aware pruning 相关工作可以分成四条主线:

  1. 基于 router / activation 的 expert 重要性估计:核心是“哪些 expert 常被选中、输出贡献大不大、对当前 domain 是否关键”。

  2. 搜索 / 优化 / 非均匀剪枝:核心是“不同层冗余不同,不能统一按 50% 裁”。

  3. expert merging / basis / low-rank 压缩:严格说不全是 pruning,但和 MoE-aware compression 强相关,尤其在和 pruning 做结合时很重要。

  4. 多模态 / VLM 特化的 MoE-aware acceleration:目前论文显著少于 LLM,而且关键难点是 视觉 token 冗余和 expert 冗余是耦合的。这点在 MoDES 和 FastMMoE 里最明确。(arXiv)


2. 第一类:router / activation 驱动的 expert pruning / skipping

2.1 Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

  • 痛点:大型多语种 MoE 模型虽然推理时只激活少量 expert,但部署时仍要把全部 expert 放在显存里,NLLB-200 最大模型甚至需要至少 4 张 32GB GPU 才能推理。

  • 方法:论文的关键观察是 language-specific experts 的存在。它用 pruning metric 去识别某个语言对真正依赖的 expert,只保留它们,从而做到 最多移除 80% experts,且几乎不需要再 finetune。

  • 核心:这是最早把“expert specialization 可以被 pruning 利用”讲清楚的代表作之一。对做 VLM 很重要,因为它启发以后可以做 domain-specific / benchmark-specific / modality-specific expert localization

  • arXiv / 会议arXiv:2212.09811;ACL 2023。 (ACL Anthology)

2.2 Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

  • 痛点:传统 weight pruning 更偏 dense 模型,而且很多方法难以直接转成真实部署收益;MoE 真正应该做的是 expert-level sparsification

  • 方法:这篇论文把问题明确做成 post-training 的 expert pruning 和 expert skipping,并区分 task-agnostictask-specific 两种设置。它的贡献不是只提一个 heuristic,而是把“expert-level 压缩”这条路系统化了。

  • 核心:这是 MoE-aware pruning 在 LLM 里的“入门总纲”。如果后面写 related work,几乎一定要从它开始。

  • arXiv / 会议arXiv:2402.14800;ACL 2024。 (arXiv)

2.3 Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations

  • 痛点:即便 expert-level pruning 有效,仍然缺一个能适配特定领域的方法;大模型在某个 domain 上往往不需要所有 expert。

  • 方法:这篇提出 EASY-EP。核心观察是 few-shot expert localization:只用少量领域示例,模型就会稳定激活一小撮 expert。方法上结合了 output-aware expert importance assessmentexpert-level token contribution estimation,前者看 gating score 与 expert 输出强度,后者看 token 经过 expert 前后的表示变化。

  • 核心:它非常适合迁到 VLM。比如 OCR、chart、math diagram、document QA,极可能都有各自稳定的 expert 子集。

  • arXiv / 会议arXiv:2504.06792;NeurIPS 2025。 (arXiv)

2.4 REAP the Experts: Why Pruning Prevails for One-Shot MoE Compression

  • 痛点:2024–2025 有一条很强的 expert merging 路线,但它们在 generative tasks 上不一定真的优于 pruning。

  • 方法:这篇从理论上指出 merging 会带来 functional subspace collapse,因为 router 对不同 expert 的输入相关独立控制被破坏了;在此基础上提出 REAP (Router-weighted Expert Activation Pruning),把 router gate-valuesexpert activation norms 结合成剪枝准则。

  • 核心:如果任务是 生成式 VLM/MLLM,这篇非常重要,提醒了:不是所有 compression 都该往 merging 走,pruning 可能更稳

  • arXiv / 会议arXiv:2510.13999;ICLR 2026 Poster。 (arXiv)

2.5 MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router

  • 痛点:只做 expert-level 删除太粗;同一个 expert 内部也有大量冗余参数。

  • 方法:它做的是 router-aware weight pruning。权重重要性不是单看 magnitude,而是看
    |w| × activation × router weight,并且是 one-shot、无需 retraining / weight update;另外还补了 expert-wise KD 来恢复性能。

  • 核心:这篇特别值得借鉴到 VLM:以后可以把视觉 token 的 modality 信息也放进这个 score 里,变成 |w| × activation × router × modality affinity

  • arXiv / 会议arXiv:2410.12013;ICLR 2025 withdrawn submission。 (arXiv)


3. 第二类:搜索 / 非均匀 / 理论驱动剪枝

3.1 A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts

  • 痛点:MoE pruning 早期多数是 heuristic,缺少理论解释;同时,vision MoE 上也缺少 pruning 信号。

  • 方法:这篇给出一个很干净的准则:优先剪掉 router 的 (l_2) norm 相对预训练阶段变化较小 的 experts,并证明这种优先级有助于保留精度。实验验证放在 V-MoE、E³-MoE 这类 vision MoE 上。

  • 核心:这是少数真正和 vision MoE 有直接关系的 pruning 论文。启发:可以把“router 在微调后偏离预训练多少”当成 expert 是否真正被任务重塑过的标志。

  • arXiv / 会议arXiv:2405.16646;ICML 2024。 (Proceedings of Machine Learning Research)

3.2 Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models (EEP)

  • 痛点:如果不想反传、不想训练,但又觉得简单 heuristic 不够强,就需要一种 只靠 inference 的搜索式 pruning

  • 方法:EEP 用 gradient-free evolutionary strategy 搜 pruning pattern,只靠 model inference,不算梯度;同时还能减少 总 expert 数active experts 数。论文还提到把 expert merging 当成 memory-efficient 的恢复手段。

  • 核心:可以考虑把进化搜索空间定义成“每层保留几个 expert + 视觉 token 激活几个 expert + 哪几层动”。

  • arXiv / 会议arXiv:2407.00945;Submitted to ICLR 2025。 (arXiv)

3.3 MoE-I2: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition

  • 痛点:只做 inter-expert pruning 不够,因为保留下来的 expert 内部仍然很大。

  • 方法:提出两阶段压缩:第一阶段做 inter-expert pruning,还用了 Layer-wise Genetic SearchBlock-wise KT-Reception Field 去决定非均匀 pruning ratio;第二阶段对剩余 expert 做 intra-expert low-rank decomposition

  • 核心:如果未来做 VLM MoE pruning,这篇启发很强:先删 expert,再压 expert 内部参数 往往优于只做其中一步。

  • arXiv / 会议arXiv:2411.01016;Findings of EMNLP 2024。 (ACL Anthology)

3.4 DiEP: Adaptive Mixture-of-Experts Compression through Differentiable Expert Pruning

  • 痛点:很多方法默认每层同一 sparsity,但不同层的 expert 冗余程度其实不一样。

  • 方法:DiEP 把全局离散搜索转成连续优化,学习 layer-level 的非均匀 pruning rate,联合建模层间重要性;它还支持推理时的 adaptive skipping。

  • 核心:这篇尤其重要,因为 VLM/MLLM 的 MoE 层往往更不均匀。后面做视觉侧 pruning,最好不要“一刀切所有层都裁同样比例”。

  • arXiv / 会议arXiv:2509.16105;NeurIPS 2025。 (arXiv)

3.5 Shapley-MoE

  • 痛点:很多 expert importance 都是 heuristic,没有真正刻画“某个 expert 的边际贡献”。

  • 方法:它用 Shapley value 来定义 expert 贡献,再通过 router-guided Monte Carlo sampling 和提前截断降低计算量。

  • 核心:它不一定是最实用的,但非常适合作为“更 principled 的 importance 基线”。

  • arXiv / 会议:OpenReview 版本可见;NeurIPS 2025。 (OpenReview)


4. 第三类:expert merging / basis / low-rank 压缩

4.1 Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy

  • 痛点:早期 merging 往往直接平均 expert,容易把重要 expert 淹没,也没有对齐不同 expert 的神经元。

  • 方法:这篇提出 M-SMoE / MC-SMoE。先做 neuron permutation alignment,再根据 routing 统计找 dominant expert 与 group members,按 activation frequency 加权合并;之后再用 low-rank + structural sparse 进一步压缩。

  • 核心:这是 routing-guided expert merging 的关键前作。后面的 PuzzleMoE、MergeMoE、甚至 REAP 与它都能形成对照。

  • arXiv / 会议:ICLR 2024。 (ICLR)

4.2 MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

  • 痛点:已有压缩方法在中等压缩比下精度下降仍然明显。

  • 方法:每个 expert 的 up/gate matrix 先做秩分解 (W = AB),其中 (A) 是 expert-specific,较大的 (B) 再表示为该层共享 basis matrices 的线性组合。

  • 核心:它不是 pruning,但给了一个很有价值的想法:expert 之间既有专有部分,也有可共享 basis。以后做 VLM 时,可以把“视觉 expert 共享 basis、文本 expert 保留个性”作为结构先验。

  • arXiv / 会议arXiv:2508.05257;ICLR 2026 Poster。 (OpenReview)

4.3 PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference

  • 痛点:普通 merging 在高压缩比下掉点严重,而且存储 mask / sign 本身也有额外开销。

  • 方法:它做 sparse expert merging,用 dual-mask 区分 shared weights 与 expert-specific weights;同时提出 bit-packed encoding,把 mask/sign 的额外开销塞进更紧凑的编码里,提升 GPU inference 效率。

  • 核心:这篇非常工程化,适合和 pruning 结合看。尤其是“shared vs. specialized”的双掩码思想,对 multimodal expert 也很自然。

  • arXiv / 会议arXiv:2511.04805;Submitted to ICLR 2026。 (arXiv)

4.4 MergeMoE: Efficient Compression of MoE Models via Expert Output Merging

  • 痛点:参数级 averaging 的 merging 理论解释不够清楚。

  • 方法:它不再从“参数平均”看 merging,而是从 expert outputs 的合并 来看,把 merging 解释成在前向图里插入额外压缩矩阵,再把这些矩阵当成一个优化问题去求。

  • 核心:它能和 REAP 构成非常清晰的辩论:output-level merging 是否优于 pruning?在 generative MLLM 上是否还成立?

  • arXiv / 会议arXiv:2510.14436;ICLR 2026 withdrawn submission。 (arXiv)


5. 第四类:多模态 / VLM / MLLM 特化的 MoE-aware acceleration

5.1 MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

  • 痛点:把 unimodal LLM 的 expert skipping 直接搬到 MLLM 上,会明显掉性能,因为它忽略了 不同 MoE 层 expert 贡献不均vision/text token 行为差异

  • 方法:MoDES 提出两步:

    1. GMLG:把离线估计的全局层重要性融入局部 routing probability,得到更稳的 per-token expert importance;

    2. DMT:给 text 和 vision token 分别设阈值,再用 frontier search 找最优 skipping schedule。

  • 核心:这是目前最像“VLM 版 expert skipping 方法学”的论文。它清楚地告诉:modality-aware + layer-aware 是必须的。

  • arXiv / 会议arXiv:2511.15690;官方仓库注明 CVPR 2026 接收。 (arXiv)

5.2 FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning

  • 痛点:Dense VLM 的 token pruning 多基于 attention,没考虑 MoE 的 routing 结构;但在 MoE-MLLM 里,token 冗余和 expert 冗余是绑定的

  • 方法:FastMMoE 有两把刀:

    1. expert activation reduction:减少视觉 token 激活的 experts 数;

    2. routing-aware token pruning:根据 routing probability distribution 的相似性来找高度冗余的视觉 token,再 prune / merge。

  • 核心:明确提出 MoE-aware token pruning 。以后做 VLM MoE pruning,建议要把 token 和 expert 一起建模,而不是分开做。

  • arXiv / 会议arXiv:2511.17885;目前我没查到公开接收信息,先按 arXiv preprint 看。 (arXiv)

5.3 VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models

  • 痛点:虽然不是 pruning,但它非常接近:现有 PTQ 忽视了 vision vs. language token 异质性不同 experts 贡献不均

  • 方法:VEQ 里有两个关键设计:

    1. modality-expert-aware quantization:用 expert activation frequency 优先保护关键 experts;

    2. modality-affinity-aware quantization:把 token-expert affinity 与 modality 信息一起放进 Hessian 近似里做校准。

  • 核心:这篇虽然做量化,不是 pruning,但给了一个极有价值的范式:“modality × expert heterogeneity” 必须一起处理。 这个想法可以直接迁到 pruning score 设计。

  • arXiv / 会议arXiv:2602.01037;目前是 arXiv 预印本。 (arXiv)

5.4 InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

  • 痛点:这不是 pruning 论文,但它提供了一个很重要的系统视角:MoE-VLM 的效率问题不一定全靠裁剪解决,输入侧分辨率和系统部署也很关键。

  • 方法:它提出 Visual Resolution Router (ViR) 动态调整视觉 token 分辨率,还用了 Decoupled Vision-Language Deployment (DvD) 做系统级解耦。

  • 核心:如果未来做 VLM MoE pruning,最好别只盯 expert。resolution routing + token pruning + expert pruning 很可能是更强的联合方案。

  • arXiv / 会议arXiv:2508.18265;当前公开信息主要是 arXiv / 官方博客。 (arXiv)


6. 诊断 / 分析型论文

6.1 Harder Tasks Need More Experts: Dynamic Routing in MoE Models

  • 痛点:固定 Top-k routing 假设所有输入复杂度一致,这在实际任务里明显不成立。

  • 方法:它做 dynamic expert selection,根据 expert selection 的 confidence 动态决定激活多少个 experts;实验还显示更难的任务会使用更多 experts,不同层所需 experts 数也不同。

  • 核心:这篇不是 pruning,但对设计 动态 token-wise / layer-wise pruning budget 很关键。

  • arXiv / 会议arXiv:2403.07652;目前主要是 arXiv。 (arXiv)

6.2 Unveiling Super Experts in Mixture-of-Experts Large Language Models

  • 痛点:多数 pruning 方法默认 expert 重要性是“连续变化”的,但这可能不对。

  • 方法:这篇发现了极少数 Super Experts,它们虽然数量极少,却对 forward inference 起关键作用;剪掉很少几个就可能让模型输出塌掉。论文还把这种影响和 attention sinks、系统性 outlier 机制联系起来。

  • 核心:做 pruning 前最好先做 critical expert profiling / super-expert protection,否则平均启发式很容易误伤。

  • arXiv / 会议arXiv:2507.23279;ICLR 2026 Poster。 (OpenReview)


7. 哪些是“核心主线”,哪些是“邻近但要看”

核心主线

如果只保留最核心的一条研究线,我建议是:

NLLB-200 → Not All Experts are Equal → EASY-EP → REAP → MoDES / FastMMoE

这条链条对应了:
language/domain-specific expert specialization → 通用 expert pruning/skipping → domain-aware pruning → pruning vs merging 的重新判断 → multimodal MoE-aware skipping / token pruning。(ACL Anthology)

邻近但很值得看

MoBE / PuzzleMoE / MergeMoE / VEQ / InternVL3.5

它们不是最标准的“expert pruning 论文”,但分别对应 basis 共享、稀疏 merging、output-level merging、modality-aware compression、resolution routing + system deployment。这些都能给做 VLM MoE pruning 时提供额外可组合模块。(OpenReview)


insight

insight 1:不要把 VLM 的 MoE pruning 简化成 “LLM expert pruning + visual token pruning”

MoDES 和 FastMMoE 都在强调同一件事:多模态场景里,token 冗余与 expert 冗余是耦合的
也就是说,不能先独立做 token pruning,再独立做 expert pruning;更自然的做法是设计一个联合 score:

然后共同决定:

  • token 保不保留;

  • 该 token 激活几个 expert;

  • 哪些 expert 永久保留。
    这是我觉得是最值得做的方向。(arXiv)

insight 2: modality-aware

VEQ、MoDES、InternVL3.5 都从不同角度说明:视觉 token 和语言 token 的统计行为不同,不能共用一个统一阈值或统一预算
迁到 pruning 上,可以自然得到:

  • text / vision 分别设 pruning threshold;

  • 视觉 token 优先减 active experts;

  • 文本 token 更保守;

  • 某些跨模态融合层不动或少动。
    这会比“全局一个 ratio”稳得多。(arXiv)

insight 3:先做 critical expert protection,再做 aggressive pruning

Super Experts 这篇最大的意义不是提出新 pruning 算法,而是得到了:MoE 里可能存在极少数绝不能剪的专家
所以一个很合理的 VLM 方案是:

  1. 先 profiling 出 super experts / modality-critical experts;

  2. 把它们冻结为保护集;

  3. 再在剩余 experts 上做 pruning / skipping / merging。
    这样安全性会高很多。(OpenReview)

insight 4:不要默认每层同样稀疏

Harder Tasks、DiEP、MoDES 都在不同层面说明:不同层需要的 expert 数不同,不同层的冗余也不同
所以做 VLM pruning 时,最值得试的是:

  • 前几层少动,保感知细节;

  • 中间层最激进;

  • 融合后高层再保守一点;

  • vision-heavy layers 和 language-heavy layers 分开裁。
    这比 uniform pruning 更符合 MoE 结构本身。(arXiv)

insight 5:研究不一定非得是“纯 pruning”

从 MoBE、PuzzleMoE、MergeMoE、VEQ、InternVL3.5 可以看出来,真正有效的系统往往是 pruning + routing + merging/low-rank + resolution control + serving design 的组合。
所以如果后面发现单独做 pruning 创新空间有限,一个非常现实的方向是:

MoE-aware visual token pruning + super-expert protection + modality-aware expert activation reduction

这个题目既贴近 FastMMoE / MoDES,又还有明显空间。(OpenReview)