MoE-aware pruning 调研笔记

分类框架

MoE-aware pruning 相关工作可以分成四条主线：

基于 router / activation 的 expert 重要性估计：核心是“哪些 expert 常被选中、输出贡献大不大、对当前 domain 是否关键”。
搜索 / 优化 / 非均匀剪枝：核心是“不同层冗余不同，不能统一按 50% 裁”。
expert merging / basis / low-rank 压缩：严格说不全是 pruning，但和 MoE-aware compression 强相关，尤其在和 pruning 做结合时很重要。
多模态 / VLM 特化的 MoE-aware acceleration：目前论文显著少于 LLM，而且关键难点是 视觉 token 冗余和 expert 冗余是耦合的。这点在 MoDES 和 FastMMoE 里最明确。(arXiv)

2. 第一类：router / activation 驱动的 expert pruning / skipping

2.1 Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

痛点：大型多语种 MoE 模型虽然推理时只激活少量 expert，但部署时仍要把全部 expert 放在显存里，NLLB-200 最大模型甚至需要至少 4 张 32GB GPU 才能推理。
方法：论文的关键观察是 language-specific experts 的存在。它用 pruning metric 去识别某个语言对真正依赖的 expert，只保留它们，从而做到 最多移除 80% experts，且几乎不需要再 finetune。
核心：这是最早把“expert specialization 可以被 pruning 利用”讲清楚的代表作之一。对做 VLM 很重要，因为它启发以后可以做 domain-specific / benchmark-specific / modality-specific expert localization。
arXiv / 会议：arXiv:2212.09811；ACL 2023。 (ACL Anthology)

2.2 Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

痛点：传统 weight pruning 更偏 dense 模型，而且很多方法难以直接转成真实部署收益；MoE 真正应该做的是 expert-level sparsification。
方法：这篇论文把问题明确做成 post-training 的 expert pruning 和 expert skipping，并区分 task-agnostic 与 task-specific 两种设置。它的贡献不是只提一个 heuristic，而是把“expert-level 压缩”这条路系统化了。
核心：这是 MoE-aware pruning 在 LLM 里的“入门总纲”。如果后面写 related work，几乎一定要从它开始。
arXiv / 会议：arXiv:2402.14800；ACL 2024。 (arXiv)

2.3 Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations

痛点：即便 expert-level pruning 有效，仍然缺一个能适配特定领域的方法；大模型在某个 domain 上往往不需要所有 expert。
方法：这篇提出 EASY-EP。核心观察是 few-shot expert localization：只用少量领域示例，模型就会稳定激活一小撮 expert。方法上结合了 output-aware expert importance assessment 和 expert-level token contribution estimation，前者看 gating score 与 expert 输出强度，后者看 token 经过 expert 前后的表示变化。
核心：它非常适合迁到 VLM。比如 OCR、chart、math diagram、document QA，极可能都有各自稳定的 expert 子集。
arXiv / 会议：arXiv:2504.06792；NeurIPS 2025。 (arXiv)

2.4 REAP the Experts: Why Pruning Prevails for One-Shot MoE Compression

痛点：2024–2025 有一条很强的 expert merging 路线，但它们在 generative tasks 上不一定真的优于 pruning。
方法：这篇从理论上指出 merging 会带来 functional subspace collapse，因为 router 对不同 expert 的输入相关独立控制被破坏了；在此基础上提出 REAP (Router-weighted Expert Activation Pruning)，把 router gate-values 和 expert activation norms 结合成剪枝准则。
核心：如果任务是 生成式 VLM/MLLM，这篇非常重要，提醒了：不是所有 compression 都该往 merging 走，pruning 可能更稳。
arXiv / 会议：arXiv:2510.13999；ICLR 2026 Poster。 (arXiv)

2.5 MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router

痛点：只做 expert-level 删除太粗；同一个 expert 内部也有大量冗余参数。
方法：它做的是 router-aware weight pruning。权重重要性不是单看 magnitude，而是看
|w| × activation × router weight，并且是 one-shot、无需 retraining / weight update；另外还补了 expert-wise KD 来恢复性能。
核心：这篇特别值得借鉴到 VLM：以后可以把视觉 token 的 modality 信息也放进这个 score 里，变成 |w| × activation × router × modality affinity。
arXiv / 会议：arXiv:2410.12013；ICLR 2025 withdrawn submission。 (arXiv)

3. 第二类：搜索 / 非均匀 / 理论驱动剪枝

3.1 A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts

痛点：MoE pruning 早期多数是 heuristic，缺少理论解释；同时，vision MoE 上也缺少 pruning 信号。
方法：这篇给出一个很干净的准则：优先剪掉 router 的 (l_2) norm 相对预训练阶段变化较小 的 experts，并证明这种优先级有助于保留精度。实验验证放在 V-MoE、E³-MoE 这类 vision MoE 上。
核心：这是少数真正和 vision MoE 有直接关系的 pruning 论文。启发：可以把“router 在微调后偏离预训练多少”当成 expert 是否真正被任务重塑过的标志。
arXiv / 会议：arXiv:2405.16646；ICML 2024。 (Proceedings of Machine Learning Research)

3.2 Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models (EEP)

痛点：如果不想反传、不想训练，但又觉得简单 heuristic 不够强，就需要一种 只靠 inference 的搜索式 pruning。
方法：EEP 用 gradient-free evolutionary strategy 搜 pruning pattern，只靠 model inference，不算梯度；同时还能减少 总 expert 数 和 active experts 数。论文还提到把 expert merging 当成 memory-efficient 的恢复手段。
核心：可以考虑把进化搜索空间定义成“每层保留几个 expert + 视觉 token 激活几个 expert + 哪几层动”。
arXiv / 会议：arXiv:2407.00945；Submitted to ICLR 2025。 (arXiv)

3.3 MoE-I2: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition

痛点：只做 inter-expert pruning 不够，因为保留下来的 expert 内部仍然很大。
方法：提出两阶段压缩：第一阶段做 inter-expert pruning，还用了 Layer-wise Genetic Search 和 Block-wise KT-Reception Field 去决定非均匀 pruning ratio；第二阶段对剩余 expert 做 intra-expert low-rank decomposition。
核心：如果未来做 VLM MoE pruning，这篇启发很强：先删 expert，再压 expert 内部参数 往往优于只做其中一步。
arXiv / 会议：arXiv:2411.01016；Findings of EMNLP 2024。 (ACL Anthology)

3.4 DiEP: Adaptive Mixture-of-Experts Compression through Differentiable Expert Pruning

痛点：很多方法默认每层同一 sparsity，但不同层的 expert 冗余程度其实不一样。
方法：DiEP 把全局离散搜索转成连续优化，学习 layer-level 的非均匀 pruning rate，联合建模层间重要性；它还支持推理时的 adaptive skipping。
核心：这篇尤其重要，因为 VLM/MLLM 的 MoE 层往往更不均匀。后面做视觉侧 pruning，最好不要“一刀切所有层都裁同样比例”。
arXiv / 会议：arXiv:2509.16105；NeurIPS 2025。 (arXiv)

3.5 Shapley-MoE

痛点：很多 expert importance 都是 heuristic，没有真正刻画“某个 expert 的边际贡献”。
方法：它用 Shapley value 来定义 expert 贡献，再通过 router-guided Monte Carlo sampling 和提前截断降低计算量。
核心：它不一定是最实用的，但非常适合作为“更 principled 的 importance 基线”。
arXiv / 会议：OpenReview 版本可见；NeurIPS 2025。 (OpenReview)

4. 第三类：expert merging / basis / low-rank 压缩

4.1 Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy

痛点：早期 merging 往往直接平均 expert，容易把重要 expert 淹没，也没有对齐不同 expert 的神经元。
方法：这篇提出 M-SMoE / MC-SMoE。先做 neuron permutation alignment，再根据 routing 统计找 dominant expert 与 group members，按 activation frequency 加权合并；之后再用 low-rank + structural sparse 进一步压缩。
核心：这是 routing-guided expert merging 的关键前作。后面的 PuzzleMoE、MergeMoE、甚至 REAP 与它都能形成对照。
arXiv / 会议：ICLR 2024。 (ICLR)

4.2 MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

痛点：已有压缩方法在中等压缩比下精度下降仍然明显。
方法：每个 expert 的 up/gate matrix 先做秩分解 (W = AB)，其中 (A) 是 expert-specific，较大的 (B) 再表示为该层共享 basis matrices 的线性组合。
核心：它不是 pruning，但给了一个很有价值的想法：expert 之间既有专有部分，也有可共享 basis。以后做 VLM 时，可以把“视觉 expert 共享 basis、文本 expert 保留个性”作为结构先验。
arXiv / 会议：arXiv:2508.05257；ICLR 2026 Poster。 (OpenReview)

4.3 PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference

痛点：普通 merging 在高压缩比下掉点严重，而且存储 mask / sign 本身也有额外开销。
方法：它做 sparse expert merging，用 dual-mask 区分 shared weights 与 expert-specific weights；同时提出 bit-packed encoding，把 mask/sign 的额外开销塞进更紧凑的编码里，提升 GPU inference 效率。
核心：这篇非常工程化，适合和 pruning 结合看。尤其是“shared vs. specialized”的双掩码思想，对 multimodal expert 也很自然。
arXiv / 会议：arXiv:2511.04805；Submitted to ICLR 2026。 (arXiv)

4.4 MergeMoE: Efficient Compression of MoE Models via Expert Output Merging

痛点：参数级 averaging 的 merging 理论解释不够清楚。
方法：它不再从“参数平均”看 merging，而是从 expert outputs 的合并 来看，把 merging 解释成在前向图里插入额外压缩矩阵，再把这些矩阵当成一个优化问题去求。
核心：它能和 REAP 构成非常清晰的辩论：output-level merging 是否优于 pruning？在 generative MLLM 上是否还成立？
arXiv / 会议：arXiv:2510.14436；ICLR 2026 withdrawn submission。 (arXiv)

5. 第四类：多模态 / VLM / MLLM 特化的 MoE-aware acceleration

5.1 MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

痛点：把 unimodal LLM 的 expert skipping 直接搬到 MLLM 上，会明显掉性能，因为它忽略了 不同 MoE 层 expert 贡献不均 和 vision/text token 行为差异。
方法：MoDES 提出两步：
1. GMLG：把离线估计的全局层重要性融入局部 routing probability，得到更稳的 per-token expert importance；
2. DMT：给 text 和 vision token 分别设阈值，再用 frontier search 找最优 skipping schedule。
核心：这是目前最像“VLM 版 expert skipping 方法学”的论文。它清楚地告诉：modality-aware + layer-aware 是必须的。
arXiv / 会议：arXiv:2511.15690；官方仓库注明 CVPR 2026 接收。 (arXiv)

5.2 FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning

痛点：Dense VLM 的 token pruning 多基于 attention，没考虑 MoE 的 routing 结构；但在 MoE-MLLM 里，token 冗余和 expert 冗余是绑定的。
方法：FastMMoE 有两把刀：
1. expert activation reduction：减少视觉 token 激活的 experts 数；
2. routing-aware token pruning：根据 routing probability distribution 的相似性来找高度冗余的视觉 token，再 prune / merge。
核心：明确提出 MoE-aware token pruning 。以后做 VLM MoE pruning，建议要把 token 和 expert 一起建模，而不是分开做。
arXiv / 会议：arXiv:2511.17885；目前我没查到公开接收信息，先按 arXiv preprint 看。 (arXiv)

5.3 VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models

痛点：虽然不是 pruning，但它非常接近：现有 PTQ 忽视了 vision vs. language token 异质性 和 不同 experts 贡献不均。
方法：VEQ 里有两个关键设计：
1. modality-expert-aware quantization：用 expert activation frequency 优先保护关键 experts；
2. modality-affinity-aware quantization：把 token-expert affinity 与 modality 信息一起放进 Hessian 近似里做校准。
核心：这篇虽然做量化，不是 pruning，但给了一个极有价值的范式：“modality × expert heterogeneity” 必须一起处理。 这个想法可以直接迁到 pruning score 设计。
arXiv / 会议：arXiv:2602.01037；目前是 arXiv 预印本。 (arXiv)

5.4 InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

痛点：这不是 pruning 论文，但它提供了一个很重要的系统视角：MoE-VLM 的效率问题不一定全靠裁剪解决，输入侧分辨率和系统部署也很关键。
方法：它提出 Visual Resolution Router (ViR) 动态调整视觉 token 分辨率，还用了 Decoupled Vision-Language Deployment (DvD) 做系统级解耦。
核心：如果未来做 VLM MoE pruning，最好别只盯 expert。resolution routing + token pruning + expert pruning 很可能是更强的联合方案。
arXiv / 会议：arXiv:2508.18265；当前公开信息主要是 arXiv / 官方博客。 (arXiv)

6. 诊断 / 分析型论文

6.1 Harder Tasks Need More Experts: Dynamic Routing in MoE Models

痛点：固定 Top-k routing 假设所有输入复杂度一致，这在实际任务里明显不成立。
方法：它做 dynamic expert selection，根据 expert selection 的 confidence 动态决定激活多少个 experts；实验还显示更难的任务会使用更多 experts，不同层所需 experts 数也不同。
核心：这篇不是 pruning，但对设计 动态 token-wise / layer-wise pruning budget 很关键。
arXiv / 会议：arXiv:2403.07652；目前主要是 arXiv。 (arXiv)

6.2 Unveiling Super Experts in Mixture-of-Experts Large Language Models

痛点：多数 pruning 方法默认 expert 重要性是“连续变化”的，但这可能不对。
方法：这篇发现了极少数 Super Experts，它们虽然数量极少，却对 forward inference 起关键作用；剪掉很少几个就可能让模型输出塌掉。论文还把这种影响和 attention sinks、系统性 outlier 机制联系起来。
核心：做 pruning 前最好先做 critical expert profiling / super-expert protection，否则平均启发式很容易误伤。
arXiv / 会议：arXiv:2507.23279；ICLR 2026 Poster。 (OpenReview)

7. 哪些是“核心主线”，哪些是“邻近但要看”

核心主线

如果只保留最核心的一条研究线，我建议是：

NLLB-200 → Not All Experts are Equal → EASY-EP → REAP → MoDES / FastMMoE

这条链条对应了：
language/domain-specific expert specialization → 通用 expert pruning/skipping → domain-aware pruning → pruning vs merging 的重新判断 → multimodal MoE-aware skipping / token pruning。(ACL Anthology)

邻近但很值得看

MoBE / PuzzleMoE / MergeMoE / VEQ / InternVL3.5

它们不是最标准的“expert pruning 论文”，但分别对应 basis 共享、稀疏 merging、output-level merging、modality-aware compression、resolution routing + system deployment。这些都能给做 VLM MoE pruning 时提供额外可组合模块。(OpenReview)

insight

insight 1：不要把 VLM 的 MoE pruning 简化成 “LLM expert pruning + visual token pruning”

MoDES 和 FastMMoE 都在强调同一件事：多模态场景里，token 冗余与 expert 冗余是耦合的。
也就是说，不能先独立做 token pruning，再独立做 expert pruning；更自然的做法是设计一个联合 score：

s (v, e, l) = α \cdot routing prob + β \cdot token novelty + γ \cdot expert criticality

然后共同决定：

token 保不保留；
该 token 激活几个 expert；
哪些 expert 永久保留。
这是我觉得是最值得做的方向。(arXiv)

insight 2： modality-aware

VEQ、MoDES、InternVL3.5 都从不同角度说明：视觉 token 和语言 token 的统计行为不同，不能共用一个统一阈值或统一预算。
迁到 pruning 上，可以自然得到：

text / vision 分别设 pruning threshold；
视觉 token 优先减 active experts；
文本 token 更保守；
某些跨模态融合层不动或少动。
这会比“全局一个 ratio”稳得多。(arXiv)

insight 3：先做 critical expert protection，再做 aggressive pruning

Super Experts 这篇最大的意义不是提出新 pruning 算法，而是得到了：MoE 里可能存在极少数绝不能剪的专家。
所以一个很合理的 VLM 方案是：

先 profiling 出 super experts / modality-critical experts；
把它们冻结为保护集；
再在剩余 experts 上做 pruning / skipping / merging。
这样安全性会高很多。(OpenReview)

insight 4：不要默认每层同样稀疏

Harder Tasks、DiEP、MoDES 都在不同层面说明：不同层需要的 expert 数不同，不同层的冗余也不同。
所以做 VLM pruning 时，最值得试的是：

前几层少动，保感知细节；
中间层最激进；
融合后高层再保守一点；
vision-heavy layers 和 language-heavy layers 分开裁。
这比 uniform pruning 更符合 MoE 结构本身。(arXiv)

insight 5：研究不一定非得是“纯 pruning”

从 MoBE、PuzzleMoE、MergeMoE、VEQ、InternVL3.5 可以看出来，真正有效的系统往往是 pruning + routing + merging/low-rank + resolution control + serving design 的组合。
所以如果后面发现单独做 pruning 创新空间有限，一个非常现实的方向是：

MoE-aware visual token pruning + super-expert protection + modality-aware expert activation reduction

这个题目既贴近 FastMMoE / MoDES，又还有明显空间。(OpenReview)

Starry's Blog

Explorer

MoE-aware Pruning