FastMMoE: Accelerating Multimodal LLMs via Dynamic Expert Activation & Routing-Aware Token Pruning

1. 研究背景 (Background)

MoE-based Multimodal LLM（如 InternVL3.5、DeepSeek-VL2）在性能上已达到 SOTA，但存在两个关键瓶颈：

高分辨率图像 → 大量视觉 tokens → 推理开销巨大
MoE结构虽然理论上稀疏，但视觉 token 仍触发较多 expert → 未充分利用稀疏性

已有方法（FastV / SparseVLM）主要针对 dense MLLM，仅基于 attention 进行 token pruning，忽略 MoE routing 信息。

MoE 架构基础

在 MoE（Mixture-of-Experts）大模型中，每个 MoE 层由 $N$ 个专家（Expert FFN）组成，配备一个路由器（Router）。对于输入 token $x$ ，路由器输出各专家的概率分布，并按 Top- $K$ 选择激活的专家：

p (x) = Softmax (W_{r} x) \in R^{N}

E^{*} (x) = Top- K (p (x))

MoE (x) = i \in E^{*} (x) \sum p_{i} (x) \cdot FFN_{i} (x)

其中 $K ≪ N$ ，即每个 token 只激活少数专家，这赋予 MoE 稀疏计算的优势。

MoE的routing行为：

在 MoE 里，每个 token 进入某一层时，并不是所有 FFN/expert 都参与计算。
模型里有一个 router / gate，会给这个 token 计算一组分数或概率，表示：

这个 token 更适合交给哪些 experts 处理
每个 expert 应该分到多大权重

通常最后只选 top-k experts 来真正计算。

routing 本质上就是：

“token → 哪些 experts → 以多大权重处理” 的分配过程。

InternVL3.5

“dynamic cropping strategy that splits a high-resolution image into multiple sub-images while also processing a downsampled global thumbnail” 动态裁剪策略，将高分辨率图像分割成多个子图像，同时处理下采样的全局缩略图

Key Oberservations

“experts with lower activation weights tend to carry more redundant information” 激活权重较低的专家往往携带更多冗余信息
“visual modality expert outputs exhibit norm concentration, meaning that after re-normalizing outputs following expert reduction, vector norm changes remain small.” 视觉模态专家输出表现出范数集中性，这意味着在专家缩减后重新标准化输出后，矢量范数变化仍然很小。
“Tokens that activate the same experts tend to be more semantically similar” 激活相同专家的令牌往往在语义上更加相似
在shallow层连续视觉tokens的routing概率分布cosine相似度超过95%

观察4.motivates一种基于窗口的视觉标记修剪的分组和融合策略

研究意义：
探索 MoE结构 + token冗余联合优化，实现真正面向 MoE-VLM 的高效推理。

2. 拟解决的问题 (Problem)

目标：在training-free 或 minimal modification条件下：

降低视觉 token 带来的计算开销
采取sparser的专家激活(减少 MoE expert activation)
同时保持模型性能

核心难点：

token pruning 过强 → 破坏细粒度视觉理解（OCR / reasoning）
MoE结构复杂：
- 每个 token → routing → 多个 experts
- token冗余 ≠ expert冗余
如何同时利用：
- token-level redundancy
- expert activation redundancy

贡献 (Contributions)

(1) Dynamic Expert Activation Reduction

首次系统分析：视觉 token 的 expert activation 可大幅减少
提出仅对 vision tokens 做 top-k expert selection

(2) Routing-aware Token Pruning

不再只依赖 attention
引入 routing probability similarity
定义 token redundancy：

高 routing 相似 + 低 attention → 可剪

(3) MoE-VLM专用加速框架

同时优化：
- token 数量
- expert 激活数量
达到：
- 最高 55% FLOPs reduction
- ≈95% 性能保持

3. Method一：Expert Activation Reduction

3.1 核心思想

标准 MoE 对所有 token 统一使用 Top- $K$ 选择。FastMMoE 提出：从某一指定层 $l^{*}$ 开始，对视觉 token 将激活专家数从 $K$ 降低至 $K^{'}$ （ $K^{'} < K$ ），而文本 token 保持不变。

K_{vis}^{'} = ⌊ r \cdot K ⌋, r \in (0, 1)

其中 $r$ 为专家保留比例（expert retention ratio），为可调超参数。

3.2 稀疏化策略

对于视觉 token $x_{v}$ ，在第 $l \geq l^{*}$ 层，重新定义激活专家集合为：

E_{vis}^{*} (x_{v}) = Top- K^{'} (p (x_{v}))

此时 MoE 层计算变为：

MoE_{fast} (x_{v}) = i \in E_{vis}^{*} (x_{v}) \sum \tilde{p}_{i} (x_{v}) \cdot FFN_{i} (x_{v})

其中 $\tilde{p}_{i}$ 是在 Top- $K^{'}$ 集合上重新归一化的路由概率：

\tilde{p}_{i} (x_{v}) = \frac{p _{i} ( x _{v} )}{\sum _{j \in E_{vis}^{*}} p _{j} ( x _{v} )}

3.3 起始层选择

作者发现浅层的路由选择对模型输出影响更大，因此推荐从中层开始施加激活缩减（即 $l^{*} \approx L /2$ ， $L$ 为总层数），在靠前的层保留完整的 Top- $K$ 激活以维持语义质量。

3.4 计算节省分析

设原本每个视觉 token 激活 $K$ 个专家，每个专家 FFN 的计算量为 $C_{FFN}$ ，减少后每个 token 节省：

Δ C_{token} = (K - K^{'}) \cdot C_{FFN}

对于 $T_{v}$ 个视觉 token 和 $(L - l^{*})$ 个受影响层，总节省为：

Δ C_{act} = T_{v} \cdot (L - l^{*}) \cdot (K - K^{'}) \cdot C_{FFN}

Mothod2. Routing-Aware Token Pruning

4.1 核心思想

若两个视觉 token 的路由概率分布高度相似，说明它们在 MoE 层中被相似的专家以相似的权重处理，因此携带近似冗余的信息，可以将其中一个安全剪枝。

4.2 路由相似度度量

对于第 $l$ 层中的两个视觉 token $x_{i}$ 和 $x_{j}$ ，其路由概率向量分别为 $p_{i}, p_{j} \in R^{N}$ ，定义路由相似度分数为对称 KL 散度的负值（值越大越相似）：

S_{route} (x_{i}, x_{j}) = - \frac{1}{2} [D_{KL} (p_{i} ∥ p_{j}) + D_{KL} (p_{j} ∥ p_{i})]

或等价地使用余弦相似度：

S_{route} (x_{i}, x_{j}) = \frac{p _{i} \cdot p _{j}}{∥ p _{i} ∥ \cdot ∥ p _{j} ∥}

4.3 滑动窗口剪枝（Sliding-Window Pruning）

为避免全局两两比较带来的 $O (T_{v}^{2})$ 复杂度，FastMMoE 采用滑动窗口策略：在长度为 $W$ 的局部窗口内评估相邻 token 之间的路由相似度。

对每个窗口 $W_{k} = {x_{k}, x_{k + 1}, \dots, x_{k + W - 1}}$ ，计算窗口内每对相邻 token 的相似度，并对相似度最高的 token 打上冗余标记。

4.4 注意力引导（Attention Guidance）

仅凭路由相似度可能剪掉语义上重要但恰好路由相似的 token。为此，FastMMoE 引入注意力分数作为补充信号，对每个视觉 token 计算其被文本 token 关注的聚合注意力分数：

a_{i} = t \in T_{text} \sum Attn (t, x_{i})

其中 $T_{text}$ 为文本 token 集合。综合冗余分数定义为：

Score_{prune} (x_{i}) = (1 - λ) \cdot S_{route}^{agg} (x_{i}) + λ \cdot (1 - \overset{a}{ˉ}_{i})

$S_{route}^{agg} (x_{i})$ ：token $i$ 在滑动窗口内与邻居的平均路由相似度（越高表示越冗余）
$\overset{a}{ˉ}_{i}$ ：归一化后的注意力分数（越高表示越重要）
$λ$ ：平衡两者的超参数

对所有视觉 token 按 $Score_{prune}$ 降序排列，剪掉得分最高的 $(1 - ρ) \cdot T_{v}$ 个 token，保留比例为 $ρ$ 。

4.5 剪枝时机

Token 剪枝在特定层 $l^{†}$ 执行一次（通常在浅到中间层），之后的所有层只处理剩余的 $ρ \cdot T_{v}$ 个视觉 token，从而在剩余层中获得持续的计算加速：

Δ C_{prune} = (1 - ρ) \cdot T_{v} \cdot (L - l^{†}) \cdot C_{layer}

5. 实验 (Experiments)

模型

InternVL3.5
DeepSeek-VL2

Benchmark

MMMU
MMBench
SQA
OCRBench
AI2D
HallusionBench

核心结果

(1) FLOPs vs Accuracy

75% token + expert reduction：
- FLOPs ↓ 44.65%
- Accuracy ≈ 原模型

(2) 最大压缩

FLOPs ↓ 55%
Performance ≈ 95.5%

关键分析

(1) Expert Activation

减半 vision expert → 性能 ≈ 99%
⇒ 存在大量 expert 冗余

(2) Shared Experts

剪 shared experts → OCR性能大幅下降结论：
shared experts = 通用能力核心
routed experts = 可压缩部分

6. Key Insights

Insight 1：Token pruning 应该 routing-aware

不要只用 attention
routing similarity 是关键信号

Insight 2：Vision token 更适合剪枝

expert activation 冗余更高
更安全

Insight 3：Expert 不同角色要区分

shared expert → 保留
routed expert → 优先剪

Insight 4：Token pruning ≈ Expert pruning 的 proxy

相似 routing → 相似 expert usage
⇒ 可以联合优化

7. 一句话总结

FastMMoE 的核心贡献是：

把 token pruning 从 attention-only 推进到 routing-aware，从而真正适配 MoE-VLM。

Starry's Blog

Explorer

FastMMoE