VEQ: 面向MoE视觉语言模型的模态自适应量化

1. 研究背景

问题：MoE Vision-Language Models 性能强但参数巨大，内存和计算成本高，难以部署。

现有方法局限：

通用量化方法无视跨模态差异：语言tokens对量化误差敏感度是视觉tokens的10倍
无视专家异构性：不同专家贡献不均，却被平等对待意义：提出首个同时处理这两个异构性的MoE VLM量化方法

后训练量化（PTQ） 作为一种无需重新训练的压缩技术，是解决上述问题的主流方案。然而，现有方法（如 AWQ、GPTQ）主要针对稠密模型设计，忽视了 MoE VLMs 的两类关键异质性，导致量化效果不理想，使得该研究具有重要的实际价值。

2. 拟解决的问题

论文针对将现有量化方法直接应用于 MoE VLMs 时存在的两类核心异质性问题：

问题一：模态异质性 视觉 token 与文本 token 的统计分布差异显著。论文通过梯度分析发现，文本 token 的梯度范数平均是视觉 token 的 22.4 倍，表明文本 token 对最终推理结果的影响远大于视觉 token。若统一对待两类 token，会导致语言生成质量下降。

问题二：专家异质性 MoE 层中不同专家的激活频率高度不均衡——少数”热门专家”被频繁激活并主导模型输出，而其他专家几乎处于休眠状态。现有方法对所有专家一视同仁，无法有效保护关键专家的精度。

难点在于：上述两类异质性相互交织，需要在量化框架中同时建模跨模态差异与专家贡献差异，这在方法设计上具有相当复杂性。

3. 贡献（创新点）

论文提出了 VEQ（Visual Expert Quantization） 框架，主要贡献如下：

首创性框架：据作者所知，这是首个同时解决多模态异质性与 MoE 结构特性的量化框架，开创了大规模 MoE VLMs 压缩的先河。
模态-专家感知量化（VEQ-ME）：提出基于视觉/文本 token 路由频率的专家重要性评分机制，通过加权优化目标优先保护关键专家的量化精度。
模态-亲和感知量化（VEQ-MA）：提出增强型 Hessian 矩阵构造方法，将 token 与专家的路由亲和度及模态敏感性联合编码到二阶优化过程中，实现更精细的误差校准。

4. 方法

VEQ 框架由两个核心组件构成：

VEQ-ME：模态-专家感知量化

为每个专家定义重要性评分 $S_{i}$ ：

$S_{i} = γ \cdot N_{i}^{text} + β \cdot N_{i}^{vis}$

$N_{i}^{text}$ 、 $N_{i}^{vis}$ 分别为路由至第 $i$ 个专家的文本/视觉 token 数量
$β = T_{text} / T_{vis}$ ：数量归一化因子，平衡两类 token 的数量差距
$γ = ∣ \nabla_{text} ∣/∣ \nabla_{vis} ∣$ ：梯度敏感因子，反映文本 token 更高的梯度影响

在此基础上，将标准重建损失替换为加权版本：

$L_{Weighted} = \sum_{i = 1}^{M} S_{i} \cdot ∣ W_{i} X_{i} - \hat{W}_{i} X_{i} ∣_{F}^{2}$

从而使量化噪声优先被抑制在高重要性专家上。

VEQ-MA：模态-亲和感知量化

构造增强型 Hessian 矩阵：

$\tilde{H} = XC X^{⊤}$

其中 $C$ 为对角权重矩阵，第 $j$ 个 token 的权重为：

$c_{j} = p_{j} \cdot α_{j}, α_{j} = {γ 若为文本 token 1 若为视觉 token$

$p_{j}$ ：token $j$ 与当前专家的路由亲和度（由路由器 logits 提供）
$α_{j}$ ：模态敏感性系数

该方法使具有高路由置信度和高模态敏感性的 token 在 Hessian 优化中占更大权重，从而在低比特设置下更好地保留模型性能。

5. 实验

实验设置

模型：Kimi-VL-Instruct、Qwen3-VL-30B-A3B-Instruct
基线：RTN、AWQ、GPTQ、MBQ（当前 VLM 量化 SOTA）
量化配置：W3A16（3-bit）和 W4A16（4-bit）
评测基准：MMMU、AI2D、InfoVQA、TextVQA、MMBench、MME-RealWorld、ScienceQA、VizWiz、RealWorldQA（共 9 个）

主要结果

设置	模型	最佳基线均值	VEQ-MA 均值	提升
W3	Kimi-VL	~63.37%	65.41%	+2.04%
W3	Qwen3-VL	~64.16%	67.14%	+3.09%
W4	Kimi-VL	~72.96%	73.57%	+0.61%
W4	Qwen3-VL	~73.20%	74.36%	+1.16%

关键验证结论

低比特优势显著：在激进的 W3 设置下，VEQ 相比基线的优势大幅扩大，在 TextVQA 任务上相较原始量化方法提升高达 21.4%，验证了在极低比特下建模异质性的必要性。
消融实验有效：
- 去除梯度因子 $γ$ 或数量归一化因子 $β$ 均导致性能下降，证明两者缺一不可
- 去除路由亲和度 $p$ 或模态指示符 $α$ 同样造成精度损失，证明两类信息对 Hessian 校准均有实质贡献
参数鲁棒性好：敏感性分析表明，VEQ-ME 具有尺度不变性（保持 $γ / β$ 比例即可获得稳定结果）；VEQ-MA 在 $λ = 1$ （使用完整路由置信度）时达到最优困惑度（PPL = 2.2526）。

Starry's Blog

Explorer

VEQ