VEQ: 面向MoE视觉语言模型的模态自适应量化


1. 研究背景

问题:MoE Vision-Language Models 性能强但参数巨大,内存和计算成本高,难以部署。

现有方法局限

  • 通用量化方法无视跨模态差异:语言tokens对量化误差敏感度是视觉tokens的10倍
  • 无视专家异构性:不同专家贡献不均,却被平等对待 意义:提出首个同时处理这两个异构性的MoE VLM量化方法

后训练量化(PTQ) 作为一种无需重新训练的压缩技术,是解决上述问题的主流方案。然而,现有方法(如 AWQ、GPTQ)主要针对稠密模型设计,忽视了 MoE VLMs 的两类关键异质性,导致量化效果不理想,使得该研究具有重要的实际价值。


2. 拟解决的问题

论文针对将现有量化方法直接应用于 MoE VLMs 时存在的两类核心异质性问题

问题一:模态异质性 视觉 token 与文本 token 的统计分布差异显著。论文通过梯度分析发现,文本 token 的梯度范数平均是视觉 token 的 22.4 倍,表明文本 token 对最终推理结果的影响远大于视觉 token。若统一对待两类 token,会导致语言生成质量下降。

问题二:专家异质性 MoE 层中不同专家的激活频率高度不均衡——少数”热门专家”被频繁激活并主导模型输出,而其他专家几乎处于休眠状态。现有方法对所有专家一视同仁,无法有效保护关键专家的精度。

难点在于:上述两类异质性相互交织,需要在量化框架中同时建模跨模态差异与专家贡献差异,这在方法设计上具有相当复杂性。


3. 贡献(创新点)

论文提出了 VEQ(Visual Expert Quantization) 框架,主要贡献如下:

  • 首创性框架:据作者所知,这是首个同时解决多模态异质性与 MoE 结构特性的量化框架,开创了大规模 MoE VLMs 压缩的先河。
  • 模态-专家感知量化(VEQ-ME):提出基于视觉/文本 token 路由频率的专家重要性评分机制,通过加权优化目标优先保护关键专家的量化精度。
  • 模态-亲和感知量化(VEQ-MA):提出增强型 Hessian 矩阵构造方法,将 token 与专家的路由亲和度及模态敏感性联合编码到二阶优化过程中,实现更精细的误差校准。

4. 方法

VEQ 框架由两个核心组件构成:

VEQ-ME:模态-专家感知量化

为每个专家定义重要性评分

  • 分别为路由至第 个专家的文本/视觉 token 数量

  • 数量归一化因子,平衡两类 token 的数量差距

  • 梯度敏感因子,反映文本 token 更高的梯度影响

在此基础上,将标准重建损失替换为加权版本:

从而使量化噪声优先被抑制在高重要性专家上。

VEQ-MA:模态-亲和感知量化

构造增强型 Hessian 矩阵:

其中 为对角权重矩阵,第 个 token 的权重为:

  • :token 与当前专家的路由亲和度(由路由器 logits 提供)

  • :模态敏感性系数

该方法使具有高路由置信度和高模态敏感性的 token 在 Hessian 优化中占更大权重,从而在低比特设置下更好地保留模型性能。


5. 实验

实验设置

  • 模型:Kimi-VL-Instruct、Qwen3-VL-30B-A3B-Instruct

  • 基线:RTN、AWQ、GPTQ、MBQ(当前 VLM 量化 SOTA)

  • 量化配置:W3A16(3-bit)和 W4A16(4-bit)

  • 评测基准:MMMU、AI2D、InfoVQA、TextVQA、MMBench、MME-RealWorld、ScienceQA、VizWiz、RealWorldQA(共 9 个)

主要结果

设置模型最佳基线均值VEQ-MA 均值提升
W3Kimi-VL~63.37%65.41%+2.04%
W3Qwen3-VL~64.16%67.14%+3.09%
W4Kimi-VL~72.96%73.57%+0.61%
W4Qwen3-VL~73.20%74.36%+1.16%

关键验证结论

  1. 低比特优势显著:在激进的 W3 设置下,VEQ 相比基线的优势大幅扩大,在 TextVQA 任务上相较原始量化方法提升高达 21.4%,验证了在极低比特下建模异质性的必要性。

  2. 消融实验有效

    • 去除梯度因子 或数量归一化因子 均导致性能下降,证明两者缺一不可

    • 去除路由亲和度 或模态指示符 同样造成精度损失,证明两类信息对 Hessian 校准均有实质贡献

  3. 参数鲁棒性好:敏感性分析表明,VEQ-ME 具有尺度不变性(保持 比例即可获得稳定结果);VEQ-MA 在 (使用完整路由置信度)时达到最优困惑度(PPL = 2.2526)。