VEQ: 面向MoE视觉语言模型的模态自适应量化
1. 研究背景
问题:MoE Vision-Language Models 性能强但参数巨大,内存和计算成本高,难以部署。
现有方法局限:
- 通用量化方法无视跨模态差异:语言tokens对量化误差敏感度是视觉tokens的10倍
- 无视专家异构性:不同专家贡献不均,却被平等对待 意义:提出首个同时处理这两个异构性的MoE VLM量化方法
后训练量化(PTQ) 作为一种无需重新训练的压缩技术,是解决上述问题的主流方案。然而,现有方法(如 AWQ、GPTQ)主要针对稠密模型设计,忽视了 MoE VLMs 的两类关键异质性,导致量化效果不理想,使得该研究具有重要的实际价值。
2. 拟解决的问题
论文针对将现有量化方法直接应用于 MoE VLMs 时存在的两类核心异质性问题:
问题一:模态异质性 视觉 token 与文本 token 的统计分布差异显著。论文通过梯度分析发现,文本 token 的梯度范数平均是视觉 token 的 22.4 倍,表明文本 token 对最终推理结果的影响远大于视觉 token。若统一对待两类 token,会导致语言生成质量下降。
问题二:专家异质性 MoE 层中不同专家的激活频率高度不均衡——少数”热门专家”被频繁激活并主导模型输出,而其他专家几乎处于休眠状态。现有方法对所有专家一视同仁,无法有效保护关键专家的精度。
难点在于:上述两类异质性相互交织,需要在量化框架中同时建模跨模态差异与专家贡献差异,这在方法设计上具有相当复杂性。
3. 贡献(创新点)
论文提出了 VEQ(Visual Expert Quantization) 框架,主要贡献如下:
- 首创性框架:据作者所知,这是首个同时解决多模态异质性与 MoE 结构特性的量化框架,开创了大规模 MoE VLMs 压缩的先河。
- 模态-专家感知量化(VEQ-ME):提出基于视觉/文本 token 路由频率的专家重要性评分机制,通过加权优化目标优先保护关键专家的量化精度。
- 模态-亲和感知量化(VEQ-MA):提出增强型 Hessian 矩阵构造方法,将 token 与专家的路由亲和度及模态敏感性联合编码到二阶优化过程中,实现更精细的误差校准。
4. 方法
VEQ 框架由两个核心组件构成:
VEQ-ME:模态-专家感知量化
为每个专家定义重要性评分 :
-
、 分别为路由至第 个专家的文本/视觉 token 数量
-
:数量归一化因子,平衡两类 token 的数量差距
-
:梯度敏感因子,反映文本 token 更高的梯度影响
在此基础上,将标准重建损失替换为加权版本:
从而使量化噪声优先被抑制在高重要性专家上。
VEQ-MA:模态-亲和感知量化
构造增强型 Hessian 矩阵:
其中 为对角权重矩阵,第 个 token 的权重为:
-
:token 与当前专家的路由亲和度(由路由器 logits 提供)
-
:模态敏感性系数
该方法使具有高路由置信度和高模态敏感性的 token 在 Hessian 优化中占更大权重,从而在低比特设置下更好地保留模型性能。
5. 实验
实验设置
-
模型:Kimi-VL-Instruct、Qwen3-VL-30B-A3B-Instruct
-
基线:RTN、AWQ、GPTQ、MBQ(当前 VLM 量化 SOTA)
-
量化配置:W3A16(3-bit)和 W4A16(4-bit)
-
评测基准:MMMU、AI2D、InfoVQA、TextVQA、MMBench、MME-RealWorld、ScienceQA、VizWiz、RealWorldQA(共 9 个)
主要结果
| 设置 | 模型 | 最佳基线均值 | VEQ-MA 均值 | 提升 |
|---|---|---|---|---|
| W3 | Kimi-VL | ~63.37% | 65.41% | +2.04% |
| W3 | Qwen3-VL | ~64.16% | 67.14% | +3.09% |
| W4 | Kimi-VL | ~72.96% | 73.57% | +0.61% |
| W4 | Qwen3-VL | ~73.20% | 74.36% | +1.16% |
关键验证结论
-
低比特优势显著:在激进的 W3 设置下,VEQ 相比基线的优势大幅扩大,在 TextVQA 任务上相较原始量化方法提升高达 21.4%,验证了在极低比特下建模异质性的必要性。
-
消融实验有效:
-
去除梯度因子 或数量归一化因子 均导致性能下降,证明两者缺一不可
-
去除路由亲和度 或模态指示符 同样造成精度损失,证明两类信息对 Hessian 校准均有实质贡献
-
-
参数鲁棒性好:敏感性分析表明,VEQ-ME 具有尺度不变性(保持 比例即可获得稳定结果);VEQ-MA 在 (使用完整路由置信度)时达到最优困惑度(PPL = 2.2526)。