VLM 高效加速方法全景研究指南
Vision-Language Model(VLM)的高效加速已成为 2024-2026 年多模态 AI 领域最活跃的研究方向之一。 核心矛盾在于:高分辨率图像和视频输入产生数千甚至上万个视觉 token(如 Qwen2.5-VL 单张图像可达 16,384 个 token),导致推理延迟和显存消耗远超纯文本 LLM。当前研究已在模型压缩、架构优化、系统工程和训练加速四个层面形成了完整的技术栈。其中,视觉 token 压缩是学术界最热门的方向(2024-2026 年超过 100 篇论文),而工业界更关注端到端的量化部署和推理框架优化。
一、模型压缩:从权重到 token 的多层次压缩
1.1 量化(Quantization)
VLM 量化面临纯文本 LLM 不存在的特殊挑战:视觉 token 与文本 token 的激活分布差异显著——视觉 token 动态范围更宽、outlier 更突出,单一全局量化 scale 无法兼顾两种模态。研究一致表明,LLM backbone 对量化最敏感,视觉编码器次之,connector(如 MLP 投影层)最不敏感。
PTQ(训练后量化)代表方法:
- Q-VLM(NeurIPS 2024):首个专为 VLM 设计的 PTQ 框架,利用激活熵挖掘跨层依赖关系,在 LLaVA-13B 上实现 2.78× 压缩和 1.44× 加速,4-bit 下性能无退化
- MBQ(Modality-Balanced Quantization)(CVPR 2025):基于梯度的模态敏感性指标,将视觉和语言 token 的量化误差分别优化。W3A16 下比 SOTA 高 +4.4%,W4A8 下高 +11.6%,覆盖 7B–70B 规模 VLM
- MQuant(ACM MM 2025):首个 VLM 全静态量化方案,提出 Modality-Specific Quantization(MSQ),为视觉和文本 token 分别计算 per-channel-group 静态 scale,W4A8 下精度损失 <1%,推理延迟降低 30%
- VLMQ(2025):发现冗余视觉 token 偏置了 GPTQ 的 Hessian 统计,提出重要性加权二阶校准,在 INT3/INT2 超低比特场景下显著优于 AWQ 和 MBQ
- VEQ(2025):专门针对 MoE VLM(Kimi-VL、Qwen3-VL),提出模态-专家感知量化
QAT(量化感知训练)代表方法:
- SPEED-Q(2025,蚂蚁集团):首个面向 1-2B 小规模 VLM 的 QAT 框架,采用分阶段量化解决 ViT 和 LLM 不同训练敏感性。4-bit InternVL2.5-1B(485MB)比 BF16 FastVLM(1517MB)高 +7.94 分,2-bit 下精度是现有方法的 6 倍
- QSLAW(2024):学习组级 scale 因子缓解量化误差,附加模态感知 warmup,量化后模型可达或超越全精度
主流 LLM 量化方法在 VLM 上的应用: GPTQ 和 AWQ 均可直接应用于 VLM 的 LLM 部分(通常只量化 LLM Linear 层,保留 vision_tower 和 projector 为高精度),4-bit 下可获得 3-4× 模型尺寸压缩。SmoothQuant 直接应用于 VLM 时存在”平滑失配”问题,MBQ 和 MQuant 已对此进行改进。
精度格式覆盖: W8A8(SmoothQuant 风格)、W4A16(GPTQ/AWQ 主流)、W3A16(MBQ 已验证可行)、INT3/INT2(VLMQ/SPEED-Q 推动超低比特前沿)、FP8(vLLM 支持,常用于 KV cache 量化)、NF4(QLoRA 使用,bitsandbytes 支持)。
1.2 剪枝(Pruning)
VLM 剪枝分为 token 级剪枝(减少视觉 token 数量)和 权重级剪枝(减少模型参数),前者是当前绝对主流。
Token 级剪枝是 VLM 效率研究中最热门的方向,核心洞察是:视觉 token 占据了序列长度的大部分却包含大量冗余信息(高分辨率图像 2304 个 token 的余弦相似度集中在 1.0 附近)。代表方法将在架构优化部分(第二节)详细展开。
权重级剪枝代表方法:
- ECoFLaP(ICLR 2024):两阶段粗到细逐层剪枝,使用零阶梯度近似确定层级稀疏率,在 BLIP-2、EVA-CLIP 上验证
- SparseLoRA(2024):对 LoRA 权重施加稀疏 mask,合并后保持稀疏模式。2:4 稀疏下提升 +11.3%,非结构化 70% 稀疏下提升 +47.6%
- InfoPrune(2025):基于熵的有效秩 + KS 距离作为统一剪枝标准,最高 3.2× FLOPs 削减和 1.8× 加速
关键结论: 对 VLM 而言,token 剪枝的研究活跃度和实际收益远超权重剪枝。权重剪枝中,LLM backbone 比视觉编码器更敏感,connector 通常不需要剪枝(本身很轻量)。token 剪枝和权重量化可以叠加获得复合增益。
1.3 知识蒸馏(Knowledge Distillation)
大到小 VLM 蒸馏:
- LLaVA-MoD(ICLR 2025):将 MoE 结构集成到学生模型中,采用渐进式知识转移——先用 KL 散度对齐(Mimic Distillation),再用 DPO 进行偏好蒸馏。LLaVA-MoD-2B 在多个 benchmark 上超越 Qwen-VL-Chat-7B +8.8%,仅使用 0.3% 训练数据
- LLaVA-KD(ICCV 2025):提出多模态蒸馏损失(MDist)和关系蒸馏损失(RDist),后者转移教师模型建模视觉 token 相关性的能力。1B 模型超越 BLIP2-13B 和 InstructBLIP-7B
- VLsI(NVIDIA Research, CVPR 2025):逐层蒸馏,用中间”verbalizer”将特征映射到自然语言空间。2B 模型比 GPT-4V 高 +11.0%,7B 模型高 +17.4%
视觉编码器蒸馏:
- MoVE-KD(CVPR 2025):从多个视觉编码器(CLIP、EVA-02、ConvNeXt)蒸馏到单一高效编码器,使用 Mixture-of-LoRA-Experts 防止知识混淆
- VL2Lite(CVPR 2025):从大型 VLM 蒸馏到轻量 CNN(ResNet-18、MobileNet-V2)
二、架构层面优化:注意力、token 和编码器
2.1 注意力机制优化
FlashAttention 已成为 VLM 推理和训练的标准基础设施。FlashAttention-2(ICLR 2024)在 A100 上达到理论极限的 50-73%(最高 225 TFLOPs/s),原生支持 MQA 和 GQA。FlashAttention-3 面向 H100/Hopper 架构优化,利用异步 Tensor Core 执行和 warp specialization 进一步提速。
Multi-Latent Attention(MLA) 由 DeepSeek-V2 提出,通过低秩 KV 联合压缩将每个 token 的 KV 存储从 16K 浮点数压缩到 576 浮点数(约 28× 削减)。代价是计算量增加约 4×,但由于内存带宽是瓶颈,实际带来 5.76× 生成吞吐提升和 93.3% KV cache 削减。MHA2MLA(ACL 2025)已可将现有 MHA/GQA 模型转换为 MLA。
GQA 被广泛用于 LLaMA-2/3、Mistral 等 VLM 的 LLM backbone,通过分组共享 KV head 降低 KV cache,是质量-效率的折中方案。
稀疏注意力方面,MMInference(Microsoft, ICML 2025)发现视频输入展现独特的”网格模式”(Grid pattern),基于此提出动态稀疏注意力方法,在 1M token 长度下实现 8.3× prefill 加速。
2.2 视觉 token 压缩——当前最热方向
这是 2024-2026 年 VLM 效率研究中论文最密集的方向(超过 100 篇),有三个专门的 Awesome List 在持续跟踪。核心动机是:典型 VLM 中视觉 token 占据绝大部分序列长度,但空间冗余极高。
两种压缩范式:
- LLM 前压缩(在视觉编码器或投影器中完成):LLaVA-PruMerge、FasterVLM、EvoPrune,减少进入 LLM 的 token 数
- LLM 内压缩(利用 LLM 层间注意力模式):FastV、SparseVLM、VTW,可利用跨模态信号但可能与 FlashAttention 冲突
代表性方法:
- FastV(ECCV 2024 Oral):发现深层 LLM 层对大部分视觉 token 分配的注意力极少。在第 K 层(默认 2-3 层)后根据注意力分数剪枝低效视觉 token。45% FLOPs 削减,性能损失可忽略。局限:依赖显式注意力图计算,与 FlashAttention 不兼容
- SparseVLM(ICML 2025):training-free,用文本 token 引导视觉 token 选择,逐层自适应稀疏化。54% FLOPs 削减,37% CUDA 延迟降低,保持 97% 精度。视频理解比 FastV 高 14.7%
- LLaVA-PruMerge(ICCV 2025):三步法——利用 CLS token 选择重要 token、KNN 聚类、加权合并。平均 14.4× 压缩(576→~40 token),OCR/TextVQA 任务表现尤佳
- TopV(CVPR 2025):将 token 剪枝形式化为优化问题,兼容 KV cache 和 FlashAttention(解决了 FastV 的局限)
- VLM-Pruner(2025):向心式 token 剪枝,88.9% 剪枝率下仍保持优势
- LLaVA-Mini(2024):极端压缩至 1 个视觉 token
ICLR 2025 的重要发现: “Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters”——推理最优的配置是用最大的 LLM 配合最少的视觉 token,这为 token 压缩提供了理论支撑。
ToMe(Token Merging) 最初为 ViT 设计(ICLR 2023),直接应用于 VLM 效果较差(不考虑跨模态相关性)。AdaptMerge(EMNLP 2025)通过结合自适应视觉 token 合并和语言引导合并改进了这一问题。
2.3 MoE 在 VLM 中的应用
MoE 通过稀疏激活将模型容量与计算成本解耦,使 VLM 以恒定计算量扩展参数规模。
- MoE-LLaVA(2024):将 LLaVA 的 LLM 中密集 FFN 替换为稀疏 MoE 层,提出三阶段 MoE-Tuning 策略解决多模态稀疏学习中的性能退化
- DeepSeek-VL2(2024.12):结合 MoE 和 MLA,4.5B 激活参数即可匹配 Qwen2-VL-7B(8.3B 激活),DocVQA 达 93.3%(超 GPT-4o 的 92.8%)
- Kimi-VL(2025):16B 总参数 / 2.8B 激活,在 19/24 个 benchmark 上超越 DeepSeek-VL2
- V-MoE(NeurIPS 2022):视觉 MoE,将 ViT FFN 替换为稀疏 MoE,扩展至 15B 参数
2.4 高效视觉编码器
SigLIP 2(Google, 2025.2):在 SigLIP 基础上加入 captioning 预训练、自监督损失和在线数据筛选。NaFlex 变体支持原生宽高比和可变分辨率,四种规模(86M–1B)全面超越 SigLIP。
InternViT-6B(InternVL, CVPR 2024 Oral):将视觉编码器扩展到 6B 参数,关键发现是大视觉编码器可以 将训练数据需求降低 10 倍。InternVL 3.5 引入 Visual Resolution Router(ViR),自适应压缩视觉 token 最高 50%。
FastVLM(Apple, CVPR 2025):使用混合卷积-Transformer 架构 FastViTHD 替代标准 ViT,比 ViT-L/14 小 8 倍、快 20 倍,是精度-延迟 Pareto 最优方案。
动态分辨率策略是现代 VLM 的标配:Qwen2-VL 的 Naive Dynamic Resolution + M-RoPE、InternVL 的 1-40 tiles 动态切分 + pixel unshuffle(4× 压缩)、LLaVA-NeXT 的 AnyRes 策略。
三、系统工程层面:推理框架与内存优化
3.1 KV Cache 优化
VLM 的 KV cache 挑战远超文本 LLM:以 LLaVA-1.6-34B 为例,batch=4、每个 prompt 5 张图片、每张 2K 视觉 token,仅视觉 KV cache 就需要 110GB HBM。
- VL-Cache(Amazon, 2024):首个 VLM 专用 KV cache 压缩方法,发现视觉和文本 token 在不同层和阶段展现不同稀疏模式。仅保留 10% KV cache 即可达到全 cache 精度,7.08× 解码加速,90% 显存节省
- LightVLM(EMNLP 2025):结合金字塔 token 合并与 KV cache 压缩,仅保留 3% 图像 token,在 9 个 benchmark 上超越现有方法。InternVL2.5-26B + LightVLM 的速度和精度均超过 InternVL2.5-8B
- MMInference(Microsoft, ICML 2025):针对 VLM prefill 阶段的动态稀疏注意力,1M token 下 8.3× prefill 加速
- PureKV(2025):视频 VLM 的时空稀疏注意力模块,5.0× KV cache 压缩和 3.16× prefill 加速
KV Cache 量化: vLLM 支持 FP8 KV cache 量化(约 2× 显存节省),KIVI(2024)实现 2-bit KV cache 异步量化,ZipCache(2024)通过显著 token 识别提升压缩精度。
前缀缓存: vLLM V1 已实现多模态前缀缓存(将图像 hash 嵌入 KV block hash),LMCache 0.3.1 扩展后可实现 冷启动 18s→缓存命中 1s,TTFT 提速 3-10×。
3.2 Speculative Decoding
VLM 的投机解码面临额外挑战:视觉 prefill 计算重、KV cache 膨胀、文本 draft 模型缺乏视觉信息导致接受率低。
- SpecVLM(2025):提出 EagleVLM(EAGLE-2 风格基线,1.5-2.3× 加速)+ 弹性视觉压缩器 + 在线 logit 蒸馏,5 个 epoch 训练即可达 2.5-2.9× 端到端加速
- MASSV(EMNLP 2025):将同系列小 LLM 适配为多模态 drafter(如用 Qwen2.5-1.5B 为 Qwen2.5-VL-7B 生成草稿),平均接受长度提升 +47.5%,端到端 1.28× 加速
3.3 批处理与并行策略
VLM 的批处理面临独特挑战:不同图像产生不同数量的视觉 token(576 到 16K+),使得 batch 内 padding 效率极低。
vLLM 的创新方案——Vision Encoder Data Parallel + LLM Tensor Parallel: 视觉编码器仅占模型 1-5%,对其使用 tensor parallelism 增加的通信开销远超计算收益。vLLM 率先采用视觉编码器 batch 级数据并行(每个 GPU 持有完整编码器副本,独立处理不同图像),LLM 继续使用 tensor parallelism。该方案在 AMD MI300X 上实现 45% 吞吐提升,Conv3D 类编码器(如 Qwen2.5-VL 视频处理)额外提升 40%。SGLang 随后采纳了该方案。
Prefill-Decode 分离部署: 将 prefill 和 decode 阶段部署到不同硬件(前者计算密集,后者带宽密集)。vLLM 实验性支持通过 NCCL/NIXL/LMCache 等后端进行分离式推理。llm-d(Kubernetes 原生方案)在 1024 input/1024 output token 场景下实现 70% 吞吐提升。VLM 因 prefill 阶段特别重(视觉编码 + 长视觉序列),特别适合分离部署。
3.4 推理框架对比
当前主流框架对 VLM 的支持情况:
| 框架 | H100 吞吐 (8B) | VLM 模型数 | 核心优势 | 适用场景 |
|---|---|---|---|---|
| vLLM | ~12,500 tok/s | 50+ | 生态最成熟,PagedAttention,多硬件支持 | 通用生产部署 |
| SGLang | ~16,200 tok/s | 主流 VLM | RadixAttention 前缀缓存,比 vLLM 快 29% | 多轮对话、前缀复用 |
| LMDeploy | ~16,100 tok/s | InternVL/LLaVA/Qwen-VL | C++ TurboMind 后端,量化模型 2.4× 加速 | 量化模型部署、最低 TTFT |
| TensorRT-LLM | 最高(NVIDIA) | ~10 VLM | 融合算子、CUDA graph、EAGLE-3 | NVIDIA 硬件极致性能 |
| llama.cpp | 边缘级 | ~15 VLM | CPU/Metal/Vulkan,GGUF 格式,广泛量化 | 消费级设备、边缘部署 |
vLLM V1 针对多模态的关键改进包括:编码器缓存(embedding 只计算一次)、编码器感知调度器、修正了 V0 中不同图像共享 <image> placeholder 导致前缀缓存污染的 bug。
四、训练加速:从微调到数据效率
4.1 高效微调
LoRA/QLoRA/DoRA 是 VLM 高效微调的三大支柱。在 VLM 中 LoRA 的应用有其特殊性——需要决定对哪些组件施加 LoRA:
- 通用做法: 仅对 LLM 施加 LoRA(冻结视觉编码器),适用于大多数任务
- 领域适配: 同时对视觉编码器施加 LoRA(如医学影像),Unsloth 和 LLaMA-Factory 支持
finetune_vision_layers=True - QLoRA 使用 NF4 量化基础权重 + 高精度 LoRA adapter,可在单张 24GB GPU(RTX 3090/4090)上微调 7B VLM
- DoRA(ICML 2024 Oral, NVIDIA):将权重分解为幅度和方向分量,对方向施加 LoRA。在 LLaVA-7B 上比 LoRA 高 +0.6-1.1%,某些任务甚至超越全量微调。HuggingFace PEFT 中通过
use_dora=True即可启用
实用建议: QLoRA(r=8-16)+ gradient checkpointing + gradient accumulation(8 步)+ BF16 = 单卡 24GB 可微调 7B VLM。推荐框架:LLaMA-Factory(ACL 2024,支持 100+ 模型)、Unsloth(声称 30× 加速、60% 显存节省)、HuggingFace TRL。
4.2 数据效率
VLM 标准训练采用 2-3 阶段流程,数据需求差异显著:
- 阶段 1(视觉-语言对齐): 仅训练 connector,500K-1.2M 图文对,低分辨率(224px),约 220 A100-40G GPU 小时
- 阶段 2(指令微调 SFT): 训练 LLM + connector,665K-10M 指令数据,中高分辨率
- 阶段 3(对齐,可选): RLHF/DPO,10K-100K 偏好数据
关键发现: InternVL2.5 证明 6B 视觉编码器可将训练数据需求降低 10 倍(达到 Qwen2-VL-72B 用 600M ViT + 10× 数据的同等效果)。Open-Qwen2VL 仅用 Qwen2-VL-2B 0.35% 的训练 token 即达到竞争力性能。SAIL-VL(ACL 2025)的三阶段课程学习在 2B 和 8B 规模均达到 SOTA。核心结论:数据质量 > 数据数量。
4.3 混合精度与分布式训练
BF16 是现代 VLM 训练的标准精度(比 FP16 动态范围更宽)。但视觉 backbone 中的 FrozenBatchNorm2d 等层在 BF16 下可能出问题,需要用 FP32 计算。Gradient checkpointing 对 VLM 必不可少(图像产生大量激活),典型节省 30-50% 激活显存,计算开销约 20-30%。
DeepSpeed ZeRO vs FSDP: ZeRO Stage 2 是 VLM 微调最常用方案(分片优化器状态和梯度),ZeRO Stage 3 用于 13B+ 全量微调。FSDP 更 PyTorch 原生、精度控制更灵活。VLM 使用 FSDP 需要自定义 auto-wrap 策略处理异构模块。
五、VLM 专属优化:从 connector 到视频处理
5.1 视觉-语言对齐加速
Connector 设计直接影响 token 数量和对齐质量,当前主要架构:
- MLP 投影器(LLaVA):最简单快速,但 token 数量等于 ViT 输出,无压缩
- Pixel Shuffle + MLP(Qwen2-VL, InternVL2):4× token 压缩,当前最佳速度-质量平衡
- Q-Former(BLIP-2):固定数量 learnable query 的交叉注意力,输出长度可控但细粒度信息可能丢失
- Perceiver Resampler(Flamingo):可变输入→固定输出,Apollo 发现每帧 8-32 token 最优
- Gated Cross-Attention(Flamingo, CogVLM):深度融合,质量最高但参数量增加 2-3×
- AlignVLM(2025):约束视觉特征落入 LLM 文本嵌入空间内,全面超越 MLP、Perceiver 等方案且计算开销可忽略
5.2 多模态 KV Cache
VL-Cache 首先揭示了视觉和文本 token 在 KV cache 中展现不同的稀疏模式,需要分别管理。PrefixKV(2024)专门为视觉指令跟随模型设计自适应前缀 KV cache。MHA2MLA-VLM(2025)将 DeepSeek 的 MLA 适配到 VLM,通过低秩近似实现 KV cache 压缩,适配时间减少 59%。
实用推荐: 部署时启用 vLLM 前缀缓存(V1 默认开启)获得免费加速;显存受限时使用 VL-Cache 10-20% 保留率;视频场景使用 PureKV 时空稀疏。
5.3 长图/多图/视频 VLM 加速
视频 VLM 的规模挑战最为严峻:1 FPS 采样 100 帧视频 = 25,600-57,600 个视觉 token,二次注意力复杂度使其几乎不可行。
时间维压缩:
- STORM(NVIDIA, 2025):Mamba 时间编码器 + 时空平均池化 + 时间 token 采样,4× 压缩,长视频 benchmark SOTA
- PVC(Progressive Visual Token Compression)(CVPR 2025):统一图像和视频压缩框架,将图像视为重复帧,渐进式捕获时空动态
- XComp(NeurIPS 2025):极端压缩至每帧 1 个 token,仅用 2.5% SFT 数据训练压缩模块
- Run-Length Tokenization(NeurIPS 2024 Spotlight):识别视频帧间连续重复 patch,替换为单 token + 持续时间编码
内容感知压缩: SparseVLM、FastV 等方法同样适用于视频场景。关键原则是根据 语义丰富度自适应分配 token 预算,而非均匀分配。
六、学术资源与社区导航
核心 Survey 论文
- “A Survey on Efficient Vision-Language Models”(arXiv:2504.09724, 2025):最全面的专题综述,覆盖量化、剪枝、KD、低秩近似,配套 GitHub repo
- “Efficient Multimodal Large Language Models: A Survey”(arXiv:2405.10739, 2024):系统梳理高效 MLLM 的结构和策略
- “Vision Language Models: A Survey of 26K Papers”(arXiv:2510.09586, 2025):覆盖 CVPR/ICLR/NeurIPS 2023-2025 的 26,104 篇论文的元综述
- “Token Reduction Should Go Beyond Efficiency”(arXiv:2505.18227, 2025):token 压缩的 position paper,超越效率探讨推理和鲁棒性
顶会代表性论文速查(2023-2025)
| 方向 | 代表论文 | 会议 |
|---|---|---|
| Token 剪枝 | FastV | ECCV 2024 Oral |
| Token 剪枝 | TopV, PyramidDrop, FastVLM, PACT | CVPR 2025 |
| Token 剪枝 | LLaVA-Mini, Dynamic-LLaVA, Scaling Laws | ICLR 2025 |
| Token 剪枝 | PruneSID, AgilePruner, VisionTrim, FlashVID, MARC | ICLR 2026 |
| Token 剪枝 | SparseVLM, LongVU | ICML 2025 |
| 量化 | Q-VLM, KVQuant, ZipCache | NeurIPS 2024 |
| 量化 | MBQ | CVPR 2025 |
| 权重剪枝 | ECoFLaP | ICLR 2024 |
| KV Cache | VL-Cache, LightVLM | 2024-2025 |
| 稀疏注意力 | MMInference | ICML 2025 |
| 蒸馏 | LLaVA-MoD | ICLR 2025 |
| 蒸馏 | VLsI, MoVE-KD | CVPR 2025 |
| 高效编码器 | FastVLM (Apple) | CVPR 2025 |
| 微调 | DoRA | ICML 2024 Oral |
arXiv 关键词搜索建议
| 搜索词 | 聚焦方向 |
|---|---|
"efficient VLM" OR "efficient vision language model" | 通用效率 |
"visual token pruning" OR "visual token compression" | Token 压缩(最热) |
"VLM quantization" OR "multimodal quantization" | 量化 |
"KV cache compression" multimodal | 显存优化 |
"small vision language model" OR "lightweight MLLM" | 轻量模型 |
"speculative decoding" multimodal | 解码加速 |
"on-device VLM" OR "edge VLM" | 端侧部署 |
监控 arXiv 分类:cs.CV(主阵地)、cs.CL、cs.LG、cs.AI
值得关注的 GitHub 仓库
| 仓库 | 用途 |
|---|---|
| ZLKong/Awesome-Collection-Token-Reduction | 最全 token 压缩论文集,更新至 2026 |
| MPSC-UMBC/Efficient-Vision-Language-Models-A-Survey | 高效 VLM Survey 配套仓库 |
| lijiannuist/Efficient-Multimodal-LLMs-Survey | 高效 MLLM Survey 配套 |
| daixiangzi/Awesome-Token-Compress | ViT 和 VLM token 压缩 |
| gokayfem/awesome-vlm-architectures | VLM 架构详细对比 |
| BradyFU/Awesome-Multimodal-Large-Language-Models | 多模态 LLM 大全,每日更新 |
| Zhen-Dong/Awesome-Quantization-Papers | 量化论文按会议整理 |
业界 vs 学术界关注差异
业界核心指标是 $/quality-adjusted-token,关注端到端流水线:量化→推理框架→硬件算子→自动扩缩容。具体表现为追求低 TTFT(<100ms)、高吞吐(tok/s/GPU)、部署成本优化和端侧推理。代表性工作包括 Apple 的 FastVLM(CVPR 2025)、Meta 的 Llama 3.2 1B/3B、Google 的 PaliGemma 2、NVIDIA 的 TensorRT-LLM。
学术界更关注算法创新:新的剪枝标准、极端压缩(>90% 剪枝率甚至 1-token VLM)、推理计算 scaling law 的理论分析、新架构(无编码器 VLM、混合编码器)。成功指标是”在 benchmark Y 上,压缩率 X 下保持 Z% 精度”。
两者的交汇点在于 training-free 方法(FastV、SparseVLM、VisionTrim)——无需重新训练即可开箱使用,同时吸引学术研究者和工程团队。ICLR 2025 的 VLM 推理 scaling law 研究也为双方提供了共同的理论框架。
结论:研究者的行动路线图
VLM 高效加速已从单点技术发展为覆盖模型全生命周期的系统化方法体系。视觉 token 压缩毫无疑问是当前最活跃且收益最高的方向——SparseVLM 以 training-free 方式实现 54% FLOPs 削减并保持 97% 精度,代表了该方向的前沿水平。量化领域正从简单移植 LLM 方法转向模态感知量化(MBQ、MQuant),MoE+MLA 的组合(DeepSeek-VL2、Kimi-VL)则展现了架构级效率的巨大潜力。
对于入门研究者,建议从三个切入点开始:(1)阅读 arXiv:2504.09724 Survey + ZLKong/Awesome-Collection-Token-Reduction 全面了解领域;(2)复现 FastV 或 SparseVLM 理解 token 压缩的核心机制;(3)使用 LLaMA-Factory + QLoRA 在消费级 GPU 上实践 VLM 微调。值得特别关注的新兴方向包括:FlashAttention 兼容的 token 压缩(TopV 解决了 FastV 的关键局限)、视频 VLM 的时空压缩(PVC、STORM)、以及 MoE VLM 的专属量化方法(VEQ)。