背景

现状:VLM 将图像、文本、指令、上下文放进同一个推理链条里,所以它天然适合 VQA、检索、caption、文档理解、机器人、自动驾驶这类任务

问题:视觉 token 太多、分辨率太高、跨模态融合太重,导致显存、时延、能耗都高,当性能提升的时候SOTA VLMs 的memory footprint and inference latency显著提高

难点

  1. 视觉 token 冗余很多,但过早裁剪可能会导致不可逆的信息损失 压缩得太狠,OCR、小目标、局部关系、细粒度 reasoning 往往先掉。SwiftVLM 就指出,浅层看起来“不重要”的 token,后面层里可能会重新变得关键
  2. 效率指标经常和真实部署脱节 很多工作只报 FLOPs,但实际部署看的是 TTFT、prefill、kernel 兼容性、缓存压力和真实硬件吞吐。FastVLM、CoreMatching 这类工作都在往“device-aware evaluation”靠
  3. 压缩以后跨模态对齐容易出问题 语言侧还在,视觉侧被压掉一部分后,alignment 常常先出问题,所以很多方法开始做 modality-aware quantization、prompt/adapter 对齐、或者蒸馏保语义。
  4. 鲁棒性和安全性可能会因效率的提高丧失 visual token compression 会让本来稳的 LVLM 在压缩推理时暴露出新的脆弱点,小扰动就可能改变 token ranking,导致关键视觉信息被错删

主流研究方向

  1. 部署前压缩 也就是 quantization、low-rank、pruning、knowledge distillation、MoE/adaptive attention。这是综述里的第一大块,也是最经典的一条线。它的特点是改完再部署,收益稳定,但往往不够“按样本自适应”
  2. 高效微调 包括 LoRA、prompt tuning、adapter、prefix tuning、side-tuning、memory-efficient fine-tuning。它指向的是高效适配任务
  3. 推理时优化 重点是 token reduction、test-time adaptation、cache 复用、动态预算控制。这类方法这两年很热,因为它最接近真实部署场景。
  4. 原生轻量架构 不是“先做大再压”,而是一开始就把 vision encoder、connector、LLM backbone、token budget 一起按边端目标设计。SmolVLM、MobileVLM、NanoVLM、Moondream 都属于这类
  5. 分布式与隐私保护 边端场景常见联邦学习、split learning、多设备协同;这在医疗、机器人、车端更现实,但目前还远没成熟

模型架构

双塔 / dual-encoder。 图像编码器和文本编码器各自出 embedding,在共享空间里对齐,代表就是 CLIP。优点是检索、匹配、零样本分类强,推理也干净;缺点是生成能力弱,不适合复杂对话式 VLM

桥接式 / fusion-bridge。 典型是 BLIP-2 的 Q-Former、Flamingo 的 cross-attention。思路是用一个中间桥把视觉特征压缩后再喂给语言模型,优点是比端到端大一统训练省很多,视觉 token 也能先做一轮压缩

投影到 LLM 的自回归架构。 这是开源多模态里最主流的一支,LLaVA、MobileVLM、Xmodel-VLM、FastVLM 都在这条线上:vision encoder 提特征,projector/connector 做对齐,然后交给 decoder-only LLM。优点是复用现成 LLM 很方便;缺点也明显,视觉 token 一多,prefill 立刻爆

统一 token / unified decoder。 图像和文本都转成 token,用同一个 decoder 处理,综述里拿 Chameleon 一类模型举例。这个方向结构上最“统一”,但训练和部署都更重

原生轻量 VLM。 这类模型不是把“大模型裁小”,而是从一开始就在参数分配、视觉 backbone、connector、量化方案、训练数据上做轻量共设计。SmolVLM-500M 能在约 1.23GB GPU RAM 上做单图推理;NanoVLMs 则在问一个更极端的问题:VLM 到底能小到什么程度还保持文本连贯

未来可研究方向

动态视觉预算
不是给所有样本固定留 25% 或 50% token,而是让模型自己决定“这张图值不值得花更多视觉预算”。AdaptVision 这类工作已经证明,这条路是通的。
硬件感知的联合优化 后面真正有价值的工作,不会只报 FLOPs,而会同时优化 token、neuron、cache、kernel 兼容性和真实设备 TTFT。ApET 强调 FlashAttention 兼容,CoreMatching 报真实加速,就是这个方向。
更小模型的数据策略 NanoVLMs 说明,小模型未必一定输,大问题在于数据分布、任务难度和训练目标是不是匹配“小模型的表达能力”。
可信高效 VLM 解释性、不确定性估计、压缩后的鲁棒性、公平性、联邦场景下的隐私泄露,这些不会因为模型变小就自动解决。综述对这一点讲得很明确。