EfficientVLM survey

背景

现状：VLM 将图像、文本、指令、上下文放进同一个推理链条里，所以它天然适合 VQA、检索、caption、文档理解、机器人、自动驾驶这类任务

问题：视觉 token 太多、分辨率太高、跨模态融合太重，导致显存、时延、能耗都高，当性能提升的时候SOTA VLMs 的memory footprint and inference latency显著提高

难点

视觉 token 冗余很多，但过早裁剪可能会导致不可逆的信息损失压缩得太狠，OCR、小目标、局部关系、细粒度 reasoning 往往先掉。SwiftVLM 就指出，浅层看起来“不重要”的 token，后面层里可能会重新变得关键
效率指标经常和真实部署脱节很多工作只报 FLOPs，但实际部署看的是 TTFT、prefill、kernel 兼容性、缓存压力和真实硬件吞吐。FastVLM、CoreMatching 这类工作都在往“device-aware evaluation”靠
压缩以后跨模态对齐容易出问题语言侧还在，视觉侧被压掉一部分后，alignment 常常先出问题，所以很多方法开始做 modality-aware quantization、prompt/adapter 对齐、或者蒸馏保语义。
鲁棒性和安全性可能会因效率的提高丧失 visual token compression 会让本来稳的 LVLM 在压缩推理时暴露出新的脆弱点，小扰动就可能改变 token ranking，导致关键视觉信息被错删

主流研究方向

部署前压缩也就是 quantization、low-rank、pruning、knowledge distillation、MoE/adaptive attention。这是综述里的第一大块，也是最经典的一条线。它的特点是改完再部署，收益稳定，但往往不够“按样本自适应”
高效微调包括 LoRA、prompt tuning、adapter、prefix tuning、side-tuning、memory-efficient fine-tuning。它指向的是高效适配任务
推理时优化重点是 token reduction、test-time adaptation、cache 复用、动态预算控制。这类方法这两年很热，因为它最接近真实部署场景。
原生轻量架构不是“先做大再压”，而是一开始就把 vision encoder、connector、LLM backbone、token budget 一起按边端目标设计。SmolVLM、MobileVLM、NanoVLM、Moondream 都属于这类
分布式与隐私保护边端场景常见联邦学习、split learning、多设备协同；这在医疗、机器人、车端更现实，但目前还远没成熟

模型架构

双塔 / dual-encoder。 图像编码器和文本编码器各自出 embedding，在共享空间里对齐，代表就是 CLIP。优点是检索、匹配、零样本分类强，推理也干净；缺点是生成能力弱，不适合复杂对话式 VLM

桥接式 / fusion-bridge。 典型是 BLIP-2 的 Q-Former、Flamingo 的 cross-attention。思路是用一个中间桥把视觉特征压缩后再喂给语言模型，优点是比端到端大一统训练省很多，视觉 token 也能先做一轮压缩

投影到 LLM 的自回归架构。 这是开源多模态里最主流的一支，LLaVA、MobileVLM、Xmodel-VLM、FastVLM 都在这条线上：vision encoder 提特征，projector/connector 做对齐，然后交给 decoder-only LLM。优点是复用现成 LLM 很方便；缺点也明显，视觉 token 一多，prefill 立刻爆

统一 token / unified decoder。 图像和文本都转成 token，用同一个 decoder 处理，综述里拿 Chameleon 一类模型举例。这个方向结构上最“统一”，但训练和部署都更重

原生轻量 VLM。 这类模型不是把“大模型裁小”，而是从一开始就在参数分配、视觉 backbone、connector、量化方案、训练数据上做轻量共设计。SmolVLM-500M 能在约 1.23GB GPU RAM 上做单图推理；NanoVLMs 则在问一个更极端的问题：VLM 到底能小到什么程度还保持文本连贯

未来可研究方向

动态视觉预算
不是给所有样本固定留 25% 或 50% token，而是让模型自己决定“这张图值不值得花更多视觉预算”。AdaptVision 这类工作已经证明，这条路是通的。
硬件感知的联合优化 后面真正有价值的工作，不会只报 FLOPs，而会同时优化 token、neuron、cache、kernel 兼容性和真实设备 TTFT。ApET 强调 FlashAttention 兼容，CoreMatching 报真实加速，就是这个方向。
更小模型的数据策略 NanoVLMs 说明，小模型未必一定输，大问题在于数据分布、任务难度和训练目标是不是匹配“小模型的表达能力”。
可信高效 VLM 解释性、不确定性估计、压缩后的鲁棒性、公平性、联邦场景下的隐私泄露，这些不会因为模型变小就自动解决。综述对这一点讲得很明确。

Starry's Blog

Explorer

EfficientVLM survey

背景

难点

主流研究方向

模型架构

未来可研究方向

Graph View

Table of Contents