VLM KV Cache 压缩方法综述

背景

大型视觉语言模型(VLM)在推理阶段面临严重的效率瓶颈:视觉 token 数量远多于文本 token,高分辨率图像经 ViT 编码后可产生数百乃至数千个视觉 token,这些 token 的 KV Cache 在自回归解码阶段持续占用显存,导致:

  • 显存压力:KV Cache 随序列长度二次增长,多模态输入使问题更严峻
  • TTFT 延迟高:prefill 阶段需处理大量视觉 token
  • 解码吞吐低:解码时 KV Cache 访问是主要瓶颈(memory-bound)

与纯 LLM KV Cache 压缩的核心区别

VLM 的 KV Cache 不能直接套用 LLM 的方法,因为:

  1. 视觉 token 与文本 token 的注意力稀疏性模式截然不同
  2. 视觉 token 存在大量空间冗余(相邻图像块往往相似)
  3. 跨模态(文本查询 → 视觉 token)的相关性是重要的压缩信号
  4. 视频/机器人场景中相邻帧之间存在时序冗余

方法分类

分类一:模态感知的 KV Cache 压缩(Modality-Aware Eviction)

核心思想:视觉 token 与文本 token 对 KV Cache 的贡献不同,需差异化对待。

分类二:注意力分数驱动的 Token 剪枝/稀疏化(Attention-Based Pruning)

核心思想:基于注意力权重识别”不重要”的视觉 token 并在 KV Cache 或计算中剔除。

分类三:层级自适应的 KV Cache 预算分配(Layer-Adaptive Budget)

核心思想:不同 Transformer 层的注意力模式不同,应分配不同大小的 KV Cache 预算。

分类四:跨帧/跨请求的 KV Cache 复用(Cross-Frame/Cross-Request Reuse)

核心思想:视频序列或重复图像请求中存在大量冗余,可直接复用已缓存的 KV。

分类五:KV Cache 量化(KV Quantization)

核心思想:降低 KV Cache 的存储精度(如 2-bit)来减小显存占用,同时保持模型精度。


各论文详解


分类一:模态感知的 KV Cache 压缩

1. VL-Cache

全称:VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration

属性详情
发表会议ICLR 2025
发表时间2024年10月(arXiv 2410.23317
引用数~60–100
GitHub暂无公开仓库
作者Dezhan Tu, Danylo Vashchilenko, Yuzhe Lu, Panpan Xu(Amazon)

痛点与难点

LLM 的 KV Cache 压缩方法直接应用于 VLM 效果很差:现有方法忽视了 VLM 中视觉 token 与文本 token 存在根本不同的注意力稀疏性模式,对两种模态一视同仁导致不必要的信息损失和不充分的压缩。

创新点

  • 首次系统研究 VLM 中视觉/文本 token 在不同层的注意力稀疏性差异
  • 提出模态感知的 token 重要性打分机制
  • 引入层级自适应的 KV Cache 预算分配策略

核心方法

  1. 稀疏性分析:实验发现视觉 token 的注意力比文本 token 更稀疏(即可以更激进地压缩),且这一模式在 prefill 和 decode 阶段表现不同
  2. 模态感知打分:对视觉 token 和文本 token 分别用不同标准评估其 KV 重要性
  3. 层级自适应预算:注意力已经高度集中的层(天然稀疏)分配更小的 KV Cache,注意力分散的层分配更大的预算

效果:保留 10% KV Cache 时性能与全缓存相当;解码速度 7.08x;端到端延迟降低 2.33x;GPU KV Cache 显存节省 90%。


2. AirCache

全称:AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference

属性详情
发表会议ICCV 2025
发表时间2025年3月(arXiv 2503.23956
引用数极少(近期论文)
GitHub暂无公开仓库
作者Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

痛点与难点

视觉 token 占据 LVLM KV Cache 的主体,带来大量显存和延迟开销。现有 eviction 方法使用静态或统一的重要性标准,无法捕捉视觉 token 相对于当前文本查询的动态相关性——不同的问题,不同的图像区域才是重要的。

创新点

  • 利用跨模态(文本→视觉)注意力相关性作为 KV eviction 的核心信号
  • 提出”精英观察窗口(Elite Observation Window)“:从文本侧选出最能代表查询意图的关键 token 作为稳定代理
  • 引入自适应逐层预算分配

核心方法

  1. 分析注意力图,找出对当前文本查询最相关的视觉 token
  2. 从文本 token 中选出”枢纽文本 token”(最稳定代表查询意图的子集)构建精英观察窗口
  3. 用这些枢纽 token 对视觉 KV Cache 条目打分,剔除低相关性的条目
  4. 根据各层 token 重要性分布的差异,为每层分配不同的压缩预算

效果:仅保留 10% 视觉 KV Cache 时性能与全缓存相当;解码延迟降低 29%–66%(随 batch size 和序列长度变化)。


3. MadaKV(“Attention-Aware Multi-Level Caching”)

全称:MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

属性详情
发表会议预印本
发表时间2025年6月(arXiv 2506.15724
引用数极少(近期论文)
GitHub暂无
作者Kunxi Li 等(浙大/阿里)

痛点与难点

现有 KV Cache eviction 方法为单模态 LLM 设计,未能捕捉注意力头之间的模态偏好差异——有些注意力头强烈偏向视觉 token,另一些偏向文本 token,统一策略造成错误的 token 被剔除。

创新点

  • 提出逐注意力头的模态偏好自适应(per-head modality preference adaptation)
  • 引入层级补偿机制:防止在压缩重的层上产生级联误差

核心方法

  1. 分析每个注意力头的模态偏好模式(视觉偏向 vs 文本偏向)
  2. 根据各头的模态偏好动态保留与其偏好模态一致的 token
  3. 在压缩较重的层添加补偿机制,避免误差累积

效果:解码延迟降低 1.3–1.5x,多模态长文本任务性能保持稳定。


分类二:注意力分数驱动的 Token 剪枝/稀疏化

4. FastV

全称:An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

属性详情
发表会议ECCV 2024 Oral(Top ~2% 投稿)
发表时间2024年3月(arXiv 2403.06764
引用数~400–600(2024年 VLM 效率方向引用最高论文之一)
GitHubpkunlp-icler/FastV
作者Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin 等(北京大学/通义团队)

痛点与难点

VLM 在所有层都处理大量图像 token,但实验发现第 2 层之后注意力对图像 token 的关注急剧下降——深层 Transformer 在大量注意力已经几乎不看图像 token 的情况下仍然计算其 KV,造成大量 FLOPs 浪费。

创新点

  • 发现并量化”低效注意力(Inefficient Attention)“现象:在第 2 层之后,模型对视觉 token 的注意力权重显著下降
  • 提出无需重训练的即插即用视觉 token 剪枝方案
  • 在推理时提供可控的剪枝率超参数 K

核心方法

  1. 在浅层(第 2 层)计算每个视觉 token 的注意力分数之和
  2. 按分数排序,剔除最低 K% 的视觉 token
  3. 后续所有层不再计算这些 token 的 KV,直接从计算图中移除

效果:LLaVA-1.5-13B 上理论 FLOPs 降低 45%,性能几乎无损;将 13B 模型压缩到低于 7B 的计算量同时保持更优精度。


5. SparseVLM

全称:SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

属性详情
发表会议ICML 2025
发表时间2024年10月(arXiv 2410.04417
引用数~50–100
GitHubGumpest/SparseVLMs
作者Yuan Zhang, Chun-Kai Fan 等(Panasonic + UC Berkeley + 北京大学)

痛点与难点

视觉 token 携带大量计算开销但信息稀疏。已有剪枝方法需要针对特定 VLM 进行训练/微调,无法即插即用,且剪掉的 token 信息完全丢失,可能造成不可逆损失。

创新点

  • 完全无需训练的视觉 token 稀疏化方法
  • 引入文本引导的重要性打分(text-guided saliency)
  • 提出Token 回收(Token Recycling):将被剪枝的 token 压缩后补回,而非直接丢弃

核心方法

  1. 文本引导打分:利用文本 token 与视觉 token 之间的交叉注意力矩阵,识别对当前问题最相关的视觉 token
  2. 基于排名的自适应稀疏率:按层动态决定稀疏化力度
  3. Token 回收:将被剪掉的 token 通过聚类平均合并成紧凑表示后重新加入序列,保留残差信息

效果:FLOPs 降低 54%;CUDA 延迟降低 37%;保留 97% 原始 LLaVA 精度;跨多个 VLM 架构无需重训练。


6. MixKV

全称:Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models

属性详情
发表会议ICLR 2026
发表时间2025年10月(arXiv 2510.20707
引用数极少(近期论文)
GitHubxuyang-liu16/MixKV
作者Xuyang Liu, Xiyan Gui, Yuchao Zhang, Linfeng Zhang

痛点与难点

现有 KV Cache 压缩方法只保留”重要”token(高注意力权重),却忽视语义冗余——多个重要 token 可能编码几乎相同的信息。在极端压缩率下,仅凭重要性选择会导致保留 token 高度重叠、覆盖范围不足。

创新点

  • 首次将重要性(Importance)与多样性(Diversity)联合优化用于 LVLM KV Cache 压缩
  • 量化注意力头内部的语义冗余程度
  • 提出每头自适应的混合系数动态平衡两个目标

核心方法

  1. 在 Key 空间用余弦相似度量化各头内 KV 对之间的语义冗余
  2. 识别高冗余头(需强调多样性)和低冗余头(需强调重要性)
  3. 高冗余头:优先选择语义差异大的 token,最大化信息覆盖
  4. 低冗余头:用传统注意力权重打分,优先保留重要 token
  5. 自适应每头混合系数,在两个目标之间动态平衡

效果:极端压缩(budget=64)下相比纯重要性方法平均提升 +5.1%(5个多模态基准);GUI grounding 任务上 SnapKV 和 AdaKV 分别提升 +8.0% 和 +9.0%。


分类三:层级自适应的 KV Cache 预算分配

7. PyramidKV

全称:PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling

属性详情
发表会议COLM 2025(Conference on Language Modeling)
发表时间2024年6月(arXiv 2406.02069
引用数~150–250
GitHubZefan-Cai/PyramidKV / KVCache-Factory
作者Zefan Cai, Yichi Zhang, Bofei Gao 等

痛点与难点

现有 KV Cache 压缩方法对所有层使用统一的预算分配,忽视了不同层的注意力模式差异:浅层注意力分散(需要更多 token),深层注意力高度集中(只需少数关键 token)。

创新点

  • 发现**金字塔信息漏斗(Pyramidal Information Funneling)**现象:注意力在浅层分散,逐层向关键 token 汇聚
  • 提出匹配这一规律的金字塔式 KV 预算:浅层多,深层少
  • 无需训练,可动态适配不同模型和任务

核心方法

  1. 分析各层注意力熵,刻画信息漏斗规律
  2. 设定逐层递减的 KV Cache 预算(底层大、顶层小,形如金字塔)
  3. 预算分配可根据模型和任务动态调整

效果:仅保留 12% KV Cache 时性能与全缓存相当;保留 0.7% 时仍优于其他方法最高 +20.5 绝对精度(TREC);LLaMA-3-70B 仅用 128 个 KV 条目即可在 Needle-in-a-Haystack 测试中达到 100% 准确率。


8. LightVLM

全称:LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression

属性详情
发表会议EMNLP 2025 Findings
发表时间2025年8月(arXiv 2509.00419
引用数极少(近期论文)
GitHub暂无公开仓库
作者Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan

痛点与难点

VLM 推理在 prefill(编码)和 decode(解码)两个阶段都存在瓶颈,但现有方法通常只优化其中一个。图像 token 数量多,贯穿始终地拖慢了整体推理速度。

创新点

  • 同时加速 prefill 和 decode 两个阶段(训练无关、即插即用)
  • 提出金字塔 Token 合并(Pyramid Token Merging):在 LLM 各层渐进式合并图像 token

核心方法

  1. Pyramid Token Merging(编码加速):在 LLM 不同层级,按金字塔结构逐层合并相似的图像 token,从底层到顶层 token 数量递减
  2. KV Cache 压缩(解码加速):在自回归解码阶段移除不重要的 KV 缓存条目,提高解码吞吐量

效果:保留 100% 性能时使用 35% 图像 token;仅 3% token 时性能保留 98%;prefill 加速 3.65x;长序列生成加速 3.21x;吞吐量提升 2.02x。


分类四:跨帧/跨请求的 KV Cache 复用

9. VLCache(2% 视觉 Token)

全称:VLCache: Computing 2% Vision Tokens and Reusing 98% for Vision-Language Inference

属性详情
发表会议预印本(已集成入 SGLang 推理引擎)
发表时间2025年12月(arXiv 2512.12977
引用数极少(近期论文)
GitHub集成于 SGLang
作者Shengling Qin, Hao Yu 等(阿里巴巴/通义 Qwen 团队,13位作者)

痛点与难点

多模态服务中相同图像被反复处理(多轮对话、重复请求),VLM 每次都重新运行 ViT 视觉编码器并重新计算 KV Cache,造成大量冗余计算和高 TTFT 延迟。朴素的启发式 KV 复用方法存在累积复用误差(Cumulative Reuse Error),导致精度下降。

创新点

  • 形式化定义并量化了 KV Cache 非前缀复用中的累积复用误差
  • 提出动态逐层感知的选择性重计算策略:只重计算误差积累严重的层
  • 集成入生产级推理引擎 SGLang,具有工程实用价值

核心方法

  1. 基于哈希的图像 embedding 缓存:跳过重复图像的 ViT 编码
  2. 累积误差分析:形式化识别哪些层积累了最多的复用误差
  3. 自适应选择性重计算:对误差显著的层重计算 KV,对误差可忽略的层直接复用缓存

效果:仅需计算 2–5% 的 token;TTFT 加速 1.2x–16x;精度与全量重计算相当。


10. VLA-Cache

全称:VLA-Cache: Towards Efficient Vision-Language-Action Model via Adaptive Token Caching in Robotic Manipulation

属性详情
发表会议NeurIPS 2025
发表时间2025年2月(arXiv 2502.02175
引用数~20–50
GitHubsiyuhsu/vla-cache
作者Siyu Xu, Yunke Wang, Chenghao Xia, Dihao Zhu, Tao Huang, Chang Xu

痛点与难点

机器人 VLA 模型(如 OpenVLA、π0)在每个控制时间步都对高频视频帧进行全量推理,而相邻帧之间存在大量视觉重叠,导致大量 KV 被冗余重计算,控制频率低、延迟高。

创新点

  • 专门针对机器人 VLA 推理场景的训练无关 Token 缓存方案
  • 引入帧差感知的 Token 选择机制:只重计算真正发生变化的视觉区域
  • 层级自适应复用策略:根据各层注意力集中程度决定复用激进度

核心方法

  1. 每个控制步对比当前帧与前一帧的视觉 token 特征相似度,识别变化区域
  2. 对变化小的 token 直接复用上一步的 KV Cache,仅对变化大的 token 重新计算
  3. 层级自适应:注意力高度集中的层(对视觉细节敏感)少复用;注意力分散的层多复用

效果:CUDA 延迟降低最高 1.7x;控制频率提升 15%;在 LIBERO、SIMPLER 及真实机器人上任务成功率几乎无损。


11. SimCache

全称:SimCache: Similarity Caching for Efficient VLM-based Scene Understanding

属性详情
发表会议CVPR 2025 Workshop(eLVM: Efficient Large Vision Models)
发表时间2025年
引用数极少(Workshop 论文)
GitHub暂无公开仓库
作者Surya Selvam, Ravi K. Rajendran 等(NEC Labs America & Purdue University)

痛点与难点

面向实时视频场景理解(如动作识别)的 VLM 推理代价高昂。相邻帧之间(时序局部性)以及不同区域之间(语义局部性,视觉外观不同但含义相同)存在大量冗余,朴素方法无法利用这两种冗余。

创新点

  • 同时利用时序局部性语义局部性两种冗余进行多层级缓存
  • 设计了专用的缓存搜索和精化策略用于解决模糊匹配
  • 适用于视频流场景的实时 VLM 推理加速

核心方法

  1. 将视觉区域的 embedding 表示及检测到的活动标签存入多层级缓存
  2. 通过视觉相似度(embedding 距离)在缓存中查询匹配结果
  3. 精化策略解决模糊匹配,确保精度
  4. 不同缓存层级分别处理时序冗余和语义冗余

效果:吞吐量最高提升 9.4x;VLM 计算量最高降低 24.4x;动作识别精度损失极小。


分类五:KV Cache 量化

12. AKVQ-VL

全称:AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models

属性详情
发表会议预印本
发表时间2025年1月(arXiv 2501.15021
引用数~10–30
GitHub暂无公开仓库
作者Zunhai Su, Wang Shen, Linge Li, Zhe Chen, Hanyu Wei, Huangqi Yu, Kehong Yuan

痛点与难点

为纯 LLM 设计的 KV Cache 量化方法应用于 VLM 时效果欠佳:忽视了 VLM 中模态特定的注意力显著性差异,并且在 2-bit 极低精度量化时,outlier 值会严重破坏精度。

创新点

  • 首次系统利用 VLM 特有的注意力显著性模式(而非单纯 token 重要性)指导自适应比特分配
  • 引入 **Walsh-Hadamard 变换(WHT)**消除 outlier,实现干净的 2-bit 量化
  • 区分两种关键注意力模式:文本显著注意力(TSA)枢纽 Token 显著注意力(PSA)

核心方法

  1. 识别两种 VLM 特有的注意力头模式:
    • TSA(Text-Salient Attention):高度关注文本 token 的注意力头
    • PSA(Pivot-Token-Salient Attention):聚焦于少量关键枢纽 token 的注意力头
  2. 对 TSA/PSA 显著性高的头分配更多比特(保真度要求高),对视觉均匀的头分配更少比特
  3. 应用 Walsh-Hadamard 变换旋转 KV 向量,消除 outlier,使 2-bit 量化成为可能

效果:峰值显存降低 2.13x;batch size 可扩大 3.25x;吞吐量提升 2.46x;在 12 个长文本和多模态任务上优于面向 LLM 的量化基线。


方法对比总览

论文类别会议年份核心技术效果亮点GitHub
VL-Cache模态感知 EvictionICLR 20252024模态感知打分 + 层级自适应预算10% KV 媲美全缓存,延迟↓2.33x
AirCache模态感知 EvictionICCV 20252025跨模态相关性 + 精英观察窗口10% KV 媲美全缓存,延迟↓29-66%
MadaKV模态感知 Eviction预印本2025逐头模态偏好自适应 + 层级补偿延迟↓1.3-1.5x
FastV注意力剪枝ECCV 2024 Oral2024浅层注意力排序后剪枝FLOPs↓45%,400+ 引用链接
SparseVLM注意力剪枝ICML 20252024文本引导打分 + Token 回收FLOPs↓54%,延迟↓37%链接
MixKV注意力剪枝ICLR 20262025重要性×多样性联合优化极端压缩下+5.1% avg链接
PyramidKV层级自适应COLM 20252024金字塔信息漏斗预算分配12% KV 媲美全缓存,150+ 引用链接
LightVLM层级自适应EMNLP 20252025金字塔 Token 合并 + KV 压缩prefill↑3.65x,吞吐↑2.02x
VLCache跨请求复用预印本/SGLang2025累积误差量化 + 选择性重计算TTFT↑1.2x-16xvia SGLang
VLA-Cache跨帧复用NeurIPS 20252025帧差感知 + 层级自适应复用延迟↓1.7x,控制频率↑15%链接
SimCache跨帧复用CVPR 2025W2025时序+语义双局部性缓存吞吐↑9.4x,计算↓24.4x
AKVQ-VLKV 量化预印本2025TSA/PSA 感知自适应 2-bit + WHT显存↓2.13x,吞吐↑2.46x

研究趋势与未来方向

当前趋势

  1. 模态感知已成标配:VL-Cache、AirCache、MadaKV 均证明,针对视觉/文本 token 差异化处理是 VLM KV Cache 压缩的必经之路,纯 LLM 方法直接迁移效果有限。

  2. 层级自适应分配取代均匀压缩:PyramidKV、VL-Cache、LightVLM 均发现各层注意力模式差异显著,逐层差异化预算优于全局统一预算。

  3. 跨帧/跨请求复用成新兴方向:随着 VLM 向视频、机器人、持续服务等场景延伸,时序冗余的利用(VLA-Cache、SimCache、VLCache)成为重要加速来源。

  4. 多目标联合优化取代单一标准:MixKV 开创了重要性+多样性联合优化,预示着未来 KV Cache 选择将从单一注意力权重排名演进为多维度联合决策。

未来可探索方向

  • 动态压缩率自适应:根据输入内容复杂度(而非固定超参数)自动决定每张图像/每帧需要保留多少 KV
  • 训练感知的 KV 压缩:现有多数方法为训练无关(training-free),但联合训练可能解锁更好的压缩-精度权衡
  • 硬件感知的 KV Cache 优化:结合 FlashAttention、paged attention 等内核,在真实 GPU 上而非仅在 FLOPs 层面实现端到端加速
  • 多模态长文本与检索增强:随着 VLM 上下文窗口不断增长(到 128K+),KV Cache 管理难度指数级增加,需要更精细的跨轮次、跨文档压缩策略
  • 安全性与鲁棒性:视觉 token 压缩可能暴露新的脆弱点——小扰动可能改变 token 排名,导致关键视觉信息被错误丢弃