VLM KV Cache 压缩方法综述
背景
大型视觉语言模型(VLM)在推理阶段面临严重的效率瓶颈:视觉 token 数量远多于文本 token,高分辨率图像经 ViT 编码后可产生数百乃至数千个视觉 token,这些 token 的 KV Cache 在自回归解码阶段持续占用显存,导致:
- 显存压力:KV Cache 随序列长度二次增长,多模态输入使问题更严峻
- TTFT 延迟高:prefill 阶段需处理大量视觉 token
- 解码吞吐低:解码时 KV Cache 访问是主要瓶颈(memory-bound)
与纯 LLM KV Cache 压缩的核心区别
VLM 的 KV Cache 不能直接套用 LLM 的方法,因为:
- 视觉 token 与文本 token 的注意力稀疏性模式截然不同
- 视觉 token 存在大量空间冗余(相邻图像块往往相似)
- 跨模态(文本查询 → 视觉 token)的相关性是重要的压缩信号
- 视频/机器人场景中相邻帧之间存在时序冗余
方法分类
分类一:模态感知的 KV Cache 压缩(Modality-Aware Eviction)
核心思想:视觉 token 与文本 token 对 KV Cache 的贡献不同,需差异化对待。
分类二:注意力分数驱动的 Token 剪枝/稀疏化(Attention-Based Pruning)
核心思想:基于注意力权重识别”不重要”的视觉 token 并在 KV Cache 或计算中剔除。
分类三:层级自适应的 KV Cache 预算分配(Layer-Adaptive Budget)
核心思想:不同 Transformer 层的注意力模式不同,应分配不同大小的 KV Cache 预算。
分类四:跨帧/跨请求的 KV Cache 复用(Cross-Frame/Cross-Request Reuse)
核心思想:视频序列或重复图像请求中存在大量冗余,可直接复用已缓存的 KV。
分类五:KV Cache 量化(KV Quantization)
核心思想:降低 KV Cache 的存储精度(如 2-bit)来减小显存占用,同时保持模型精度。
各论文详解
分类一:模态感知的 KV Cache 压缩
1. VL-Cache
全称:VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration
| 属性 | 详情 |
|---|---|
| 发表会议 | ICLR 2025 |
| 发表时间 | 2024年10月(arXiv 2410.23317) |
| 引用数 | ~60–100 |
| GitHub | 暂无公开仓库 |
| 作者 | Dezhan Tu, Danylo Vashchilenko, Yuzhe Lu, Panpan Xu(Amazon) |
痛点与难点
LLM 的 KV Cache 压缩方法直接应用于 VLM 效果很差:现有方法忽视了 VLM 中视觉 token 与文本 token 存在根本不同的注意力稀疏性模式,对两种模态一视同仁导致不必要的信息损失和不充分的压缩。
创新点
- 首次系统研究 VLM 中视觉/文本 token 在不同层的注意力稀疏性差异
- 提出模态感知的 token 重要性打分机制
- 引入层级自适应的 KV Cache 预算分配策略
核心方法
- 稀疏性分析:实验发现视觉 token 的注意力比文本 token 更稀疏(即可以更激进地压缩),且这一模式在 prefill 和 decode 阶段表现不同
- 模态感知打分:对视觉 token 和文本 token 分别用不同标准评估其 KV 重要性
- 层级自适应预算:注意力已经高度集中的层(天然稀疏)分配更小的 KV Cache,注意力分散的层分配更大的预算
效果:保留 10% KV Cache 时性能与全缓存相当;解码速度 7.08x;端到端延迟降低 2.33x;GPU KV Cache 显存节省 90%。
2. AirCache
全称:AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
| 属性 | 详情 |
|---|---|
| 发表会议 | ICCV 2025 |
| 发表时间 | 2025年3月(arXiv 2503.23956) |
| 引用数 | 极少(近期论文) |
| GitHub | 暂无公开仓库 |
| 作者 | Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang |
痛点与难点
视觉 token 占据 LVLM KV Cache 的主体,带来大量显存和延迟开销。现有 eviction 方法使用静态或统一的重要性标准,无法捕捉视觉 token 相对于当前文本查询的动态相关性——不同的问题,不同的图像区域才是重要的。
创新点
- 利用跨模态(文本→视觉)注意力相关性作为 KV eviction 的核心信号
- 提出”精英观察窗口(Elite Observation Window)“:从文本侧选出最能代表查询意图的关键 token 作为稳定代理
- 引入自适应逐层预算分配
核心方法
- 分析注意力图,找出对当前文本查询最相关的视觉 token
- 从文本 token 中选出”枢纽文本 token”(最稳定代表查询意图的子集)构建精英观察窗口
- 用这些枢纽 token 对视觉 KV Cache 条目打分,剔除低相关性的条目
- 根据各层 token 重要性分布的差异,为每层分配不同的压缩预算
效果:仅保留 10% 视觉 KV Cache 时性能与全缓存相当;解码延迟降低 29%–66%(随 batch size 和序列长度变化)。
3. MadaKV(“Attention-Aware Multi-Level Caching”)
全称:MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference
| 属性 | 详情 |
|---|---|
| 发表会议 | 预印本 |
| 发表时间 | 2025年6月(arXiv 2506.15724) |
| 引用数 | 极少(近期论文) |
| GitHub | 暂无 |
| 作者 | Kunxi Li 等(浙大/阿里) |
痛点与难点
现有 KV Cache eviction 方法为单模态 LLM 设计,未能捕捉注意力头之间的模态偏好差异——有些注意力头强烈偏向视觉 token,另一些偏向文本 token,统一策略造成错误的 token 被剔除。
创新点
- 提出逐注意力头的模态偏好自适应(per-head modality preference adaptation)
- 引入层级补偿机制:防止在压缩重的层上产生级联误差
核心方法
- 分析每个注意力头的模态偏好模式(视觉偏向 vs 文本偏向)
- 根据各头的模态偏好动态保留与其偏好模态一致的 token
- 在压缩较重的层添加补偿机制,避免误差累积
效果:解码延迟降低 1.3–1.5x,多模态长文本任务性能保持稳定。
分类二:注意力分数驱动的 Token 剪枝/稀疏化
4. FastV
全称:An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
| 属性 | 详情 |
|---|---|
| 发表会议 | ECCV 2024 Oral(Top ~2% 投稿) |
| 发表时间 | 2024年3月(arXiv 2403.06764) |
| 引用数 | ~400–600(2024年 VLM 效率方向引用最高论文之一) |
| GitHub | pkunlp-icler/FastV |
| 作者 | Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin 等(北京大学/通义团队) |
痛点与难点
VLM 在所有层都处理大量图像 token,但实验发现第 2 层之后注意力对图像 token 的关注急剧下降——深层 Transformer 在大量注意力已经几乎不看图像 token 的情况下仍然计算其 KV,造成大量 FLOPs 浪费。
创新点
- 发现并量化”低效注意力(Inefficient Attention)“现象:在第 2 层之后,模型对视觉 token 的注意力权重显著下降
- 提出无需重训练的即插即用视觉 token 剪枝方案
- 在推理时提供可控的剪枝率超参数 K
核心方法
- 在浅层(第 2 层)计算每个视觉 token 的注意力分数之和
- 按分数排序,剔除最低 K% 的视觉 token
- 后续所有层不再计算这些 token 的 KV,直接从计算图中移除
效果:LLaVA-1.5-13B 上理论 FLOPs 降低 45%,性能几乎无损;将 13B 模型压缩到低于 7B 的计算量同时保持更优精度。
5. SparseVLM
全称:SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
| 属性 | 详情 |
|---|---|
| 发表会议 | ICML 2025 |
| 发表时间 | 2024年10月(arXiv 2410.04417) |
| 引用数 | ~50–100 |
| GitHub | Gumpest/SparseVLMs |
| 作者 | Yuan Zhang, Chun-Kai Fan 等(Panasonic + UC Berkeley + 北京大学) |
痛点与难点
视觉 token 携带大量计算开销但信息稀疏。已有剪枝方法需要针对特定 VLM 进行训练/微调,无法即插即用,且剪掉的 token 信息完全丢失,可能造成不可逆损失。
创新点
- 完全无需训练的视觉 token 稀疏化方法
- 引入文本引导的重要性打分(text-guided saliency)
- 提出Token 回收(Token Recycling):将被剪枝的 token 压缩后补回,而非直接丢弃
核心方法
- 文本引导打分:利用文本 token 与视觉 token 之间的交叉注意力矩阵,识别对当前问题最相关的视觉 token
- 基于排名的自适应稀疏率:按层动态决定稀疏化力度
- Token 回收:将被剪掉的 token 通过聚类平均合并成紧凑表示后重新加入序列,保留残差信息
效果:FLOPs 降低 54%;CUDA 延迟降低 37%;保留 97% 原始 LLaVA 精度;跨多个 VLM 架构无需重训练。
6. MixKV
全称:Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models
| 属性 | 详情 |
|---|---|
| 发表会议 | ICLR 2026 |
| 发表时间 | 2025年10月(arXiv 2510.20707) |
| 引用数 | 极少(近期论文) |
| GitHub | xuyang-liu16/MixKV |
| 作者 | Xuyang Liu, Xiyan Gui, Yuchao Zhang, Linfeng Zhang |
痛点与难点
现有 KV Cache 压缩方法只保留”重要”token(高注意力权重),却忽视语义冗余——多个重要 token 可能编码几乎相同的信息。在极端压缩率下,仅凭重要性选择会导致保留 token 高度重叠、覆盖范围不足。
创新点
- 首次将重要性(Importance)与多样性(Diversity)联合优化用于 LVLM KV Cache 压缩
- 量化注意力头内部的语义冗余程度
- 提出每头自适应的混合系数动态平衡两个目标
核心方法
- 在 Key 空间用余弦相似度量化各头内 KV 对之间的语义冗余
- 识别高冗余头(需强调多样性)和低冗余头(需强调重要性)
- 高冗余头:优先选择语义差异大的 token,最大化信息覆盖
- 低冗余头:用传统注意力权重打分,优先保留重要 token
- 自适应每头混合系数,在两个目标之间动态平衡
效果:极端压缩(budget=64)下相比纯重要性方法平均提升 +5.1%(5个多模态基准);GUI grounding 任务上 SnapKV 和 AdaKV 分别提升 +8.0% 和 +9.0%。
分类三:层级自适应的 KV Cache 预算分配
7. PyramidKV
全称:PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling
| 属性 | 详情 |
|---|---|
| 发表会议 | COLM 2025(Conference on Language Modeling) |
| 发表时间 | 2024年6月(arXiv 2406.02069) |
| 引用数 | ~150–250 |
| GitHub | Zefan-Cai/PyramidKV / KVCache-Factory |
| 作者 | Zefan Cai, Yichi Zhang, Bofei Gao 等 |
痛点与难点
现有 KV Cache 压缩方法对所有层使用统一的预算分配,忽视了不同层的注意力模式差异:浅层注意力分散(需要更多 token),深层注意力高度集中(只需少数关键 token)。
创新点
- 发现**金字塔信息漏斗(Pyramidal Information Funneling)**现象:注意力在浅层分散,逐层向关键 token 汇聚
- 提出匹配这一规律的金字塔式 KV 预算:浅层多,深层少
- 无需训练,可动态适配不同模型和任务
核心方法
- 分析各层注意力熵,刻画信息漏斗规律
- 设定逐层递减的 KV Cache 预算(底层大、顶层小,形如金字塔)
- 预算分配可根据模型和任务动态调整
效果:仅保留 12% KV Cache 时性能与全缓存相当;保留 0.7% 时仍优于其他方法最高 +20.5 绝对精度(TREC);LLaMA-3-70B 仅用 128 个 KV 条目即可在 Needle-in-a-Haystack 测试中达到 100% 准确率。
8. LightVLM
全称:LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
| 属性 | 详情 |
|---|---|
| 发表会议 | EMNLP 2025 Findings |
| 发表时间 | 2025年8月(arXiv 2509.00419) |
| 引用数 | 极少(近期论文) |
| GitHub | 暂无公开仓库 |
| 作者 | Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan |
痛点与难点
VLM 推理在 prefill(编码)和 decode(解码)两个阶段都存在瓶颈,但现有方法通常只优化其中一个。图像 token 数量多,贯穿始终地拖慢了整体推理速度。
创新点
- 同时加速 prefill 和 decode 两个阶段(训练无关、即插即用)
- 提出金字塔 Token 合并(Pyramid Token Merging):在 LLM 各层渐进式合并图像 token
核心方法
- Pyramid Token Merging(编码加速):在 LLM 不同层级,按金字塔结构逐层合并相似的图像 token,从底层到顶层 token 数量递减
- KV Cache 压缩(解码加速):在自回归解码阶段移除不重要的 KV 缓存条目,提高解码吞吐量
效果:保留 100% 性能时使用 35% 图像 token;仅 3% token 时性能保留 98%;prefill 加速 3.65x;长序列生成加速 3.21x;吞吐量提升 2.02x。
分类四:跨帧/跨请求的 KV Cache 复用
9. VLCache(2% 视觉 Token)
全称:VLCache: Computing 2% Vision Tokens and Reusing 98% for Vision-Language Inference
| 属性 | 详情 |
|---|---|
| 发表会议 | 预印本(已集成入 SGLang 推理引擎) |
| 发表时间 | 2025年12月(arXiv 2512.12977) |
| 引用数 | 极少(近期论文) |
| GitHub | 集成于 SGLang |
| 作者 | Shengling Qin, Hao Yu 等(阿里巴巴/通义 Qwen 团队,13位作者) |
痛点与难点
多模态服务中相同图像被反复处理(多轮对话、重复请求),VLM 每次都重新运行 ViT 视觉编码器并重新计算 KV Cache,造成大量冗余计算和高 TTFT 延迟。朴素的启发式 KV 复用方法存在累积复用误差(Cumulative Reuse Error),导致精度下降。
创新点
- 形式化定义并量化了 KV Cache 非前缀复用中的累积复用误差
- 提出动态逐层感知的选择性重计算策略:只重计算误差积累严重的层
- 集成入生产级推理引擎 SGLang,具有工程实用价值
核心方法
- 基于哈希的图像 embedding 缓存:跳过重复图像的 ViT 编码
- 累积误差分析:形式化识别哪些层积累了最多的复用误差
- 自适应选择性重计算:对误差显著的层重计算 KV,对误差可忽略的层直接复用缓存
效果:仅需计算 2–5% 的 token;TTFT 加速 1.2x–16x;精度与全量重计算相当。
10. VLA-Cache
全称:VLA-Cache: Towards Efficient Vision-Language-Action Model via Adaptive Token Caching in Robotic Manipulation
| 属性 | 详情 |
|---|---|
| 发表会议 | NeurIPS 2025 |
| 发表时间 | 2025年2月(arXiv 2502.02175) |
| 引用数 | ~20–50 |
| GitHub | siyuhsu/vla-cache |
| 作者 | Siyu Xu, Yunke Wang, Chenghao Xia, Dihao Zhu, Tao Huang, Chang Xu |
痛点与难点
机器人 VLA 模型(如 OpenVLA、π0)在每个控制时间步都对高频视频帧进行全量推理,而相邻帧之间存在大量视觉重叠,导致大量 KV 被冗余重计算,控制频率低、延迟高。
创新点
- 专门针对机器人 VLA 推理场景的训练无关 Token 缓存方案
- 引入帧差感知的 Token 选择机制:只重计算真正发生变化的视觉区域
- 层级自适应复用策略:根据各层注意力集中程度决定复用激进度
核心方法
- 每个控制步对比当前帧与前一帧的视觉 token 特征相似度,识别变化区域
- 对变化小的 token 直接复用上一步的 KV Cache,仅对变化大的 token 重新计算
- 层级自适应:注意力高度集中的层(对视觉细节敏感)少复用;注意力分散的层多复用
效果:CUDA 延迟降低最高 1.7x;控制频率提升 15%;在 LIBERO、SIMPLER 及真实机器人上任务成功率几乎无损。
11. SimCache
全称:SimCache: Similarity Caching for Efficient VLM-based Scene Understanding
| 属性 | 详情 |
|---|---|
| 发表会议 | CVPR 2025 Workshop(eLVM: Efficient Large Vision Models) |
| 发表时间 | 2025年 |
| 引用数 | 极少(Workshop 论文) |
| GitHub | 暂无公开仓库 |
| 作者 | Surya Selvam, Ravi K. Rajendran 等(NEC Labs America & Purdue University) |
痛点与难点
面向实时视频场景理解(如动作识别)的 VLM 推理代价高昂。相邻帧之间(时序局部性)以及不同区域之间(语义局部性,视觉外观不同但含义相同)存在大量冗余,朴素方法无法利用这两种冗余。
创新点
- 同时利用时序局部性和语义局部性两种冗余进行多层级缓存
- 设计了专用的缓存搜索和精化策略用于解决模糊匹配
- 适用于视频流场景的实时 VLM 推理加速
核心方法
- 将视觉区域的 embedding 表示及检测到的活动标签存入多层级缓存
- 通过视觉相似度(embedding 距离)在缓存中查询匹配结果
- 精化策略解决模糊匹配,确保精度
- 不同缓存层级分别处理时序冗余和语义冗余
效果:吞吐量最高提升 9.4x;VLM 计算量最高降低 24.4x;动作识别精度损失极小。
分类五:KV Cache 量化
12. AKVQ-VL
全称:AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models
| 属性 | 详情 |
|---|---|
| 发表会议 | 预印本 |
| 发表时间 | 2025年1月(arXiv 2501.15021) |
| 引用数 | ~10–30 |
| GitHub | 暂无公开仓库 |
| 作者 | Zunhai Su, Wang Shen, Linge Li, Zhe Chen, Hanyu Wei, Huangqi Yu, Kehong Yuan |
痛点与难点
为纯 LLM 设计的 KV Cache 量化方法应用于 VLM 时效果欠佳:忽视了 VLM 中模态特定的注意力显著性差异,并且在 2-bit 极低精度量化时,outlier 值会严重破坏精度。
创新点
- 首次系统利用 VLM 特有的注意力显著性模式(而非单纯 token 重要性)指导自适应比特分配
- 引入 **Walsh-Hadamard 变换(WHT)**消除 outlier,实现干净的 2-bit 量化
- 区分两种关键注意力模式:文本显著注意力(TSA) 和 枢纽 Token 显著注意力(PSA)
核心方法
- 识别两种 VLM 特有的注意力头模式:
- TSA(Text-Salient Attention):高度关注文本 token 的注意力头
- PSA(Pivot-Token-Salient Attention):聚焦于少量关键枢纽 token 的注意力头
- 对 TSA/PSA 显著性高的头分配更多比特(保真度要求高),对视觉均匀的头分配更少比特
- 应用 Walsh-Hadamard 变换旋转 KV 向量,消除 outlier,使 2-bit 量化成为可能
效果:峰值显存降低 2.13x;batch size 可扩大 3.25x;吞吐量提升 2.46x;在 12 个长文本和多模态任务上优于面向 LLM 的量化基线。
方法对比总览
| 论文 | 类别 | 会议 | 年份 | 核心技术 | 效果亮点 | GitHub |
|---|---|---|---|---|---|---|
| VL-Cache | 模态感知 Eviction | ICLR 2025 | 2024 | 模态感知打分 + 层级自适应预算 | 10% KV 媲美全缓存,延迟↓2.33x | — |
| AirCache | 模态感知 Eviction | ICCV 2025 | 2025 | 跨模态相关性 + 精英观察窗口 | 10% KV 媲美全缓存,延迟↓29-66% | — |
| MadaKV | 模态感知 Eviction | 预印本 | 2025 | 逐头模态偏好自适应 + 层级补偿 | 延迟↓1.3-1.5x | — |
| FastV | 注意力剪枝 | ECCV 2024 Oral | 2024 | 浅层注意力排序后剪枝 | FLOPs↓45%,400+ 引用 | 链接 |
| SparseVLM | 注意力剪枝 | ICML 2025 | 2024 | 文本引导打分 + Token 回收 | FLOPs↓54%,延迟↓37% | 链接 |
| MixKV | 注意力剪枝 | ICLR 2026 | 2025 | 重要性×多样性联合优化 | 极端压缩下+5.1% avg | 链接 |
| PyramidKV | 层级自适应 | COLM 2025 | 2024 | 金字塔信息漏斗预算分配 | 12% KV 媲美全缓存,150+ 引用 | 链接 |
| LightVLM | 层级自适应 | EMNLP 2025 | 2025 | 金字塔 Token 合并 + KV 压缩 | prefill↑3.65x,吞吐↑2.02x | — |
| VLCache | 跨请求复用 | 预印本/SGLang | 2025 | 累积误差量化 + 选择性重计算 | TTFT↑1.2x-16x | via SGLang |
| VLA-Cache | 跨帧复用 | NeurIPS 2025 | 2025 | 帧差感知 + 层级自适应复用 | 延迟↓1.7x,控制频率↑15% | 链接 |
| SimCache | 跨帧复用 | CVPR 2025W | 2025 | 时序+语义双局部性缓存 | 吞吐↑9.4x,计算↓24.4x | — |
| AKVQ-VL | KV 量化 | 预印本 | 2025 | TSA/PSA 感知自适应 2-bit + WHT | 显存↓2.13x,吞吐↑2.46x | — |
研究趋势与未来方向
当前趋势
-
模态感知已成标配:VL-Cache、AirCache、MadaKV 均证明,针对视觉/文本 token 差异化处理是 VLM KV Cache 压缩的必经之路,纯 LLM 方法直接迁移效果有限。
-
层级自适应分配取代均匀压缩:PyramidKV、VL-Cache、LightVLM 均发现各层注意力模式差异显著,逐层差异化预算优于全局统一预算。
-
跨帧/跨请求复用成新兴方向:随着 VLM 向视频、机器人、持续服务等场景延伸,时序冗余的利用(VLA-Cache、SimCache、VLCache)成为重要加速来源。
-
多目标联合优化取代单一标准:MixKV 开创了重要性+多样性联合优化,预示着未来 KV Cache 选择将从单一注意力权重排名演进为多维度联合决策。
未来可探索方向
- 动态压缩率自适应:根据输入内容复杂度(而非固定超参数)自动决定每张图像/每帧需要保留多少 KV
- 训练感知的 KV 压缩:现有多数方法为训练无关(training-free),但联合训练可能解锁更好的压缩-精度权衡
- 硬件感知的 KV Cache 优化:结合 FlashAttention、paged attention 等内核,在真实 GPU 上而非仅在 FLOPs 层面实现端到端加速
- 多模态长文本与检索增强:随着 VLM 上下文窗口不断增长(到 128K+),KV Cache 管理难度指数级增加,需要更精细的跨轮次、跨文档压缩策略
- 安全性与鲁棒性:视觉 token 压缩可能暴露新的脆弱点——小扰动可能改变 token 排名,导致关键视觉信息被错误丢弃