多模态大模型视觉Token剪枝:文本无关 vs. 文本相关方法全景综述
视觉Token剪枝已成为多模态大语言模型(MLLM)推理加速的核心技术路线。 本报告系统梳理了从ViT时代到MLLM时代共30余篇顶会论文,其中文本无关型方法(仅基于图像信息做剪枝,不依赖用户文本query)约占总数的40%,主要在视觉编码器端完成压缩;文本相关型方法(利用文本query引导剪枝)则多在LLM解码器内部操作。两类方法各有优劣:文本无关型支持预计算缓存和多轮对话,而文本相关型在极端压缩比下能更好保留与问题相关的视觉信息。2024-2025年间,CVPR、NeurIPS、ICML、ICLR、EMNLP等顶会密集涌现了大量该方向的工作,标志着这一领域的快速成熟。
一、ViT时代的经典Token剪枝方法(2021–2023,均为文本无关型)
这些先驱工作奠定了视觉Token剪枝的技术基础。它们面向纯视觉任务(如ImageNet分类),完全不涉及文本信息,全部为文本无关型。
DynamicViT:学习型Token稀疏化的开创者
DynamicViT(Rao et al., NeurIPS 2021)是该方向的奠基之作,引用量约905次。其核心思想是在ViT中插入轻量级MLP预测模块,通过Gumbel-Softmax松弛实现可微分的二元剪枝决策。剪枝分三阶段进行,逐层递进地将Token保留率从70%降至49%再降至34%。训练需要知识蒸馏(30个epoch微调),最终在DeiT-S上实现剪除66%的Token,精度仅下降0.5%以内,FLOPs降低31–37%,吞吐量提升超40%。开源地址:https://github.com/raoyongming/DynamicViT
EViT:基于CLS注意力的简约设计
EViT(Not All Patches are What You Need, Liang et al., ICLR 2022 Spotlight)利用ViT中CLS Token对各图像Token的注意力分数作为重要性指标,保留top-k”注意型”Token,将低注意力Token融合为一个聚合Token(而非直接丢弃)。该方法不引入额外参数,在DeiT-S上以保留率0.7实现约50%推理加速,精度仅下降0.3%。引用量约500+次。开源地址:https://github.com/youweiliang/evit
ToMe:无需训练的Token合并范式
ToMe(Token Merging, Bolya et al., ICLR 2023 Oral)提出了划时代的”合并”而非”剪枝”思路。在每个Transformer块中,基于Key空间的余弦相似度进行二部图软匹配,将最相似的r个Token对合并(加权平均)。核心优势是完全无需训练,可即插即用。引入”比例注意力”(proportional attention)保持合并后的注意力一致性。在ViT-L上实现2倍吞吐量提升,精度仅下降0.2–0.3%。后被广泛扩展至Stable Diffusion、视频模型等场景。引用量约540次。开源地址:https://github.com/facebookresearch/ToMe
A-ViT与SPViT:自适应与边缘部署
A-ViT(NVIDIA, CVPR 2022)将Adaptive Computation Time(ACT)引入ViT,每个Token独立计算停止概率,达到阈值即退出后续层计算,无需额外参数。SPViT(ECCV 2022)则专注边缘设备部署,设计了延迟感知的多头注意力Token选择器,首次在手机上实现ViT实时推理(<33ms)。两者引用量分别约200+和100+次。
二、MLLM时代的文本无关型方法
以下方法在视觉编码器端或LLM输入之前完成Token压缩,剪枝决策完全不依赖用户文本query,同一张图像无论配什么问题都产生相同的压缩结果。
LLaVA-PruMerge:CLS注意力驱动的先剪后合
LLaVA-PruMerge(Shang et al., ICCV 2025, arXiv 2024.3)是MLLM时代最早的文本无关Token压缩工作之一,引用量约151次。方法在CLIP视觉编码器内部操作:利用CLS Token对空间Token的注意力分数,通过IQR(四分位距)离群点检测自适应选择重要Token(Prune阶段),再将被剪除的Token按Key相似度聚类后合并到保留Token上(Merge阶段)。PruMerge+变体额外加入空间均匀采样。PruMerge仅保留约5.5%的视觉Token(18倍压缩),性能与LLaVA-1.5基本持平;PruMerge+保留25%Token,性能更优。 可无需训练使用,也可配合LoRA微调提升效果。开源地址:https://github.com/42Shawn/LLaVA-PruMerge
VisionZip:文本无关方法的标杆
VisionZip(Yang et al., CVPR 2025)是当前最具影响力的文本无关方法之一。分两步操作:(1)主导Token选择:用视觉编码器中CLS Token的注意力分数(对SigLIP编码器则用Token间平均注意力)识别高注意力Token;(2)上下文Token合并:将未选中的Token按相似度合并到已选Token上。仅保留10%视觉Token即可维持约95%的性能,实现8倍prefill加速。作者明确将其定位为text-agnostic方法,强调这一特性使其天然兼容多轮对话和预缓存场景。在LLaVA-1.5、LLaVA-NeXT、InternVL2等多个模型上验证有效。开源地址:https://github.com/dvlab-research/VisionZip(406+ Stars)
DART:从”重要性”到”重复性”的范式转换
DART(Wen et al., EMNLP 2025 Main)提出了一个颠覆性观点:不应该寻找”重要”的Token,而应该去除”重复”的Token。方法极其简洁——随机或按范数选取约2%的Token作为”锚点”(pivot),然后保留与所有锚点余弦相似度低(即信息不重复)的Token。该方法完全不需要注意力分数或文本信息,兼容FlashAttention。在88.9%的Token剪除率下保持可比性能,总推理加速1.99倍,prefill加速2.99倍,甚至能减少幻觉现象。在LLaVA-1.5-7B/13B、Qwen2-VL-72B上均验证有效。开源地址:https://github.com/ZichenWen1/DART
DivPrune:最大化Token多样性
DivPrune(Ranjbar Alvar et al., CVPR 2025, Huawei Canada)将Token选择形式化为最大-最小多样性问题(MMDP),目标是选出的Token子集应最大化两两之间的最小距离。在视觉Token嵌入空间中求解MMDP,选出最多样化的Token子集。无需训练或标定数据。在16个图像和视频语言数据集上取得SOTA精度,在极端压缩(约15% TFLOP)下仅5.1% GQA精度下降(FastV下降42.8%)。开源地址:https://github.com/vbdi/divprune
SCOPE:联合建模显著性与覆盖度
SCOPE(Deng et al., NeurIPS 2025)指出现有方法仅基于显著性(saliency)选择Token会导致语义不完整——注意力分布偏斜使得尾部Token难以区分。SCOPE创新地联合建模显著性和覆盖度(coverage),定义Token覆盖增益(加入新Token带来的额外覆盖面积),将两者融合为SCOPE分数后贪心迭代选择。在LLaVA-1.5和LLaVA-Next上持续优于VisionZip和DivPrune。开源地址:https://github.com/kinredon/SCOPE
VoCo-LLaMA:学习型视觉压缩Token
VoCo-LLaMA(Ye et al., CVPR 2025, 清华/腾讯)引入可学习的VoCo(Vision Compression)Token,插入在视觉Token和文本Token之间。通过修改注意力掩码实现:VoCo Token只能注意视觉Token(不能看到文本Token),文本Token只能通过VoCo Token间接获取视觉信息。训练时通过注意力蒸馏学习压缩。可将576个视觉Token压缩至仅1个VoCo Token(576倍压缩),FLOPs降低94.8%,推理加速69.6%。在推理时因注意力隔离机制,压缩过程严格文本无关。开源地址:https://github.com/Yxxxb/VoCo-LLaMA
TokenPacker与LLaVolta:投影器层面的压缩
TokenPacker(Li et al., IJCV 2025)设计了一个替代标准MLP投影器的学习型视觉投影器,采用粗到细方案:先下采样生成低分辨率查询,再通过局部交叉注意力注入高分辨率细节。将576个Token压缩至144个(75%压缩),性能反而提升+0.8%。开源:https://github.com/CircleRadon/TokenPacker
LLaVolta(Chen et al., NeurIPS 2024, JHU)提出训练阶段使用简单平均池化压缩视觉Token的渐进式训练策略:从重度压缩逐步过渡到不压缩。减少16–19%训练成本的同时性能持平或提升。开源:https://github.com/Beckschen/LLaVolta
三、MLLM时代的文本相关型方法
以下方法的剪枝决策依赖用户文本query——通常利用LLM解码器内部的文本-视觉交叉注意力来确定哪些视觉Token与当前问题相关。
FastV:LLM内部注意力剪枝的先驱
FastV(Chen et al., ECCV 2024 Oral, Top 2%)是MLLM视觉Token剪枝领域的开创性工作,引用量约250次。核心发现:视觉Token在LLM第2层之后获得的注意力急剧下降。方法在第K层(默认K=2)计算每个视觉Token从所有Token(包括文本Token)获得的平均注意力分数,剪除底部R%。无需训练,45% FLOPs降低,几乎无性能损失。因在LLM内部操作且注意力分数包含文本Token的影响,属于文本相关型——不同问题对同一图像会产生不同的剪枝结果。开源:https://github.com/pkunlp-icler/FastV
值得注意的是,后续研究(ACL 2025 Findings分析论文)发现FastV存在RoPE位置偏差问题——由于旋转位置编码,图像底部的Token系统性地获得更高注意力,有时甚至不如随机剪枝。
PyramidDrop:金字塔式渐进丢弃
PyramidDrop(Xing et al., CVPR 2025, 商汤/中科大)基于观察——更深层中视觉Token冗余度更高,设计金字塔式逐阶段丢弃策略(如保留100%→50%→25%→12.5%)。每阶段结尾根据最后一个指令Token对视觉Token的注意力分数排序丢弃。40%训练加速+55%推理FLOPs降低,性能不降。可同时加速训练和推理,在LLaVA-NeXT上比FastV在DocVQA上高出6%。开源:https://github.com/Cooperx521/PyramidDrop
SparseVLM:显式文本引导的Token稀疏化
SparseVLM(Zhang et al., ICML 2025)是文本相关方法的代表作。明确选择相关文本Token作为”评价者”,通过LLM自注意力矩阵评估每个视觉Token的重要性。引入基于排名的自适应稀疏化比例和Token回收机制(将被剪Token通过KNN密度峰聚合为紧凑表示而非完全丢弃)。61–67% FLOPs降低,37%推理延迟降低,维持93–97%精度。论文中明确将自己与”text-agnostic”方法对比,论证文本引导的必要性。开源:https://github.com/Gumpest/SparseVLMs
FEATHER:发现并修正注意力偏差
FEATHER(Endo et al., ICCV 2025, Stanford)深入分析了基于注意力的Token剪枝的局限性,发现RoPE位置编码导致早期层的注意力标准严重偏向图像底部Token。提出:(1)去除RoPE的注意力标准(ϑ-R);(2)早期层使用均匀采样+注意力的集成策略;(3)后期层才进行激进剪枝。在视觉定位任务上比FastV/PyramidDrop提升5倍以上。
更多文本相关型方法
| 方法 | 会议 | 核心机制 | 关键结果 |
|---|---|---|---|
| MADTP | CVPR 2024 | 跨模态对齐引导+动态剪枝,同时剪视觉和语言Token | 80% GFLOPs降低,<4%性能下降 |
| CrossGET | ICML 2024 | 完全图软匹配+跨模态引导Token,双向信息传递 | 适用于CLIP/BLIP/LLaVA |
| IVTP | ECCV 2024 | 两阶段:ViT内注意力汇聚+LLM内伪CLS文本引导 | 88.9% Token减少,仅1%精度下降 |
| FitPrune | AAAI 2025 | 统计分布拟合生成剪枝配方(约5分钟标定) | 54.9% FLOPs降低,0.5%精度下降 |
| ATP-LLaVA | CVPR 2025 | 可学习自适应阈值,实例级+层级自适应 | 75% Token减少,1.9%精度下降 |
| TopV | CVPR 2025 | Sinkhorn算法优化Token贡献,兼容FlashAttention | 47% FLOPs降低,0.39%精度下降 |
| PACT | CVPR 2025 | 剪枝+密度峰聚类合并,兼容FlashAttention | 优于FastV和ToMe |
四、视频场景的Token剪枝
视频多模态模型面临更严峻的Token爆炸问题(多帧×每帧数百Token),催生了专门的时空Token压缩方法。
DyCoke(CVPR 2025)采用两阶段策略:prefill阶段进行跨帧时序Token合并(文本无关),解码阶段动态裁剪KV Cache中低注意力视觉Token(文本相关)。PruneVid(ACL 2025)类似地分两阶段——先基于视觉时空冗余合并(文本无关),再利用问题-视觉注意力做选择性剪枝(文本相关)。TempMe(ICLR 2025)则完全在CLIP视觉编码器内操作,通过帧内空间合并(ImgMe)和跨片段时序合并(ClipMe)减少95%输出Token、51% GFLOPs,属于纯文本无关方法。
五、架构级视觉Token压缩
部分方法通过架构设计而非后处理实现Token压缩,介于文本无关和文本相关之间:
Q-Former(BLIP-2, ICML 2023, 约7000+引用)使用32个可学习查询通过交叉注意力从冻结视觉编码器中提取信息,将约257个视觉Token压缩至32个。VQA微调时问题文本直接输入Q-Former,部分文本相关。Perceiver Resampler(Flamingo, NeurIPS 2022, 约4000+引用)用学习型潜在查询通过交叉注意力映射视觉特征到固定数量Token,压缩过程本身文本无关。LLaVA-Mini(ICLR 2025)通过模态预融合+查询式压缩模块将576个视觉Token压缩至仅1个,FLOPs降低77%,可处理10,000+视频帧。
六、两类方法的核心权衡与发展趋势
文本无关型的优势与局限
文本无关方法的核心优势在于可预计算性——视觉Token压缩后可缓存复用,天然适配多轮对话、多query场景和流式应用。VisionZip、DART、DivPrune均兼容FlashAttention,不需要提取注意力矩阵。ACL 2025分析论文(Wen et al.)发现,在标准VQA基准上,简单的均匀采样和池化有时优于复杂的注意力引导方法,挑战了文本相关方法的基本假设。FasterVLM(arXiv 2024)进一步证明,ViT中CLS注意力作为重要性指标比LLM内部的文本-视觉交叉注意力更可靠——后者受注意力漂移和位置偏差的系统性影响。
局限方面,文本无关方法对同一图像无论问什么问题都保留相同Token子集,在极端压缩比下可能丢弃与特定问题相关的关键信息(如OCR场景中的文字区域)。
文本相关型的优势与局限
文本相关方法能根据问题自适应聚焦相关视觉区域(如问”时钟几点”时保留时钟区域Token),在极端压缩下理论上更优。FlashVLM(arXiv 2025)在77.8%压缩比下甚至超越未压缩基线(100.60%相对精度)。
但其代价是:(1)无法预缓存,每次新query都需重新评估所有视觉Token;(2)多数方法需要提取注意力矩阵,与FlashAttention不兼容;(3)注意力偏差问题——RoPE导致位置偏好(FEATHER, ICCV 2025),注意力沉降(attention sinks)导致与文本Token语义的真实相关性被扭曲。
发展趋势
2024-2025年的研究呈现几个明显趋势:(1)方法日益精简——从DynamicViT需要30 epoch训练+蒸馏,到DART仅需计算余弦相似度,复杂度大幅降低;(2)压缩位置前移——越来越多方法在视觉编码器端(LLM之前)完成压缩,避免进入LLM后的计算开销;(3)FlashAttention兼容性成为重要设计约束——DART、TopV、PACT、DivPrune均强调这一点;(4)混合策略兴起——VScan、PruneVid等方法在前端用文本无关策略做初步压缩,在LLM内部用文本相关策略做精细化选择;(5)从”重要性”到”多样性/覆盖度”——DART(去重复)、DivPrune(最大多样性)、SCOPE(覆盖度)代表了超越传统注意力排序的新范式。
七、完整方法对照表
| 方法 | 会议/年份 | 文本无关? | 需训练? | 压缩位置 | 压缩比 | 性能保持 | 开源 |
|---|---|---|---|---|---|---|---|
| DynamicViT | NeurIPS 2021 | ✅ | 需要 | ViT内部 | 66% Token减少 | <0.5%↓ | ✅ |
| EViT | ICLR 2022 | ✅ | 需要 | ViT内部 | 30-50% Token减少 | 0.3%↓ | ✅ |
| A-ViT | CVPR 2022 | ✅ | 需要 | ViT内部 | 自适应 | 0.3%↓ | ✅ |
| ToMe | ICLR 2023 | ✅ | 不需要 | ViT内部 | 可调节 | 0.2-0.3%↓ | ✅ |
| LLaVA-PruMerge | ICCV 2025 | ✅ | 可选 | 视觉编码器 | 14-18× | 基本持平 | ✅ |
| TokenPacker | IJCV 2025 | ✅ | 需要 | 投影器 | 75-89% | +0.8%↑ | ✅ |
| VoCo-LLaMA | CVPR 2025 | ✅ | 需要 | LLM内(隔离) | 最高576× | 大幅优于基线 | ✅ |
| VisionZip | CVPR 2025 | ✅ | 不需要 | 视觉编码器 | 90% Token减少 | ~95%保持 | ✅ |
| DivPrune | CVPR 2025 | ✅ | 不需要 | 视觉编码器 | ~90% Token减少 | 16数据集SOTA | ✅ |
| DART | EMNLP 2025 | ✅ | 不需要 | LLM前 | 88.9% Token减少 | 可比+减少幻觉 | ✅ |
| SCOPE | NeurIPS 2025 | ✅ | 不需要 | 视觉编码器 | 可调节 | 优于VisionZip | ✅ |
| LLaVolta | NeurIPS 2024 | ✅ | 训练策略 | 投影器 | 70% Token减少 | 3%↓ | ✅ |
| TempMe | ICLR 2025 | ✅ | 需要 | 视觉编码器(视频) | 95% Token减少 | +4.4% R-Sum | ✅ |
| FastV | ECCV 2024 | ❌ | 不需要 | LLM第2层 | 50% Token减少 | 近乎无损 | ✅ |
| PyramidDrop | CVPR 2025 | ❌ | 不需要 | LLM多阶段 | 55% FLOPs降低 | 基本持平 | ✅ |
| SparseVLM | ICML 2025 | ❌ | 不需要 | LLM内部 | 78% Token减少 | ~93-97%保持 | ✅ |
| MADTP | CVPR 2024 | ❌ | 需要 | VLT全局 | 80% GFLOPs降低 | <4%↓ | ✅ |
| CrossGET | ICML 2024 | ❌ | 需要 | VLT全局 | 可调节 | 微小下降 | ✅ |
| IVTP | ECCV 2024 | ❌ | 不需要 | ViT+LLM两阶段 | 88.9% Token减少 | 1%↓ | — |
| FitPrune | AAAI 2025 | ❌ | 不需要 | LLM逐层 | 54.9% FLOPs降低 | 0.5%↓ | ✅ |
| ATP-LLaVA | CVPR 2025 | ❌ | 需要 | LLM内部 | 75% Token减少 | 1.9%↓ | ✅ |
| TopV | CVPR 2025 | ❌ | 不需要 | LLM第2层 | 47% FLOPs降低 | 0.39%↓ | ✅ |
| PACT | CVPR 2025 | ❌ | 不需要 | LLM内部 | 可调节 | 优于FastV | ✅ |
| FEATHER | ICCV 2025 | ❌ | 不需要 | LLM内部 | 可调节 | 定位任务5×↑ | — |
| LOOK-M | EMNLP 2024 | ❌ | 不需要 | KV Cache | 80-95% KV减少 | 1.3-1.5×加速 | ✅ |
| DyCoke | CVPR 2025 | 混合 | 不需要 | LLM+KV(视频) | 显著加速 | 可比 | ✅ |
| PruneVid | ACL 2025 | 混合 | 不需要 | 时空+LLM(视频) | >80% Token减少 | 可比 | ✅ |
| LLaVA-Mini | ICLR 2025 | 部分 | 需要 | 预融合+压缩 | 576→1 Token | 优于LLaVA-1.5 | ✅ |
结论:文本无关方法正在逼近甚至超越文本相关方法
本综述最重要的发现是:文本无关型视觉Token剪枝并非文本相关型的”低配版”,而是一种在实用性和性能间取得独特平衡的技术路线。 2025年的DART、DivPrune、SCOPE等文本无关方法在标准基准上已经能匹配甚至超越FastV、SparseVLM等文本相关方法,同时保持FlashAttention兼容性和预计算缓存能力。ACL 2025分析论文揭示的注意力偏差问题进一步动摇了”文本引导一定更好”的直觉。
对于研究者而言,当前最有潜力的方向包括:(1)超越注意力排序的新Token选择范式(多样性、覆盖度、去重复);(2)混合策略——视觉编码器端做文本无关粗压缩+LLM内部做文本相关精选择;(3)视频场景的时空联合Token压缩;(4)与高效注意力机制(FlashAttention 3, PagedAttention)的协同设计。对于工程实践,VisionZip和DART因其无需训练、即插即用、兼容高效推理框架的特点,是目前最推荐的文本无关方案起点。