多模态大模型视觉Token剪枝:文本无关 vs. 文本相关方法全景综述

视觉Token剪枝已成为多模态大语言模型(MLLM)推理加速的核心技术路线。 本报告系统梳理了从ViT时代到MLLM时代共30余篇顶会论文,其中文本无关型方法(仅基于图像信息做剪枝,不依赖用户文本query)约占总数的40%,主要在视觉编码器端完成压缩;文本相关型方法(利用文本query引导剪枝)则多在LLM解码器内部操作。两类方法各有优劣:文本无关型支持预计算缓存和多轮对话,而文本相关型在极端压缩比下能更好保留与问题相关的视觉信息。2024-2025年间,CVPR、NeurIPS、ICML、ICLR、EMNLP等顶会密集涌现了大量该方向的工作,标志着这一领域的快速成熟。


一、ViT时代的经典Token剪枝方法(2021–2023,均为文本无关型)

这些先驱工作奠定了视觉Token剪枝的技术基础。它们面向纯视觉任务(如ImageNet分类),完全不涉及文本信息,全部为文本无关型

DynamicViT:学习型Token稀疏化的开创者

DynamicViT(Rao et al., NeurIPS 2021)是该方向的奠基之作,引用量约905次。其核心思想是在ViT中插入轻量级MLP预测模块,通过Gumbel-Softmax松弛实现可微分的二元剪枝决策。剪枝分三阶段进行,逐层递进地将Token保留率从70%降至49%再降至34%。训练需要知识蒸馏(30个epoch微调),最终在DeiT-S上实现剪除66%的Token,精度仅下降0.5%以内,FLOPs降低31–37%,吞吐量提升超40%。开源地址:https://github.com/raoyongming/DynamicViT

EViT:基于CLS注意力的简约设计

EViT(Not All Patches are What You Need, Liang et al., ICLR 2022 Spotlight)利用ViT中CLS Token对各图像Token的注意力分数作为重要性指标,保留top-k”注意型”Token,将低注意力Token融合为一个聚合Token(而非直接丢弃)。该方法不引入额外参数,在DeiT-S上以保留率0.7实现约50%推理加速,精度仅下降0.3%。引用量约500+次。开源地址:https://github.com/youweiliang/evit

ToMe:无需训练的Token合并范式

ToMe(Token Merging, Bolya et al., ICLR 2023 Oral)提出了划时代的”合并”而非”剪枝”思路。在每个Transformer块中,基于Key空间的余弦相似度进行二部图软匹配,将最相似的r个Token对合并(加权平均)。核心优势是完全无需训练,可即插即用。引入”比例注意力”(proportional attention)保持合并后的注意力一致性。在ViT-L上实现2倍吞吐量提升,精度仅下降0.2–0.3%。后被广泛扩展至Stable Diffusion、视频模型等场景。引用量约540次。开源地址:https://github.com/facebookresearch/ToMe

A-ViT与SPViT:自适应与边缘部署

A-ViT(NVIDIA, CVPR 2022)将Adaptive Computation Time(ACT)引入ViT,每个Token独立计算停止概率,达到阈值即退出后续层计算,无需额外参数。SPViT(ECCV 2022)则专注边缘设备部署,设计了延迟感知的多头注意力Token选择器,首次在手机上实现ViT实时推理(<33ms)。两者引用量分别约200+和100+次。


二、MLLM时代的文本无关型方法

以下方法在视觉编码器端或LLM输入之前完成Token压缩,剪枝决策完全不依赖用户文本query,同一张图像无论配什么问题都产生相同的压缩结果。

LLaVA-PruMerge:CLS注意力驱动的先剪后合

LLaVA-PruMerge(Shang et al., ICCV 2025, arXiv 2024.3)是MLLM时代最早的文本无关Token压缩工作之一,引用量约151次。方法在CLIP视觉编码器内部操作:利用CLS Token对空间Token的注意力分数,通过IQR(四分位距)离群点检测自适应选择重要Token(Prune阶段),再将被剪除的Token按Key相似度聚类后合并到保留Token上(Merge阶段)。PruMerge+变体额外加入空间均匀采样。PruMerge仅保留约5.5%的视觉Token(18倍压缩),性能与LLaVA-1.5基本持平;PruMerge+保留25%Token,性能更优。 可无需训练使用,也可配合LoRA微调提升效果。开源地址:https://github.com/42Shawn/LLaVA-PruMerge

VisionZip:文本无关方法的标杆

VisionZip(Yang et al., CVPR 2025)是当前最具影响力的文本无关方法之一。分两步操作:(1)主导Token选择:用视觉编码器中CLS Token的注意力分数(对SigLIP编码器则用Token间平均注意力)识别高注意力Token;(2)上下文Token合并:将未选中的Token按相似度合并到已选Token上。仅保留10%视觉Token即可维持约95%的性能,实现8倍prefill加速。作者明确将其定位为text-agnostic方法,强调这一特性使其天然兼容多轮对话和预缓存场景。在LLaVA-1.5、LLaVA-NeXT、InternVL2等多个模型上验证有效。开源地址:https://github.com/dvlab-research/VisionZip(406+ Stars)

DART:从”重要性”到”重复性”的范式转换

DART(Wen et al., EMNLP 2025 Main)提出了一个颠覆性观点:不应该寻找”重要”的Token,而应该去除”重复”的Token。方法极其简洁——随机或按范数选取约2%的Token作为”锚点”(pivot),然后保留与所有锚点余弦相似度低(即信息不重复)的Token。该方法完全不需要注意力分数或文本信息,兼容FlashAttention。在88.9%的Token剪除率下保持可比性能,总推理加速1.99倍,prefill加速2.99倍,甚至能减少幻觉现象。在LLaVA-1.5-7B/13B、Qwen2-VL-72B上均验证有效。开源地址:https://github.com/ZichenWen1/DART

DivPrune:最大化Token多样性

DivPrune(Ranjbar Alvar et al., CVPR 2025, Huawei Canada)将Token选择形式化为最大-最小多样性问题(MMDP),目标是选出的Token子集应最大化两两之间的最小距离。在视觉Token嵌入空间中求解MMDP,选出最多样化的Token子集。无需训练或标定数据。在16个图像和视频语言数据集上取得SOTA精度,在极端压缩(约15% TFLOP)下仅5.1% GQA精度下降(FastV下降42.8%)。开源地址:https://github.com/vbdi/divprune

SCOPE:联合建模显著性与覆盖度

SCOPE(Deng et al., NeurIPS 2025)指出现有方法仅基于显著性(saliency)选择Token会导致语义不完整——注意力分布偏斜使得尾部Token难以区分。SCOPE创新地联合建模显著性和覆盖度(coverage),定义Token覆盖增益(加入新Token带来的额外覆盖面积),将两者融合为SCOPE分数后贪心迭代选择。在LLaVA-1.5和LLaVA-Next上持续优于VisionZip和DivPrune。开源地址:https://github.com/kinredon/SCOPE

VoCo-LLaMA:学习型视觉压缩Token

VoCo-LLaMA(Ye et al., CVPR 2025, 清华/腾讯)引入可学习的VoCo(Vision Compression)Token,插入在视觉Token和文本Token之间。通过修改注意力掩码实现:VoCo Token只能注意视觉Token(不能看到文本Token),文本Token只能通过VoCo Token间接获取视觉信息。训练时通过注意力蒸馏学习压缩。可将576个视觉Token压缩至仅1个VoCo Token(576倍压缩),FLOPs降低94.8%,推理加速69.6%。在推理时因注意力隔离机制,压缩过程严格文本无关。开源地址:https://github.com/Yxxxb/VoCo-LLaMA

TokenPacker与LLaVolta:投影器层面的压缩

TokenPacker(Li et al., IJCV 2025)设计了一个替代标准MLP投影器的学习型视觉投影器,采用粗到细方案:先下采样生成低分辨率查询,再通过局部交叉注意力注入高分辨率细节。将576个Token压缩至144个(75%压缩),性能反而提升+0.8%。开源:https://github.com/CircleRadon/TokenPacker

LLaVolta(Chen et al., NeurIPS 2024, JHU)提出训练阶段使用简单平均池化压缩视觉Token的渐进式训练策略:从重度压缩逐步过渡到不压缩。减少16–19%训练成本的同时性能持平或提升。开源:https://github.com/Beckschen/LLaVolta


三、MLLM时代的文本相关型方法

以下方法的剪枝决策依赖用户文本query——通常利用LLM解码器内部的文本-视觉交叉注意力来确定哪些视觉Token与当前问题相关。

FastV:LLM内部注意力剪枝的先驱

FastV(Chen et al., ECCV 2024 Oral, Top 2%)是MLLM视觉Token剪枝领域的开创性工作,引用量约250次。核心发现:视觉Token在LLM第2层之后获得的注意力急剧下降。方法在第K层(默认K=2)计算每个视觉Token从所有Token(包括文本Token)获得的平均注意力分数,剪除底部R%。无需训练,45% FLOPs降低,几乎无性能损失。因在LLM内部操作且注意力分数包含文本Token的影响,属于文本相关型——不同问题对同一图像会产生不同的剪枝结果。开源:https://github.com/pkunlp-icler/FastV

值得注意的是,后续研究(ACL 2025 Findings分析论文)发现FastV存在RoPE位置偏差问题——由于旋转位置编码,图像底部的Token系统性地获得更高注意力,有时甚至不如随机剪枝。

PyramidDrop:金字塔式渐进丢弃

PyramidDrop(Xing et al., CVPR 2025, 商汤/中科大)基于观察——更深层中视觉Token冗余度更高,设计金字塔式逐阶段丢弃策略(如保留100%→50%→25%→12.5%)。每阶段结尾根据最后一个指令Token对视觉Token的注意力分数排序丢弃。40%训练加速+55%推理FLOPs降低,性能不降。可同时加速训练和推理,在LLaVA-NeXT上比FastV在DocVQA上高出6%。开源:https://github.com/Cooperx521/PyramidDrop

SparseVLM:显式文本引导的Token稀疏化

SparseVLM(Zhang et al., ICML 2025)是文本相关方法的代表作。明确选择相关文本Token作为”评价者”,通过LLM自注意力矩阵评估每个视觉Token的重要性。引入基于排名的自适应稀疏化比例Token回收机制(将被剪Token通过KNN密度峰聚合为紧凑表示而非完全丢弃)。61–67% FLOPs降低,37%推理延迟降低,维持93–97%精度。论文中明确将自己与”text-agnostic”方法对比,论证文本引导的必要性。开源:https://github.com/Gumpest/SparseVLMs

FEATHER:发现并修正注意力偏差

FEATHER(Endo et al., ICCV 2025, Stanford)深入分析了基于注意力的Token剪枝的局限性,发现RoPE位置编码导致早期层的注意力标准严重偏向图像底部Token。提出:(1)去除RoPE的注意力标准(ϑ-R);(2)早期层使用均匀采样+注意力的集成策略;(3)后期层才进行激进剪枝。在视觉定位任务上比FastV/PyramidDrop提升5倍以上

更多文本相关型方法

方法会议核心机制关键结果
MADTPCVPR 2024跨模态对齐引导+动态剪枝,同时剪视觉和语言Token80% GFLOPs降低,<4%性能下降
CrossGETICML 2024完全图软匹配+跨模态引导Token,双向信息传递适用于CLIP/BLIP/LLaVA
IVTPECCV 2024两阶段:ViT内注意力汇聚+LLM内伪CLS文本引导88.9% Token减少,仅1%精度下降
FitPruneAAAI 2025统计分布拟合生成剪枝配方(约5分钟标定)54.9% FLOPs降低,0.5%精度下降
ATP-LLaVACVPR 2025可学习自适应阈值,实例级+层级自适应75% Token减少,1.9%精度下降
TopVCVPR 2025Sinkhorn算法优化Token贡献,兼容FlashAttention47% FLOPs降低,0.39%精度下降
PACTCVPR 2025剪枝+密度峰聚类合并,兼容FlashAttention优于FastV和ToMe

四、视频场景的Token剪枝

视频多模态模型面临更严峻的Token爆炸问题(多帧×每帧数百Token),催生了专门的时空Token压缩方法。

DyCoke(CVPR 2025)采用两阶段策略:prefill阶段进行跨帧时序Token合并(文本无关),解码阶段动态裁剪KV Cache中低注意力视觉Token(文本相关)。PruneVid(ACL 2025)类似地分两阶段——先基于视觉时空冗余合并(文本无关),再利用问题-视觉注意力做选择性剪枝(文本相关)。TempMe(ICLR 2025)则完全在CLIP视觉编码器内操作,通过帧内空间合并(ImgMe)和跨片段时序合并(ClipMe)减少95%输出Token、51% GFLOPs,属于纯文本无关方法。


五、架构级视觉Token压缩

部分方法通过架构设计而非后处理实现Token压缩,介于文本无关和文本相关之间:

Q-Former(BLIP-2, ICML 2023, 约7000+引用)使用32个可学习查询通过交叉注意力从冻结视觉编码器中提取信息,将约257个视觉Token压缩至32个。VQA微调时问题文本直接输入Q-Former,部分文本相关。Perceiver Resampler(Flamingo, NeurIPS 2022, 约4000+引用)用学习型潜在查询通过交叉注意力映射视觉特征到固定数量Token,压缩过程本身文本无关。LLaVA-Mini(ICLR 2025)通过模态预融合+查询式压缩模块将576个视觉Token压缩至仅1个,FLOPs降低77%,可处理10,000+视频帧。


六、两类方法的核心权衡与发展趋势

文本无关型的优势与局限

文本无关方法的核心优势在于可预计算性——视觉Token压缩后可缓存复用,天然适配多轮对话、多query场景和流式应用。VisionZip、DART、DivPrune均兼容FlashAttention,不需要提取注意力矩阵。ACL 2025分析论文(Wen et al.)发现,在标准VQA基准上,简单的均匀采样和池化有时优于复杂的注意力引导方法,挑战了文本相关方法的基本假设。FasterVLM(arXiv 2024)进一步证明,ViT中CLS注意力作为重要性指标比LLM内部的文本-视觉交叉注意力更可靠——后者受注意力漂移和位置偏差的系统性影响。

局限方面,文本无关方法对同一图像无论问什么问题都保留相同Token子集,在极端压缩比下可能丢弃与特定问题相关的关键信息(如OCR场景中的文字区域)。

文本相关型的优势与局限

文本相关方法能根据问题自适应聚焦相关视觉区域(如问”时钟几点”时保留时钟区域Token),在极端压缩下理论上更优。FlashVLM(arXiv 2025)在77.8%压缩比下甚至超越未压缩基线(100.60%相对精度)。

但其代价是:(1)无法预缓存,每次新query都需重新评估所有视觉Token;(2)多数方法需要提取注意力矩阵,与FlashAttention不兼容;(3)注意力偏差问题——RoPE导致位置偏好(FEATHER, ICCV 2025),注意力沉降(attention sinks)导致与文本Token语义的真实相关性被扭曲。

发展趋势

2024-2025年的研究呈现几个明显趋势:(1)方法日益精简——从DynamicViT需要30 epoch训练+蒸馏,到DART仅需计算余弦相似度,复杂度大幅降低;(2)压缩位置前移——越来越多方法在视觉编码器端(LLM之前)完成压缩,避免进入LLM后的计算开销;(3)FlashAttention兼容性成为重要设计约束——DART、TopV、PACT、DivPrune均强调这一点;(4)混合策略兴起——VScan、PruneVid等方法在前端用文本无关策略做初步压缩,在LLM内部用文本相关策略做精细化选择;(5)从”重要性”到”多样性/覆盖度”——DART(去重复)、DivPrune(最大多样性)、SCOPE(覆盖度)代表了超越传统注意力排序的新范式。


七、完整方法对照表

方法会议/年份文本无关?需训练?压缩位置压缩比性能保持开源
DynamicViTNeurIPS 2021需要ViT内部66% Token减少<0.5%↓
EViTICLR 2022需要ViT内部30-50% Token减少0.3%↓
A-ViTCVPR 2022需要ViT内部自适应0.3%↓
ToMeICLR 2023不需要ViT内部可调节0.2-0.3%↓
LLaVA-PruMergeICCV 2025可选视觉编码器14-18×基本持平
TokenPackerIJCV 2025需要投影器75-89%+0.8%↑
VoCo-LLaMACVPR 2025需要LLM内(隔离)最高576×大幅优于基线
VisionZipCVPR 2025不需要视觉编码器90% Token减少~95%保持
DivPruneCVPR 2025不需要视觉编码器~90% Token减少16数据集SOTA
DARTEMNLP 2025不需要LLM前88.9% Token减少可比+减少幻觉
SCOPENeurIPS 2025不需要视觉编码器可调节优于VisionZip
LLaVoltaNeurIPS 2024训练策略投影器70% Token减少3%↓
TempMeICLR 2025需要视觉编码器(视频)95% Token减少+4.4% R-Sum
FastVECCV 2024不需要LLM第2层50% Token减少近乎无损
PyramidDropCVPR 2025不需要LLM多阶段55% FLOPs降低基本持平
SparseVLMICML 2025不需要LLM内部78% Token减少~93-97%保持
MADTPCVPR 2024需要VLT全局80% GFLOPs降低<4%↓
CrossGETICML 2024需要VLT全局可调节微小下降
IVTPECCV 2024不需要ViT+LLM两阶段88.9% Token减少1%↓
FitPruneAAAI 2025不需要LLM逐层54.9% FLOPs降低0.5%↓
ATP-LLaVACVPR 2025需要LLM内部75% Token减少1.9%↓
TopVCVPR 2025不需要LLM第2层47% FLOPs降低0.39%↓
PACTCVPR 2025不需要LLM内部可调节优于FastV
FEATHERICCV 2025不需要LLM内部可调节定位任务5×↑
LOOK-MEMNLP 2024不需要KV Cache80-95% KV减少1.3-1.5×加速
DyCokeCVPR 2025混合不需要LLM+KV(视频)显著加速可比
PruneVidACL 2025混合不需要时空+LLM(视频)>80% Token减少可比
LLaVA-MiniICLR 2025部分需要预融合+压缩576→1 Token优于LLaVA-1.5

结论:文本无关方法正在逼近甚至超越文本相关方法

本综述最重要的发现是:文本无关型视觉Token剪枝并非文本相关型的”低配版”,而是一种在实用性和性能间取得独特平衡的技术路线。 2025年的DART、DivPrune、SCOPE等文本无关方法在标准基准上已经能匹配甚至超越FastV、SparseVLM等文本相关方法,同时保持FlashAttention兼容性和预计算缓存能力。ACL 2025分析论文揭示的注意力偏差问题进一步动摇了”文本引导一定更好”的直觉。

对于研究者而言,当前最有潜力的方向包括:(1)超越注意力排序的新Token选择范式(多样性、覆盖度、去重复);(2)混合策略——视觉编码器端做文本无关粗压缩+LLM内部做文本相关精选择;(3)视频场景的时空联合Token压缩;(4)与高效注意力机制(FlashAttention 3, PagedAttention)的协同设计。对于工程实践,VisionZip和DART因其无需训练、即插即用、兼容高效推理框架的特点,是目前最推荐的文本无关方案起点。