多模态大模型视觉Token剪枝：文本无关 vs. 文本相关方法全景综述

视觉Token剪枝已成为多模态大语言模型（MLLM）推理加速的核心技术路线。 本报告系统梳理了从ViT时代到MLLM时代共30余篇顶会论文，其中文本无关型方法（仅基于图像信息做剪枝，不依赖用户文本query）约占总数的40%，主要在视觉编码器端完成压缩；文本相关型方法（利用文本query引导剪枝）则多在LLM解码器内部操作。两类方法各有优劣：文本无关型支持预计算缓存和多轮对话，而文本相关型在极端压缩比下能更好保留与问题相关的视觉信息。2024-2025年间，CVPR、NeurIPS、ICML、ICLR、EMNLP等顶会密集涌现了大量该方向的工作，标志着这一领域的快速成熟。

一、ViT时代的经典Token剪枝方法（2021–2023，均为文本无关型）

这些先驱工作奠定了视觉Token剪枝的技术基础。它们面向纯视觉任务（如ImageNet分类），完全不涉及文本信息，全部为文本无关型。

DynamicViT：学习型Token稀疏化的开创者

DynamicViT（Rao et al., NeurIPS 2021）是该方向的奠基之作，引用量约905次。其核心思想是在ViT中插入轻量级MLP预测模块，通过Gumbel-Softmax松弛实现可微分的二元剪枝决策。剪枝分三阶段进行，逐层递进地将Token保留率从70%降至49%再降至34%。训练需要知识蒸馏（30个epoch微调），最终在DeiT-S上实现剪除66%的Token，精度仅下降0.5%以内，FLOPs降低31–37%，吞吐量提升超40%。开源地址：https://github.com/raoyongming/DynamicViT

EViT：基于CLS注意力的简约设计

EViT（Not All Patches are What You Need, Liang et al., ICLR 2022 Spotlight）利用ViT中CLS Token对各图像Token的注意力分数作为重要性指标，保留top-k”注意型”Token，将低注意力Token融合为一个聚合Token（而非直接丢弃）。该方法不引入额外参数，在DeiT-S上以保留率0.7实现约50%推理加速，精度仅下降0.3%。引用量约500+次。开源地址：https://github.com/youweiliang/evit

ToMe：无需训练的Token合并范式

ToMe（Token Merging, Bolya et al., ICLR 2023 Oral）提出了划时代的”合并”而非”剪枝”思路。在每个Transformer块中，基于Key空间的余弦相似度进行二部图软匹配，将最相似的r个Token对合并（加权平均）。核心优势是完全无需训练，可即插即用。引入”比例注意力”（proportional attention）保持合并后的注意力一致性。在ViT-L上实现2倍吞吐量提升，精度仅下降0.2–0.3%。后被广泛扩展至Stable Diffusion、视频模型等场景。引用量约540次。开源地址：https://github.com/facebookresearch/ToMe

A-ViT与SPViT：自适应与边缘部署

A-ViT（NVIDIA, CVPR 2022）将Adaptive Computation Time（ACT）引入ViT，每个Token独立计算停止概率，达到阈值即退出后续层计算，无需额外参数。SPViT（ECCV 2022）则专注边缘设备部署，设计了延迟感知的多头注意力Token选择器，首次在手机上实现ViT实时推理（<33ms）。两者引用量分别约200+和100+次。

二、MLLM时代的文本无关型方法

以下方法在视觉编码器端或LLM输入之前完成Token压缩，剪枝决策完全不依赖用户文本query，同一张图像无论配什么问题都产生相同的压缩结果。

LLaVA-PruMerge：CLS注意力驱动的先剪后合

LLaVA-PruMerge（Shang et al., ICCV 2025, arXiv 2024.3）是MLLM时代最早的文本无关Token压缩工作之一，引用量约151次。方法在CLIP视觉编码器内部操作：利用CLS Token对空间Token的注意力分数，通过IQR（四分位距）离群点检测自适应选择重要Token（Prune阶段），再将被剪除的Token按Key相似度聚类后合并到保留Token上（Merge阶段）。PruMerge+变体额外加入空间均匀采样。PruMerge仅保留约5.5%的视觉Token（18倍压缩），性能与LLaVA-1.5基本持平；PruMerge+保留25%Token，性能更优。 可无需训练使用，也可配合LoRA微调提升效果。开源地址：https://github.com/42Shawn/LLaVA-PruMerge

VisionZip：文本无关方法的标杆

VisionZip（Yang et al., CVPR 2025）是当前最具影响力的文本无关方法之一。分两步操作：（1）主导Token选择：用视觉编码器中CLS Token的注意力分数（对SigLIP编码器则用Token间平均注意力）识别高注意力Token；（2）上下文Token合并：将未选中的Token按相似度合并到已选Token上。仅保留10%视觉Token即可维持约95%的性能，实现8倍prefill加速。作者明确将其定位为text-agnostic方法，强调这一特性使其天然兼容多轮对话和预缓存场景。在LLaVA-1.5、LLaVA-NeXT、InternVL2等多个模型上验证有效。开源地址：https://github.com/dvlab-research/VisionZip（406+ Stars）

DART：从”重要性”到”重复性”的范式转换

DART（Wen et al., EMNLP 2025 Main）提出了一个颠覆性观点：不应该寻找”重要”的Token，而应该去除”重复”的Token。方法极其简洁——随机或按范数选取约2%的Token作为”锚点”（pivot），然后保留与所有锚点余弦相似度低（即信息不重复）的Token。该方法完全不需要注意力分数或文本信息，兼容FlashAttention。在88.9%的Token剪除率下保持可比性能，总推理加速1.99倍，prefill加速2.99倍，甚至能减少幻觉现象。在LLaVA-1.5-7B/13B、Qwen2-VL-72B上均验证有效。开源地址：https://github.com/ZichenWen1/DART

DivPrune：最大化Token多样性

DivPrune（Ranjbar Alvar et al., CVPR 2025, Huawei Canada）将Token选择形式化为最大-最小多样性问题（MMDP），目标是选出的Token子集应最大化两两之间的最小距离。在视觉Token嵌入空间中求解MMDP，选出最多样化的Token子集。无需训练或标定数据。在16个图像和视频语言数据集上取得SOTA精度，在极端压缩（约15% TFLOP）下仅5.1% GQA精度下降（FastV下降42.8%）。开源地址：https://github.com/vbdi/divprune

SCOPE：联合建模显著性与覆盖度

SCOPE（Deng et al., NeurIPS 2025）指出现有方法仅基于显著性（saliency）选择Token会导致语义不完整——注意力分布偏斜使得尾部Token难以区分。SCOPE创新地联合建模显著性和覆盖度（coverage），定义Token覆盖增益（加入新Token带来的额外覆盖面积），将两者融合为SCOPE分数后贪心迭代选择。在LLaVA-1.5和LLaVA-Next上持续优于VisionZip和DivPrune。开源地址：https://github.com/kinredon/SCOPE

VoCo-LLaMA：学习型视觉压缩Token

VoCo-LLaMA（Ye et al., CVPR 2025, 清华/腾讯）引入可学习的VoCo（Vision Compression）Token，插入在视觉Token和文本Token之间。通过修改注意力掩码实现：VoCo Token只能注意视觉Token（不能看到文本Token），文本Token只能通过VoCo Token间接获取视觉信息。训练时通过注意力蒸馏学习压缩。可将576个视觉Token压缩至仅1个VoCo Token（576倍压缩），FLOPs降低94.8%，推理加速69.6%。在推理时因注意力隔离机制，压缩过程严格文本无关。开源地址：https://github.com/Yxxxb/VoCo-LLaMA

TokenPacker与LLaVolta：投影器层面的压缩

TokenPacker（Li et al., IJCV 2025）设计了一个替代标准MLP投影器的学习型视觉投影器，采用粗到细方案：先下采样生成低分辨率查询，再通过局部交叉注意力注入高分辨率细节。将576个Token压缩至144个（75%压缩），性能反而提升+0.8%。开源：https://github.com/CircleRadon/TokenPacker

LLaVolta（Chen et al., NeurIPS 2024, JHU）提出训练阶段使用简单平均池化压缩视觉Token的渐进式训练策略：从重度压缩逐步过渡到不压缩。减少16–19%训练成本的同时性能持平或提升。开源：https://github.com/Beckschen/LLaVolta

三、MLLM时代的文本相关型方法

以下方法的剪枝决策依赖用户文本query——通常利用LLM解码器内部的文本-视觉交叉注意力来确定哪些视觉Token与当前问题相关。

FastV：LLM内部注意力剪枝的先驱

FastV（Chen et al., ECCV 2024 Oral, Top 2%）是MLLM视觉Token剪枝领域的开创性工作，引用量约250次。核心发现：视觉Token在LLM第2层之后获得的注意力急剧下降。方法在第K层（默认K=2）计算每个视觉Token从所有Token（包括文本Token）获得的平均注意力分数，剪除底部R%。无需训练，45% FLOPs降低，几乎无性能损失。因在LLM内部操作且注意力分数包含文本Token的影响，属于文本相关型——不同问题对同一图像会产生不同的剪枝结果。开源：https://github.com/pkunlp-icler/FastV

值得注意的是，后续研究（ACL 2025 Findings分析论文）发现FastV存在RoPE位置偏差问题——由于旋转位置编码，图像底部的Token系统性地获得更高注意力，有时甚至不如随机剪枝。

PyramidDrop：金字塔式渐进丢弃

PyramidDrop（Xing et al., CVPR 2025, 商汤/中科大）基于观察——更深层中视觉Token冗余度更高，设计金字塔式逐阶段丢弃策略（如保留100%→50%→25%→12.5%）。每阶段结尾根据最后一个指令Token对视觉Token的注意力分数排序丢弃。40%训练加速+55%推理FLOPs降低，性能不降。可同时加速训练和推理，在LLaVA-NeXT上比FastV在DocVQA上高出6%。开源：https://github.com/Cooperx521/PyramidDrop

SparseVLM：显式文本引导的Token稀疏化

SparseVLM（Zhang et al., ICML 2025）是文本相关方法的代表作。明确选择相关文本Token作为”评价者”，通过LLM自注意力矩阵评估每个视觉Token的重要性。引入基于排名的自适应稀疏化比例和Token回收机制（将被剪Token通过KNN密度峰聚合为紧凑表示而非完全丢弃）。61–67% FLOPs降低，37%推理延迟降低，维持93–97%精度。论文中明确将自己与”text-agnostic”方法对比，论证文本引导的必要性。开源：https://github.com/Gumpest/SparseVLMs

FEATHER：发现并修正注意力偏差

FEATHER（Endo et al., ICCV 2025, Stanford）深入分析了基于注意力的Token剪枝的局限性，发现RoPE位置编码导致早期层的注意力标准严重偏向图像底部Token。提出：（1）去除RoPE的注意力标准（ϑ-R）；（2）早期层使用均匀采样+注意力的集成策略；（3）后期层才进行激进剪枝。在视觉定位任务上比FastV/PyramidDrop提升5倍以上。

方法	会议	核心机制	关键结果
MADTP	CVPR 2024	跨模态对齐引导+动态剪枝，同时剪视觉和语言Token	80% GFLOPs降低，<4%性能下降
CrossGET	ICML 2024	完全图软匹配+跨模态引导Token，双向信息传递	适用于CLIP/BLIP/LLaVA
IVTP	ECCV 2024	两阶段：ViT内注意力汇聚+LLM内伪CLS文本引导	88.9% Token减少，仅1%精度下降
FitPrune	AAAI 2025	统计分布拟合生成剪枝配方（约5分钟标定）	54.9% FLOPs降低，0.5%精度下降
ATP-LLaVA	CVPR 2025	可学习自适应阈值，实例级+层级自适应	75% Token减少，1.9%精度下降
TopV	CVPR 2025	Sinkhorn算法优化Token贡献，兼容FlashAttention	47% FLOPs降低，0.39%精度下降
PACT	CVPR 2025	剪枝+密度峰聚类合并，兼容FlashAttention	优于FastV和ToMe

四、视频场景的Token剪枝

视频多模态模型面临更严峻的Token爆炸问题（多帧×每帧数百Token），催生了专门的时空Token压缩方法。

DyCoke（CVPR 2025）采用两阶段策略：prefill阶段进行跨帧时序Token合并（文本无关），解码阶段动态裁剪KV Cache中低注意力视觉Token（文本相关）。PruneVid（ACL 2025）类似地分两阶段——先基于视觉时空冗余合并（文本无关），再利用问题-视觉注意力做选择性剪枝（文本相关）。TempMe（ICLR 2025）则完全在CLIP视觉编码器内操作，通过帧内空间合并（ImgMe）和跨片段时序合并（ClipMe）减少95%输出Token、51% GFLOPs，属于纯文本无关方法。

五、架构级视觉Token压缩

部分方法通过架构设计而非后处理实现Token压缩，介于文本无关和文本相关之间：

Q-Former（BLIP-2, ICML 2023, 约7000+引用）使用32个可学习查询通过交叉注意力从冻结视觉编码器中提取信息，将约257个视觉Token压缩至32个。VQA微调时问题文本直接输入Q-Former，部分文本相关。Perceiver Resampler（Flamingo, NeurIPS 2022, 约4000+引用）用学习型潜在查询通过交叉注意力映射视觉特征到固定数量Token，压缩过程本身文本无关。LLaVA-Mini（ICLR 2025）通过模态预融合+查询式压缩模块将576个视觉Token压缩至仅1个，FLOPs降低77%，可处理10,000+视频帧。

六、两类方法的核心权衡与发展趋势

文本无关型的优势与局限

文本无关方法的核心优势在于可预计算性——视觉Token压缩后可缓存复用，天然适配多轮对话、多query场景和流式应用。VisionZip、DART、DivPrune均兼容FlashAttention，不需要提取注意力矩阵。ACL 2025分析论文（Wen et al.）发现，在标准VQA基准上，简单的均匀采样和池化有时优于复杂的注意力引导方法，挑战了文本相关方法的基本假设。FasterVLM（arXiv 2024）进一步证明，ViT中CLS注意力作为重要性指标比LLM内部的文本-视觉交叉注意力更可靠——后者受注意力漂移和位置偏差的系统性影响。

局限方面，文本无关方法对同一图像无论问什么问题都保留相同Token子集，在极端压缩比下可能丢弃与特定问题相关的关键信息（如OCR场景中的文字区域）。

文本相关型的优势与局限

文本相关方法能根据问题自适应聚焦相关视觉区域（如问”时钟几点”时保留时钟区域Token），在极端压缩下理论上更优。FlashVLM（arXiv 2025）在77.8%压缩比下甚至超越未压缩基线（100.60%相对精度）。

但其代价是：（1）无法预缓存，每次新query都需重新评估所有视觉Token；（2）多数方法需要提取注意力矩阵，与FlashAttention不兼容；（3）注意力偏差问题——RoPE导致位置偏好（FEATHER, ICCV 2025），注意力沉降（attention sinks）导致与文本Token语义的真实相关性被扭曲。

发展趋势

2024-2025年的研究呈现几个明显趋势：（1）方法日益精简——从DynamicViT需要30 epoch训练+蒸馏，到DART仅需计算余弦相似度，复杂度大幅降低；（2）压缩位置前移——越来越多方法在视觉编码器端（LLM之前）完成压缩，避免进入LLM后的计算开销；（3）FlashAttention兼容性成为重要设计约束——DART、TopV、PACT、DivPrune均强调这一点；（4）混合策略兴起——VScan、PruneVid等方法在前端用文本无关策略做初步压缩，在LLM内部用文本相关策略做精细化选择；（5）从”重要性”到”多样性/覆盖度”——DART（去重复）、DivPrune（最大多样性）、SCOPE（覆盖度）代表了超越传统注意力排序的新范式。

七、完整方法对照表

方法	会议/年份	文本无关?	需训练?	压缩位置	压缩比	性能保持	开源
DynamicViT	NeurIPS 2021	✅	需要	ViT内部	66% Token减少	<0.5%↓	✅
EViT	ICLR 2022	✅	需要	ViT内部	30-50% Token减少	0.3%↓	✅
A-ViT	CVPR 2022	✅	需要	ViT内部	自适应	0.3%↓	✅
ToMe	ICLR 2023	✅	不需要	ViT内部	可调节	0.2-0.3%↓	✅
LLaVA-PruMerge	ICCV 2025	✅	可选	视觉编码器	14-18×	基本持平	✅
TokenPacker	IJCV 2025	✅	需要	投影器	75-89%	+0.8%↑	✅
VoCo-LLaMA	CVPR 2025	✅	需要	LLM内（隔离）	最高576×	大幅优于基线	✅
VisionZip	CVPR 2025	✅	不需要	视觉编码器	90% Token减少	~95%保持	✅
DivPrune	CVPR 2025	✅	不需要	视觉编码器	~90% Token减少	16数据集SOTA	✅
DART	EMNLP 2025	✅	不需要	LLM前	88.9% Token减少	可比+减少幻觉	✅
SCOPE	NeurIPS 2025	✅	不需要	视觉编码器	可调节	优于VisionZip	✅
LLaVolta	NeurIPS 2024	✅	训练策略	投影器	70% Token减少	3%↓	✅
TempMe	ICLR 2025	✅	需要	视觉编码器(视频)	95% Token减少	+4.4% R-Sum	✅
FastV	ECCV 2024	❌	不需要	LLM第2层	50% Token减少	近乎无损	✅
PyramidDrop	CVPR 2025	❌	不需要	LLM多阶段	55% FLOPs降低	基本持平	✅
SparseVLM	ICML 2025	❌	不需要	LLM内部	78% Token减少	~93-97%保持	✅
MADTP	CVPR 2024	❌	需要	VLT全局	80% GFLOPs降低	<4%↓	✅
CrossGET	ICML 2024	❌	需要	VLT全局	可调节	微小下降	✅
IVTP	ECCV 2024	❌	不需要	ViT+LLM两阶段	88.9% Token减少	1%↓	—
FitPrune	AAAI 2025	❌	不需要	LLM逐层	54.9% FLOPs降低	0.5%↓	✅
ATP-LLaVA	CVPR 2025	❌	需要	LLM内部	75% Token减少	1.9%↓	✅
TopV	CVPR 2025	❌	不需要	LLM第2层	47% FLOPs降低	0.39%↓	✅
PACT	CVPR 2025	❌	不需要	LLM内部	可调节	优于FastV	✅
FEATHER	ICCV 2025	❌	不需要	LLM内部	可调节	定位任务5×↑	—
LOOK-M	EMNLP 2024	❌	不需要	KV Cache	80-95% KV减少	1.3-1.5×加速	✅
DyCoke	CVPR 2025	混合	不需要	LLM+KV(视频)	显著加速	可比	✅
PruneVid	ACL 2025	混合	不需要	时空+LLM(视频)	>80% Token减少	可比	✅
LLaVA-Mini	ICLR 2025	部分	需要	预融合+压缩	576→1 Token	优于LLaVA-1.5	✅

结论：文本无关方法正在逼近甚至超越文本相关方法

本综述最重要的发现是：文本无关型视觉Token剪枝并非文本相关型的”低配版”，而是一种在实用性和性能间取得独特平衡的技术路线。 2025年的DART、DivPrune、SCOPE等文本无关方法在标准基准上已经能匹配甚至超越FastV、SparseVLM等文本相关方法，同时保持FlashAttention兼容性和预计算缓存能力。ACL 2025分析论文揭示的注意力偏差问题进一步动摇了”文本引导一定更好”的直觉。

对于研究者而言，当前最有潜力的方向包括：（1）超越注意力排序的新Token选择范式（多样性、覆盖度、去重复）；（2）混合策略——视觉编码器端做文本无关粗压缩+LLM内部做文本相关精选择；（3）视频场景的时空联合Token压缩；（4）与高效注意力机制（FlashAttention 3, PagedAttention）的协同设计。对于工程实践，VisionZip和DART因其无需训练、即插即用、兼容高效推理框架的特点，是目前最推荐的文本无关方案起点。

Starry's Blog

Explorer

Pruning 综述