分类框架总览

这批论文大致可以分为 7 类：

语言 / 任务引导型 pruning
利用文本提示、跨模态相关性或任务语义决定保留哪些视觉 token。
视觉内部线索 / 相似性 / 多样性驱动 pruning
不把 text-visual attention 当作唯一依据，而强调视觉显著性、冗余去除、空间覆盖与对象完整性。
跨层动态 / 自适应 pruning policy
不采用固定层、固定比例，而让 pruning 决策随层深、样本复杂度或推理阶段变化。
双阶段 / 全链路压缩
不只在某一模块删 token，而是把视觉编码器与语言模型一起纳入压缩设计。
场景专用 pruning
针对自动驾驶、医学 3D、diffusion VLM、reasoning 等特殊场景做定制设计。
参数 / 结构级 pruning（非 token 为主）
重点不在删输入 token，而在剪枝 backbone、head、层、参数结构。
分析 / 综述类论文
不一定提出新 pruning 方法，但非常适合搭建 related work 与研究问题。

1. 语言 / 任务引导型 pruning

接收会议 / 期刊：Findings of NAACL 2025
发表时间：2025-01-23
引用数量：25
GitHub：—

痛点 / 难点

MLLM 中视觉 token 数量大，推理开销高；如果只依据视觉侧内部信号来裁剪，容易误删和当前问题最相关的区域。

创新点

直接利用语言 token 与视觉 token 的交互信息评估视觉 token 重要性，且方法较轻量，插拔性强。

核心方法

通过 cross-attention 或跨模态相关性估计 vision token 对当前语言上下文的重要性，再进行 pruning；目标是在尽量小的精度损失下显著减小视觉 token 数量。

1.2 LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models

接收会议 / 期刊：ICLR 2026 Poster
发表时间：2026-01-26
引用数量：—
GitHub：—

痛点 / 难点

许多方法默认 “attention 大就更重要”，但作者指出视觉编码器内部 attention 可能存在 attention sink，不足以稳定反映真正重要性。

创新点

把“应该看哪里的 attention”本身当成研究问题：指出 encoder attention 并不总可靠，而 LLM 中层的 text-to-vision attention 更适合作 token pruning 指导。

核心方法

采用两阶段思路：先在视觉编码器后用可学习 pruning 模块去掉冗余 token，再在 LLM 中层依据跨模态 attention 进一步保留与任务更相关的 token。

1.3 ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models

接收会议 / 期刊：arXiv 预印本
发表时间：2025-10-20
引用数量：—
GitHub：—

痛点 / 难点

很多 pruning 方法是 prompt-agnostic，只看视觉冗余而不关心“当前问题到底在问什么”，导致保留 token 与任务不对齐。

创新点

强调 prompt-aware 与 zero-shot / plug-and-play；把 pruning 看成“任务相关性”和“信息多样性”之间的平衡。

核心方法

先提取与 prompt 最相关的一组核心视觉 token，再补充多样性 token，避免只保留高度相似的局部区域。

1.4 Efficient Vision-Language Reasoning via Adaptive Token Pruning

接收会议 / 期刊：NeurIPS 2025
发表时间：2025-12-14
引用数量：9
GitHub：—

痛点 / 难点

reasoning 场景下既要保留足够视觉细节，又要降低推理成本；固定 pruning 很容易在复杂样本上掉性能。

创新点

把视觉内部显著性与图文相关性结合，而不是只依赖单一指标。

核心方法

构造自适应 token pruning 分数，综合视觉侧注意力与图文相似性，保留 top-K 视觉 token 进入后续推理。

1.5 A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

接收会议 / 期刊：CVPR 2025
发表时间：2024-12-04
引用数量：31
GitHub：NUS-HPC-AI-Lab/SGL

痛点 / 难点

若只依赖大模型某几层的局部 attention，很难准确判断 token 重要性；但若聚合大模型全部层信息，代价过高。

创新点

发现小 VLM 聚合得到的注意力模式能够较好近似大 VLM，于是用小模型来指导大模型 pruning，并结合 early exit。

核心方法

先让小 VLM 汇总跨层注意力作为大模型的 pruning 指南；当小模型已经足够自信时可直接早退，不再调用大模型。

2. 视觉内部线索 / 相似性 / 多样性驱动 pruning

2.1 Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

接收会议 / 期刊：ICCV 2025
发表时间：2024-12
引用数量：63
GitHub：Theia-4869/VisPruner

痛点 / 难点

text-visual attention 往往受位置偏置和注意力分散影响，不能稳定地挑出真正该保留的 token。

创新点

把依据从“文本-视觉注意力”扩展到“视觉内部线索”，强调重要 token 选择与重复 token 去除的结合。

核心方法

先利用视觉侧 attention 或显著性筛出关键 token，再依据相似性去除冗余 token，形成 training-free 的 plug-and-play pruning。

2.2 Similarity-Aware Token Pruning: Your VLM but Faster

接收会议 / 期刊：arXiv 预印本
发表时间：2025-03-14
引用数量：14
GitHub：ArmenJeddi/saint

痛点 / 难点

现有 pruning 方法往往依赖训练、固定策略或缺少跨层自适应，难以根据 token 在不同层的演化状态调整压缩率。

创新点

强调 token similarity 与图结构视角，提出 token 在层间会经历不同演化阶段，不同阶段应采用不同 pruning 逻辑。

核心方法

基于 token 相似性和图式优化动态决定 pruning rate 与 redundancy threshold，并支持在不同模块位置进行裁剪。

2.3 Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

接收会议 / 期刊：ICLR 2026
发表时间：2026-03-10
引用数量：1
GitHub：ZhengyaoFang/PruneSID

痛点 / 难点

仅看重要性会保留许多彼此高度重复的 token；只看多样性又可能漏掉真正关键的局部区域。

创新点

明确提出 importance + diversity 的协同建模，并考虑图像复杂度变化下的动态压缩率。

核心方法

先进行语义聚簇，保证语义覆盖；再在簇内做冗余抑制，只保留代表 token，兼顾关键信息与多样性。

2.4 Object-Centric Vision Token Pruning for Vision Language Models

接收会议 / 期刊：arXiv 预印本
发表时间：2025-11-25
引用数量：14
GitHub：GarryLarry010131/OC-VTP

痛点 / 难点

很多方法只能间接猜测 token 重要性，却不能直接保证被保留 token 真的能代表原始视觉内容。

创新点

提出 object-centric 视角，强调被选 token 对原始视觉结构的代表性。

核心方法

训练一个轻量 object-centric token pruner，通过尽量保留对象级结构信息来选择视觉 token；可作为插拔模块接入现有 VLM。

2.5 VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

接收会议 / 期刊：CVPR 2026
发表时间：2025-12-02
引用数量：—
GitHub：Casey-bit/VLMPruner

痛点 / 难点

只看重要性会忽略 token 间冗余；只看冗余又可能忽略空间覆盖，导致保留下来的 token 对目标区域覆盖不完整。

创新点

提出 centrifugal pruning 与 BSS（Buffering for Spatial Sparsity），试图同时兼顾冗余与空间分布。

核心方法

围绕 pivot token 逐渐向外扩张式选择 token；利用 buffer 机制延后选择空间过远 token，并通过聚合策略回收部分被删 token 信息。

3. 跨层动态 / 自适应 pruning policy

3.1 SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

接收会议 / 期刊：arXiv 预印本
发表时间：2026-02-03
引用数量：6
GitHub：—

痛点 / 难点

某些早期层看似不重要的 token，在后续层可能重新变得关键；一次性永久删掉会造成不可逆损失。

创新点

提出 cross-layer token bypass：被当前层判为不重要的 token 并不立刻彻底删除，而是允许后续层重新审视。

核心方法

在若干关键层做 pruning，同时给未选中的 token 提供 bypass 通道，避免过早决策造成信息丢失。

3.2 AutoPrune: Each Complexity Deserves a Pruning Policy

接收会议 / 期刊：NeurIPS 2025（仓库标注）
发表时间：2025-09-28
引用数量：—
GitHub：AutoLab-SAI-SJTU/AutoPrune

痛点 / 难点

固定 pruning schedule 无法同时适配简单样本与复杂样本；不同复杂度输入本应享受不同预算。

创新点

把 pruning policy 与样本复杂度显式绑定，提出 complexity-adaptive 的保留策略。

核心方法

用视觉-文本 token 之间的互信息或复杂度估计构造 retention curve，在预算约束下为不同输入分配不同层保留率。

3.3 SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

接收会议 / 期刊：LREC-COLING 2024
发表时间：2023-05（arXiv）；2024 proceedings
引用数量：16
GitHub：kugwzk/SmartTrim

痛点 / 难点

不同样本的冗余模式不一样，既存在 token 冗余，也存在 attention head 冗余。

创新点

不只裁 token，还同时裁剪 attention head，并且是 instance-adaptive。

核心方法

在模型中插入轻量模块，逐层识别并剪去冗余 token 与冗余 head；再通过 self-distillation 维持压缩后模型输出质量。

3.4 POP: Prefill-Only Pruning for Efficient Large Model Inference

接收会议 / 期刊：arXiv 预印本
发表时间：2026-02-03
引用数量：—
GitHub：—

痛点 / 难点

prefill 阶段与 decode 阶段的计算角色不同，若对二者采用同样的剪枝策略，容易影响生成质量。

创新点

提出 prefill-only pruning：只在 prefill 阶段省层或省算，decode 阶段尽量保持完整结构。

核心方法

分析层在 prefill / decode 中的功能差异，只在 prefill 阶段对部分层进行裁减，同时通过 KV 相关设计降低对 decode 的负面影响。

注：这篇更偏 阶段感知的层级裁剪，不是典型视觉 token pruning，但对 efficient inference 的思路很有参考价值。

4. 双阶段 / 全链路压缩

4.1 DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

接收会议 / 期刊：CVPR 2026
发表时间：2026-02-21
引用数量：—
GitHub：AMD-AGI/DUET-VLM

痛点 / 难点

只在视觉编码器里做 merge，或只在 LLM 里逐层 drop token，常常难以同时兼顾精度与加速。

创新点

提出双阶段统一压缩框架，把视觉侧压缩与语言侧逐层 token reduction 组合起来考虑。

核心方法

第一阶段在视觉编码器输出后进行冗余感知压缩，得到更紧凑的视觉 token；第二阶段在 LLM 内进一步按层做文本引导的 token dropping。

4.2 Towards Lossless Ultimate Vision Token Compression for VLMs

接收会议 / 期刊：arXiv / CoRR
发表时间：2025-12-09
引用数量：—
GitHub：THU-MIG/VTC-CLS（公开信息待二次核验）

痛点 / 难点

高分辨率图像 / 视频产生极多视觉 token，现有方法容易受位置偏置与跨模态交互弱的问题影响，很难做到“极限压缩而几乎不掉点”。

创新点

把 token compression 推进到视觉编码器与 LLM 全链路，并尝试把视觉 token 逐步压缩到极低数量。

核心方法

在视觉编码器端做迭代式 merging，在 LLM 中结合频域 / 低通思想继续裁减视觉 token，追求近乎无损的极限压缩。

5. 场景专用 pruning

5.1 Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

接收会议 / 期刊：CVPR 2026
发表时间：2025-08-18
引用数量：7
GitHub：MinhaoXiong/Prune2Drive

痛点 / 难点

自动驾驶是多视角、高分辨率输入，不同相机视角的重要性不同，token 冗余远高于普通单图任务。

创新点

显式考虑 view importance 与跨视角覆盖，而不是把所有相机 token 混在一起统一裁剪。

核心方法

用 diversity-aware token selection 保证空间和语义覆盖，再用 view-adaptive controller 为不同摄像头分配不同 pruning ratio。

5.2 MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

接收会议 / 期刊：arXiv 预印本
发表时间：2026-03-12
引用数量：—
GitHub：—

痛点 / 难点

3D 医学数据通常由大量切片组成，存在很强的解剖冗余；固定 token 预算无法适应不同 slice 的信息密度差异。

创新点

提出面向 3D 医学影像的分层式、training-free pruning 策略。

核心方法

对 slice / 局部区域做分层筛选与压缩，以更低成本保留临床关键结构信息。

5.3 RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning

接收会议 / 期刊：arXiv 预印本
发表时间：2025-11-16
引用数量：—
GitHub：Blacktower27/RedVTP

痛点 / 难点

大多数 token pruning 工作面向自回归 VLM，而 diffusion VLM 的推理过程不同，很多方法无法直接迁移。

创新点

利用 diffusion 过程中 masked response token 的注意力去引导视觉 token pruning。

核心方法

在早期推理步骤估计视觉 token 分数，并利用这些分数在后续 step 中持续裁剪视觉 token，从而加速 diffusion VLM 推理。

5.4 Efficient Vision-Language Reasoning via Adaptive Token Pruning

补充定位

这篇也可以放在 reasoning-oriented / scenario-specific pruning 下面，因为它关注的是在 reasoning 任务和边缘部署约束下如何做更稳健的 token pruning。

6. 参数 / 结构级 pruning（非 token 为主）

6.1 Vision Transformer Pruning

接收会议 / 期刊：arXiv 预印本
发表时间：2021-04
引用数量：119
GitHub：复现仓库 mclearntorock/Vision-Transformer-Pruning

痛点 / 难点

ViT 参数量大、计算开销高，部署成本高。

创新点

重点不在删输入 token，而在寻找 transformer 中可结构化裁剪的冗余维度。

核心方法

通过促进 transformer 内部的 dimension-wise sparsity，识别重要维度并进行结构化 pruning。

6.2 Isomorphic Pruning for Vision Models

接收会议 / 期刊：ECCV 2024
发表时间：2024-07（arXiv）；2024-10 online
引用数量：42
GitHub：VainF/Isomorphic-Pruning

痛点 / 难点

视觉模型由多种异构结构组成，若直接跨结构比较重要性，容易失真。

创新点

提出只在同构子结构内部做重要性排序和比较，避免异构模块间不可比问题。

核心方法

把模型拆成若干同构结构单元，在各自内部执行 ranking 与剪枝，再汇总形成整体 pruning 方案。

6.3 MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

接收会议 / 期刊：CVPR 2024
发表时间：2024-04-08
引用数量：14
GitHub：FarinaMatteo/multiflow

痛点 / 难点

许多 VLM 参数剪枝方法是 task-specific，换任务后往往需要重新剪枝。

创新点

提出 task-agnostic VLM pruning，希望获得能迁移到多个任务的统一 pruned model。

核心方法

采用 gradient-free 框架，结合参数幅值与 information flow 等指标评估参数重要性，对 VLM 做任务无关剪枝。

6.4 Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

接收会议 / 期刊：ACM SIGMETRICS Performance Evaluation Review 53(2)
发表时间：2024-04（arXiv）；2025-08 刊出
引用数量：5
GitHub：Shwai-He/RESSA

痛点 / 难点

VLM 稀疏化不只是“剪哪里”，还包括“剪完如何恢复”；常规 LoRA 恢复未必与稀疏结构兼容。

创新点

把研究问题拆成两部分：模态间 sparsity 分配策略，以及稀疏后性能恢复策略；提出 SparseLoRA 思路。

核心方法

研究 vision / language 两部分不同稀疏配置的效果，并在恢复阶段对 LoRA 施加与稀疏结构兼容的约束。

7. 分析 / 综述类

7.1 Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

接收会议 / 期刊：Findings of ACL 2025
发表时间：2025-02-17
引用数量：50
GitHub：—

定位

这篇更像系统诊断与反思，不是单纯提出新 pruning 算法。

它关注的问题

作者追问：为什么很多 pruning 方法甚至不如随机选择？attention-based 指标到底是否可靠？语言信息是否真的有效？评测协议是否公平？

价值

非常适合写 related work 中的“现有方法局限”和“评测陷阱”。

7.2 When Does Pruning Benefit Vision Representations?

接收会议 / 期刊：ICIAP 2025
发表时间：2025-07（arXiv）；2026-01 online
引用数量：约 13
GitHub：EIDOSLAB/pruning-for-vision-representation

定位

更偏机制分析，而不是 VLM token pruning 方法论文。

它关注的问题

剪枝何时真正有助于视觉表示能力、可解释性、对象发现能力与人类感知一致性。

价值

它提醒我们：pruning 并不是越多越好，不同架构、任务、稀疏程度之间存在明显 trade-off。

7.3 Small Vision-Language Models: A Technical Survey

接收会议 / 期刊：公开可检索书目信息有限，未见稳定公开接收信息
发表时间：2025
引用数量：—
GitHub：—

定位

这是 survey，不是 pruning 方法论文。

价值

更适合作为 efficient / small VLM 研究背景材料，把 pruning 放到更大的技术图景中理解，例如与 distillation、resolution control、cache / memory optimization、architecture co-design 等路线对照。

五条方法主线

主线 A：Text-guided / Prompt-aware

代表论文：

LVPruning
LearnPruner
ZSPAPrune
A Stitch in Time Saves Nine

核心问题

如何保留“与当前问题相关”的 token，而不是只保留视觉上显著的 token。

适合继续研究的方向

任务自适应 / query-aware pruning policy，或者在 reasoning 过程中动态重估 token 重要性。

主线 B：Visual cue / Similarity / Diversity

代表论文：

Beyond Text-Visual Attention
Similarity-Aware Token Pruning
PruneSID
Object-Centric VTP
VLM-Pruner

核心问题

仅依赖 text-visual attention 不够，还需要考虑视觉显著性、token 相似度、对象完整性与空间覆盖。

适合继续研究的方向

importance 与 redundancy 的联合建模；如何在极低 token 预算下仍保持对象级完整语义。

主线 C：Dynamic / Cross-layer Policy

代表论文：

SwiftVLM
AutoPrune
SmartTrim
POP

核心问题

固定 pruning ratio / 固定层策略过于僵硬。

适合继续研究的方向

不同层、不同样本复杂度、不同推理阶段是否应该分配不同预算；如何让早期删掉的 token 还能被后续层“追回”。

主线 D：Full-pipeline Compression

代表论文：

DUET-VLM
Towards Lossless Ultimate Vision Token Compression for VLMs

核心问题

只在某一处剪往往不够，更系统的方法开始做视觉编码器与 LLM 协同压缩。

适合继续研究的方向

设计统一压缩目标，使视觉侧压缩与语言侧 token reduction 彼此配合，而不是互相伤害。

主线 E：Domain-specific Pruning

代表论文：

Prune2Drive
MedPruner
RedVTP
Efficient Vision-Language Reasoning via Adaptive Token Pruning

核心问题

不同场景中的冗余形式差异很大，多视角驾驶、3D 医学、diffusion 推理与通用单图 VLM 的 pruning 难点并不相同。

适合继续研究的方向

场景驱动的 pruning 设计；任务可靠性约束下的自适应预算分配。

总结

总体来看，VLM pruning 的研究已经从早期“基于 attention 的粗粒度删 token”，逐步转向更细致的三类能力：

任务感知：保留真正服务当前 query 的 token。
冗余建模：不仅看重要性，也看重复性、空间覆盖和对象完整性。
动态策略：根据层深、样本复杂度、推理阶段甚至具体场景自适应调整 pruning policy。

与此同时，研究边界也在扩展：

一部分工作从 token pruning 走向 全链路 compression；
一部分工作转向 参数 / 结构稀疏化；
还有一些工作开始批判性地分析 pruning 的真正收益、评测协议与失效原因。

速查表

论文	分类	会议 / 期刊	时间	引用	GitHub
LVPruning	语言/任务引导	Findings of NAACL 2025	2025-01-23	25	—
LearnPruner	语言/任务引导	ICLR 2026 Poster	2026-01-26	—	—
ZSPAPrune	语言/任务引导	arXiv	2025-10-20	—	—
Efficient Vision-Language Reasoning via ATP	语言/任务引导 / 场景专用	NeurIPS 2025	2025-12-14	9	—
A Stitch in Time Saves Nine	语言/任务引导	CVPR 2025	2024-12-04	31	NUS-HPC-AI-Lab/SGL
Beyond Text-Visual Attention	视觉线索/相似性	ICCV 2025	2024-12	63	Theia-4869/VisPruner
Similarity-Aware Token Pruning	视觉线索/相似性	arXiv	2025-03-14	14	ArmenJeddi/saint
PruneSID	视觉线索/相似性	ICLR 2026	2026-03-10	1	ZhengyaoFang/PruneSID
Object-Centric VTP	视觉线索/相似性	arXiv	2025-11-25	14	GarryLarry010131/OC-VTP
VLM-Pruner	视觉线索/相似性	CVPR 2026	2025-12-02	—	Casey-bit/VLMPruner
SwiftVLM	动态/跨层	arXiv	2026-02-03	6	—
AutoPrune	动态/跨层	NeurIPS 2025	2025-09-28	—	AutoLab-SAI-SJTU/AutoPrune
SmartTrim	动态/跨层	LREC-COLING 2024	2023-05 / 2024	16	kugwzk/SmartTrim
POP	动态/跨层（阶段感知）	arXiv	2026-02-03	—	—
DUET-VLM	全链路压缩	CVPR 2026	2026-02-21	—	AMD-AGI/DUET-VLM
Towards Lossless Ultimate Vision Token Compression	全链路压缩	arXiv / CoRR	2025-12-09	—	THU-MIG/VTC-CLS（待核验）
Prune2Drive	场景专用	CVPR 2026	2025-08-18	7	MinhaoXiong/Prune2Drive
MedPruner	场景专用	arXiv	2026-03-12	—	—
RedVTP	场景专用	arXiv	2025-11-16	—	Blacktower27/RedVTP
Vision Transformer Pruning	参数/结构级	arXiv	2021-04	119	mclearntorock/Vision-Transformer-Pruning
Isomorphic Pruning for Vision Models	参数/结构级	ECCV 2024	2024-07 / 2024-10	42	VainF/Isomorphic-Pruning
MULTIFLOW	参数/结构级	CVPR 2024	2024-04-08	14	FarinaMatteo/multiflow
Rethinking Pruning for VLMs	参数/结构级	ACM SIGMETRICS PER	2024-04 / 2025-08	5	Shwai-He/RESSA
Are We Solving the Right Problem?	分析/反思	Findings of ACL 2025	2025-02-17	50	—
When Does Pruning Benefit Vision Representations?	分析/机制	ICIAP 2025	2025-07 / 2026-01	约13	EIDOSLAB/pruning-for-vision-representation
Small Vision-Language Models: A Technical Survey	Survey	公开接收信息有限	2025	—	—

Starry's Blog

Explorer

VLM Pruning 调研

分类框架总览

1. 语言 / 任务引导型 pruning

1.1 LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models

1.2 LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models

1.3 ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models

1.4 Efficient Vision-Language Reasoning via Adaptive Token Pruning

1.5 A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

2. 视觉内部线索 / 相似性 / 多样性驱动 pruning

2.1 Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

2.2 Similarity-Aware Token Pruning: Your VLM but Faster

2.3 Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

2.4 Object-Centric Vision Token Pruning for Vision Language Models

2.5 VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

3. 跨层动态 / 自适应 pruning policy

3.1 SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

3.2 AutoPrune: Each Complexity Deserves a Pruning Policy

3.3 SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

3.4 POP: Prefill-Only Pruning for Efficient Large Model Inference

4. 双阶段 / 全链路压缩

4.1 DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

4.2 Towards Lossless Ultimate Vision Token Compression for VLMs

5. 场景专用 pruning

5.1 Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

5.2 MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

5.3 RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning

5.4 Efficient Vision-Language Reasoning via Adaptive Token Pruning

6. 参数 / 结构级 pruning（非 token 为主）

6.1 Vision Transformer Pruning

6.2 Isomorphic Pruning for Vision Models

6.3 MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

6.4 Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

7. 分析 / 综述类

7.1 Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

7.2 When Does Pruning Benefit Vision Representations?

7.3 Small Vision-Language Models: A Technical Survey

五条方法主线

主线 A：Text-guided / Prompt-aware

主线 B：Visual cue / Similarity / Diversity

主线 C：Dynamic / Cross-layer Policy

主线 D：Full-pipeline Compression

主线 E：Domain-specific Pruning

总结

速查表

Graph View

Table of Contents