VLM Pruning 方法综述报告

本报告系统梳理了视觉-语言模型（VLM）剪枝领域的代表性研究工作，涵盖方法体系概述、分类框架，以及图中所列每篇论文的痛点分析、创新点、核心方法、发表信息、引用数与代码资源。

一、VLM Pruning 背景与整体概述

随着 LLaVA、InternVL、Qwen-VL、Flamingo 等大型视觉-语言模型在多模态理解任务中取得突破，推理计算开销成为工业部署的核心瓶颈。VLM 的计算负担主要来自两个方面：

模型参数量庞大：视觉编码器（ViT）与大型语言模型（LLM）各自拥有数十亿参数，显存和延迟代价极高。
视觉 Token 数量冗余：每张图像经 ViT 编码后通常产生数百至数千个 Token（如 LLaVA-NeXT 可达 2880 个），但其中大多数 Token 对下游任务贡献有限，却在 LLM 自注意力中引入 O(N²) 的二次计算复杂度。

剪枝（Pruning） 是应对上述问题的核心技术路径之一，可分为两大维度：

权重剪枝（Weight Pruning）：移除模型中冗余的参数或结构单元，直接压缩模型尺寸；
Token 剪枝（Token Pruning / Visual Token Compression）：在推理过程中识别并丢弃对任务贡献较小的视觉 Token，减少 LLM 处理的序列长度。

二、方法分类体系

类别 A｜结构化权重剪枝（Structured Weight Pruning）

通过移除整块结构单元（通道、注意力头、整层）压缩模型参数量，可直接实现推理加速，适合硬件部署。
代表论文：Vision Transformer Pruning、Isomorphic Pruning、MULTIFLOW、Rethinking Pruning for VLMs

类别 B｜任务无关权重剪枝（Task-Agnostic Weight Pruning）

在不依赖下游任务标注的前提下对 VLM 进行一次性剪枝，所得稀疏模型可迁移至多个未知任务。
代表论文：MULTIFLOW

类别 C｜文本无关型视觉 Token 剪枝（Text-Agnostic Visual Token Pruning）

仅依赖视觉特征自身（CLS 注意力、特征相似度）评估 Token 重要性，无需跨模态信息，延迟低，可在 LLM 之前完成剪枝，兼容 FlashAttention。
代表论文：VisPruner、Towards Lossless Vision Token Compression、Object-Centric Vision Token Pruning、SAINT、VLM-Pruner

类别 D｜文本引导型视觉 Token 剪枝（Text-Guided Visual Token Pruning）

利用语言指令或文本-视觉注意力评估视觉 Token 与当前任务的相关性，针对性地保留任务关键 Token。
代表论文：LVPruning、ZSPAPrune、SGL（A Stitch in Time Saves Nine）、LEARNPRUNER、ATP

类别 E｜自适应 / 动态 Token 剪枝（Adaptive & Dynamic Token Pruning）

根据输入样本或任务复杂度动态调整剪枝率与策略，避免固定剪枝计划带来的次优结果。
代表论文：AutoPrune、SmartTrim、DUET-VLM、SwiftVLM

类别 F｜阶段感知剪枝（Stage-Aware Pruning）

区分模型推理的不同阶段（prefill 与 decode）对参数的差异化需求，针对特定阶段进行专属剪枝。
代表论文：POP

类别 G｜领域专用 VLM 剪枝（Domain-Specific Pruning）

针对自动驾驶、医学影像、扩散模型等特定垂直场景定制的 VLM 加速方案。
代表论文：Prune2Drive、MedPruner、RedVTP、Prune Redundancy Preserve Essence

类别 H｜分析性 / 综述性工作（Analysis & Survey）

对现有剪枝方法进行系统综述、反思与评估，厘清领域核心问题。
代表论文：Token Pruning: Are We Solving the Right Problem?、Small VLMs: A Technical Survey、When Does Pruning Benefit?

三、各论文详细解析

📌 类别 A & B：权重剪枝

📄 Vision Transformer Pruning (VTP)

字段	信息
作者	Mingjian Zhu, Yehui Tang, Kai Han（华为诺亚方舟实验室）
arXiv	2104.08500
发表时间	2021年4月
录用会议	arXiv 预印本
引用数	~200+
GitHub	无独立仓库（方法已集成至多个剪枝库）

痛点难点：ViT 参数规模庞大（ViT-Base ~86M），严重制约移动端部署。已有剪枝方法主要针对 CNN，缺乏专门为 Transformer 中 MSA 和 MLP 设计的结构化剪枝方案，如何有效识别并剪除 ViT 各层维度中不重要的特征是核心难题。

创新点：提出首个专门面向 Vision Transformer 的维度级结构化剪枝方法——通过鼓励各层线性投影维度上的稀疏性，让重要维度自动涌现，以高剪枝率实现高精度保留。

核心方法：

稀疏正则化训练：对每层线性投影的通道维度引入 L1 稀疏惩罚，使不重要维度权重趋于零；
维度剪枝：按重要性排序剪除冗余维度，同时针对 MSA 的 Q/K/V 投影和 MLP 层；
微调恢复：短周期微调恢复精度，整体三阶段流程（训练 → 剪枝 → 微调）。

📄 Isomorphic Pruning for Vision Models

字段	信息
作者	Gongfan Fang, Xinyin Ma, Michael Bi Mi, Xinchao Wang（新加坡国立大学、华为）
arXiv	2407.04616
发表时间	2024年7月
录用会议	ECCV 2024
引用数	~60+
GitHub	https://github.com/VainF/Isomorphic-Pruning

痛点难点：结构化剪枝常用全局重要性排序，但 ViT、CNN 等模型包含自注意力、深度可分离卷积、残差连接等异构子结构，其参数尺度、权重分布和计算拓扑差异悬殊，导致全局排序结果严重偏斜——不同类型结构之间的重要性无法直接比较。

创新点：提出同构剪枝（Isomorphic Pruning）：将计算拓扑相同（isomorphic）的子结构归组，在组内独立排序和剪枝，完全自动化，无需手工分析网络拓扑，已集成至 Torch-Pruning v1.4.1。

核心方法：

将模型建模为有向计算图，通过图同构检测自动识别并归组相同拓扑的子结构；
在每个同构组内部独立进行数据驱动的重要性估计与排序；
剪枝后微调恢复精度，DeiT-Base 剪枝后 ImageNet Top-1 达 82.41%，优于同等计算量下从头训练。

📄 MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

字段	信息
作者	Matteo Farina, Massimiliano Mancini, Elia Cunegatti, Gaowen Liu, Giovanni Iacca, Elisa Ricci（University of Trento / Cisco Research）
arXiv	2404.05621
发表时间	2024年4月
录用会议	CVPR 2024
引用数	~50+
GitHub	https://github.com/FarinaMatteo/multiflow

痛点难点：现有 VLM 剪枝方法均为任务特定（Task-Specific）——面对新任务需从头重新剪枝，且依赖梯度计算，效率低下。如何在不知道目标任务的前提下剪枝，同时保持跨任务的迁移表示能力是关键难题。

创新点：首次形式化定义”任务无关视觉-语言剪枝”（TA-VLP）设定，提出无梯度（gradient-free）框架 MULTIFLOW，速度比同类梯度方法快约 41×，一次剪枝可迁移至多个未知下游任务。

核心方法：

将每层建模为二部图，参数重要性同时考虑：① 幅度（magnitude）；② 信息流（information flow，即参数所连接的输入/输出节点信号强度）；
按模态分布解耦引导（视觉/文本/融合模块独立参考各自分布），避免跨模态偏置；
在 XVLM、BLIP 两个 VLM，三种视觉-语言任务和三种稀疏度（63%/75%/90%）下超越 8 种 SOTA 基线。

📄 Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

字段	信息
作者	Shwai He 等
arXiv	2404.02424
发表时间	2024年4月
录用会议	arXiv 预印本
引用数	~25+
GitHub	见论文链接

痛点难点：VLM 剪枝策略研究严重不足：① 如何在视觉编码器和语言模型之间合理分配稀疏度？② 传统 LoRA 微调与稀疏模型根本不兼容——合并 ΔW 后破坏稀疏模式，不合并则引入推理延迟。

创新点：系统性实验揭示有效剪枝策略，并提出 SparseLoRA：将稀疏掩码直接施加于 LoRA 增量权重 ΔW，确保合并后主干权重保持稀疏模式，彻底解决 LoRA 与稀疏模型的不兼容问题。

核心方法：采用 SparseGPT/Wanda 进行权重稀疏化；SparseLoRA 在训练时屏蔽被剪枝位置的梯度更新；实验验证：2:4 结构化稀疏下提升 11.3%，非结构化 70% 稀疏下提升 47.6%。

📄 POP: Prefill-Only Pruning for Efficient Large Model Inference

字段	信息
作者	Junhui He, Zhihui Fu, Jun Wang, Qingan Li（武汉大学 / OPPO Research）
arXiv	2602.03295
发表时间	2026年2月
录用会议	arXiv 预印本
引用数	待统计
GitHub	暂未开源

痛点难点：现有结构化剪枝（如层剪枝）是”阶段无感知的”——对 prefill 和 decode 阶段使用相同缩减架构。然而两阶段对层的需求截然不同：深层对 decode（next-token 预测）至关重要，但对 prefill（上下文编码）高度冗余。

创新点：首次明确区分 prefill/decode 两阶段的剪枝需求，提出仅在 prefill 阶段跳过深层，decode 阶段保留完整架构——在不影响生成质量的前提下大幅加速上下文编码。

核心方法：

引入虚拟门机制分析各层对两阶段的差异化重要性；
对被跳过层引入独立 KV 投影，在 prefill 时仍能为 decode 阶段生成 KV 缓存；
设计边界处理确保首个生成 Token 精度不受影响；在 Llama-3.1、Qwen3-VL、Gemma-3 等模型上验证有效性。

📌 类别 C：文本无关型视觉 Token 剪枝

📄 Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs (VisPruner)

字段	信息
作者	Qizhe Zhang, Aosong Cheng, Ming Lu, Renrui Zhang 等（北京大学 / 中科院自动化所）
arXiv	2412.01818
发表时间	2024年12月
录用会议	ICCV 2025
引用数	~60+
GitHub	https://github.com/Theia-4869/VisPruner

痛点难点：大多数方法用 LLM 内部的文本-视觉注意力评估 Token 重要性。作者首次量化其两大缺陷：① 注意力偏移——RoPE 位置编码长程衰减导致文本 Token 偏向关注序列靠后的视觉 Token（位置偏置）；② 注意力分散——权重过于均匀，难以区分重要与不重要 Token。

创新点：发现并量化文本-视觉注意力的系统性缺陷，转而使用视觉编码器 CLS 注意力作为更可靠的重要性指示器，在 LLM 之前完成剪枝，天然兼容 FlashAttention。

核心方法：

用 ViT CLS Token 对各视觉 patch 的注意力分数选取显著 Token；
从剩余 Token 中基于余弦相似度去除重复，保留多样性 Token；
将两者合并送入 LLM，最大化视觉信息覆盖；
在 13 个图像和视频基准（10 image + 3 video）上显著超越基于文本-视觉注意力的同类方法。

📄 Towards Lossless Ultimate Vision Token Compression for VLMs

字段	信息
作者	Zheng 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：现有 Token 压缩方法在高压缩比下存在明显信息损失——简单丢弃 Token 的方式无法保留被移除 Token 携带的信息，极端压缩场景下性能大幅下滑，难以实现”无损”极限压缩。

创新点：探索在接近无损前提下实现极高视觉 Token 压缩率，研究如何在最高压缩比下维持模型性能上界。

核心方法：结合 Token 重要性评分与信息蒸馏/融合机制，对被压缩 Token 的信息进行有效保留与再注入，在极高剪枝率（>95%）下仍能保持竞争性性能。

📄 Object-Centric Vision Token Pruning for Vision Language Models

字段	信息
作者	Li 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：大多数 Token 剪枝方法缺乏对图像语义结构的理解，无法区分前景目标区域与背景，在高剪枝率下会丢失对 VQA、视觉推理至关重要的目标级语义信息。

创新点：引入以目标为中心（Object-Centric）的剪枝视角，将目标级语义完整性纳入 Token 保留决策，确保重要语义目标的区域不被破坏性剪枝。

核心方法：利用目标检测/分割先验识别显著目标区域，将 Token 保留与目标区域空间对齐，优先保留包含完整目标语义的 patch，对目标区域内部进一步区分重要性。

📄 Similarity-Aware Token Pruning: Your VLM but Faster (SAINT)

字段	信息
作者	Jeddi 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	见论文（已开源）

痛点难点：现有 training-free 剪枝方法仅基于单层注意力分数评估 Token 重要性，忽略了 Transformer 层间 Token 演化规律中蕴含的丰富冗余信号；且固定剪枝阈值无法适应不同层间 Token 分布差异。

创新点：系统发现并利用 Transformer 中 Token 演化的三段式规律（aligner-explorer-aggregator），提出基于相似度图模型的动态跨层剪枝框架，无需训练，支持 ViT-only、LLM-only 和混合模式。

核心方法：分析早期（aligner）、中期（explorer）、后期（aggregator）三阶段，早期 Token 可激进压缩；基于余弦相似度构建 Token 图模型，动态优化各层剪枝率；ViT-H/14 在 224px 下实现 2× 吞吐提升，ImageNet Top-1 损失仅 0.6%。

📄 VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

字段	信息
作者	Wu 等
arXiv	2512.02700
发表时间	2024年12月
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：现有方法在高剪枝率（>88%）下空间结构破坏严重：重要性打分方法倾向于选择局部聚集的显著 Token，导致空间覆盖不足；直接丢弃 Token 导致细粒度信息（OCR、定位等任务关键）永久丢失。

创新点：提出离心式 Token 剪枝（Centrifugal Token Pruning）范式，引入空间稀疏性缓冲机制（BSS），在极高剪枝率下同时保持 Token 空间多样性和细粒度信息。

核心方法：

BSS 准则：延迟引入空间距离较远的 Token，确保保留 Token 在空间上分散（离心布局）；
并行贪心选择：高效实现 Token 选取；
相似度加权聚合：将被丢弃 Token 的显著信息融合至最近保留 Token；
在 5 个 VLM、13 个基准上，88.9% 剪枝率下一致超越强基线，OCRBench 等细节敏感任务上优势突出。

📌 类别 D：文本引导型视觉 Token 剪枝

字段	信息
作者	Yizheng Sun, Yanze Xin, Hao Li, Jingyuan Sun, Chenghua Lin, Riza Batista-Navarro（曼彻斯特大学 / 帝国理工学院）
arXiv	2501.13652
发表时间	2025年1月
录用会议	NAACL 2025 Findings（pp. 4299–4308）
引用数	~30+
GitHub	见论文（已开源）

痛点难点：纯视觉特征驱动的 Token 压缩方法无法利用语言-视觉交互信息；而大多数语言引导方法需修改原始模型参数，兼容性差，难以即插即用。

创新点：提出轻量跨注意力模块精准评分，无需修改原始 MLLM 任何参数，完全 plug-and-play，兼容任意基于 Transformer 的 MLLM 架构。

核心方法：

在 MLLM 特定中间层插入 LVPruning 跨注意力模块，以视觉 Token 为 Query、语言 Token 为 Key/Value；
根据交叉注意力分数为每个视觉 Token 预测保留/丢弃决策，原始模型参数完全冻结；
联合因果语言建模损失和剪枝率损失训练；
削减高达 90% 视觉 Token，推理 TFLOPs 降低 62.1%，9 个基准平均性能损失仅 0.45%。

📄 ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models

字段	信息
作者	Pu Zhang, Yuwei Li, Xingyuan Xian, Guoming Tang（香港科技大学（广州））
arXiv	2510.17197
发表时间	2025年10月
录用会议	arXiv 预印本
引用数	待统计
GitHub	待开源

痛点难点：现有 Token 剪枝方法普遍忽略文本 Prompt 的语义引导，无法在 zero-shot 设置下优先保留与用户意图相关的视觉 Token，在强语言依赖任务上效果不佳。

创新点：首次从 prompt-aware 视角建模 zero-shot 视觉 Token 剪枝问题，形式化为任务相关性与信息多样性之间的平衡优化，全程无需训练或微调。

核心方法：

第一阶段：Prompt 嵌入与视觉 Token 余弦相似度选取”核心任务相关 Token”；
第二阶段：MMR 贪心策略选取”多样性补充 Token”；
将两类 Token 合并送入 LLM，在多个 VLM 和基准上与 SOTA 持平甚至超越。

📄 A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs (SGL)

字段	信息
作者	Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You（NUS / 阿里巴巴 DAMO / UT Austin）
arXiv	2412.03324
发表时间	2024年12月
录用会议	CVPR 2025（pp. 19814–19824）
引用数	~80+
GitHub	https://github.com/NUS-HPC-AI-Lab/SGL

痛点难点：作者通过实验揭示三个关键发现：① 单层注意力不足以精准识别关键视觉 Token，FastV 在低保留率下性能急剧下降；② 全层聚合注意力效果好，但需完整推理 pass，本身就是被加速的对象；③ 小模型的全层聚合注意力与大模型高度相似，可作为高效替代。

创新点：首次提出”以小型 VLM 的全层聚合注意力引导大型 VLM 的 Token 剪枝”的协同推理框架（SGL），同时引入小模型早退机制（SEE）进一步降低计算量。

核心方法：

SGP：小型 VLM（如 InternVL-2B）跑完整推理，聚合所有层/头的注意力分数，生成全局 Token 重要性排名，作为大型 VLM（如 InternVL-26B/76B）剪枝先验；
SEE：评估小模型预测置信度，超过阈值则直接使用小模型答案，完全跳过大模型；
在 11 个基准上验证，视觉 Token 剪枝率高达 91% 仍保持竞争性性能。

📄 LEARNPRUNER: Rethinking Attention-Based Token Pruning in Vision Language Models

字段	信息
作者	Takezoe 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：主流方法直接将注意力分数用于 Token 重要性打分，但这些分数并非为剪枝目的而设计，与最终任务输出质量之间存在系统性偏差，导致基于注意力的剪枝存在内在局限。

创新点：系统性反思注意力启发式规则的局限性，提出可学习的 Token 评分器，通过任务导向训练信号学习更准确的 Token 重要性度量，从根本上替代注意力启发式规则。

核心方法：训练轻量可学习评分模块，以任务损失为监督直接优化 Token 重要性预测；评分器与 VLM 联合训练，使重要性评估与下游任务性能直接对齐；在细粒度视觉任务上优势明显。

📄 Efficient Vision-Language Reasoning via Adaptive Token Pruning (ATP)

字段	信息
作者	Xue Li 等
arXiv	2512.12701
发表时间	2024年12月
录用会议	arXiv 预印本
引用数	~15+
GitHub	暂未开源

痛点难点：VLM 对所有视觉 Token 一视同仁处理，大量背景 patch 贡献极小，造成计算浪费；已有方法要么纯视觉无关文本，要么需修改模型结构，难以实现轻量自适应剪枝。

创新点：提出混合重要性评分（Hybrid Importance Score），将 ViT 内视觉显著性（CLS 注意力）与 CLIP 跨模态相关性（文本-图像相似度）统一融合，无需训练或修改骨干网络，兼容 BLIP-2、LLaVA、Flamingo 等主流架构。

核心方法：

视觉显著性（ViT CLS 注意力）+ 跨模态相关性（CLIP 余弦相似度）加权组合为混合分数；
保留 Top-K Token 送入 LLM；
VQAv2、GQA、COCO 上减少约 40% FLOPs，端到端延迟加速约 1.5×，准确率损失 <1%。

📌 类别 E：自适应 / 动态 Token 剪枝

📄 AutoPrune: Each Complexity Deserves a Pruning Policy

字段	信息
作者	Hanshi Wang, Yuhao Xu, Zekun Xu, Jin Gao, Yufan Liu, Weiming Hu, Ke Wang, Zhipeng Zhang（上海交通大学 AutoLab）
arXiv	2509.23931
发表时间	2025年9月
录用会议	NeurIPS 2025
引用数	~10+
GitHub	https://github.com/AutoLab-SAI-SJTU/AutoPrune

痛点难点：现有 training-free 方法采用固定剪枝计划——对不同输入统一应用相同剪枝率曲线，无法适应样本复杂度差异：简单样本无法激进剪枝（浪费效率），复杂样本无法保守剪枝（损失性能）。认知科学表明人类视觉处理遵循”先广泛探索、后聚焦”规律，而固定策略无法模拟此过程。

创新点：首次从认知神经科学角度系统分析 VLM 中样本与任务复杂度对 Token 保留模式的影响，提出通过 Sigmoid 型保留曲线（logistic retention curve）为每个输入生成个性化剪枝策略，且在给定计算预算下保证全局约束。

核心方法：

计算视觉-文本 Token 间互信息量化输入复杂度；
将复杂度映射为 Sigmoid 保留曲线，斜率/拐点由互信息线性调制；简单样本→早期激进剪枝；复杂样本→晚期保守剪枝；
解析积分对曲线归一化，保证 Token/FLOPs 预算约束；
支持 VLM（LLaVA-1.5/NeXT）和 VLA（自动驾驶 Senna）。

实验结果：LLaVA-1.5-7B 上剪枝 89% 视觉 Token，FLOPs 减少 76.8%，保留 96.7% 原始精度，超越 PDrop (CVPR 2025) 9.1%。

📄 SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

字段	信息
作者	Zekun Wang, Jingchang Chen 等
arXiv	2305.15033
发表时间	2023年5月
录用会议	LREC-COLING 2024
引用数	~40+
GitHub	https://github.com/kugwzk/SmartTrim

痛点难点：Transformer-based VLM 在 Token 表示和注意力头中均存在冗余，但冗余程度因输入差异悬殊，固定策略无法自适应分配计算资源；此前无工作同时对 Token 和注意力头进行联合自适应剪枝。

创新点：首个同时自适应剪枝 Token 和注意力头的 VLM 加速框架；提出自蒸馏（Self-Distillation）策略将剪枝模型与全容量版本对齐，无需额外蒸馏数据。

核心方法：各层插入轻量 Trimmer 模块，以当前层 Token 表示为输入，实例级动态预测 Token 和注意力头的保留概率；Self-Distillation 对齐预测分布；METER、BLIP 等模型推理速度提升 2–3×。

📄 DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference

字段	信息
作者	Singh 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：现有 Token 压缩方法几乎全部针对推理阶段，训练时仍需处理完整 Token 序列，显存和时间开销居高不下；训练与推理的 Token 分布不一致（training-inference mismatch）引发额外性能下降。

创新点：首次将 Token 压缩统一应用于 VLM 的训练和推理两个阶段，消除训练-推理不一致问题，同时降低训练显存开销，实现端到端高效。

核心方法：双阶段统一压缩（ViT 侧 + LLM 侧）；训练时即启用 Token 减少策略，模型端到端联合优化效率与性能；模型在训练阶段即适应低 Token 数量的输入分布。

📄 SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

字段	信息
作者	Chen Qian, Xinran Yu, Danyang Li, Guoxuan Chi, Zheng Yang, Qiang Ma, Xin Miao 等
arXiv	2602.03134
发表时间	2026年2月
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：现有方法（FastV、PDrop）一旦在某层做出剪枝决策，被丢弃 Token 的信息永久消失。通过逐层分析，作者发现视觉 Token 的重要性在不同层之间存在显著差异——浅层认为不重要的 Token 在深层反而可能对文本条件推理高度关键，过早剪枝导致细粒度信息不可逆损失。

创新点：提出跨层 Token Bypass 范式：被某层认为不重要的 Token 不直接丢弃，通过旁路路径传递至后续层重新评估，赋予 Token 在深层”复活”的机会，从根本上解决过早剪枝的不可逆信息损失问题。

核心方法：

将视觉 Token 分为保留（retained）和旁路（bypass）两类；
旁路 Token 跳过当前层完整计算，通过轻量路径传播特征；
在后续深层通过 Token 对齐（token alignment）重新评估并恢复关键 Token；
两个 VLM、9 个基准上显著超越现有 training-free 方法，localization 等细粒度任务优势突出。

📌 类别 G：领域专用 VLM 剪枝

📄 MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Analysis

字段	信息
作者	Liu 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：3D 医学图像（CT/MRI）体积数据经 ViT 编码后产生极大量 Token；通用方法忽视医学影像特有的局部解剖结构和三维各向异性；医学数据稀缺，需无训练方案保证对稀有病症的泛化性。

创新点：针对 3D 医学图像设计分层（hierarchical）无训练 Token 剪枝策略，在切片层和体素块层进行两级层次化重要性评估，适配医学影像三维各向异性特性。

核心方法：先在切片级筛选关键切片，再在 patch 级对保留切片精细剪枝；Training-free，直接利用预训练 VLM 注意力模式；针对病灶/器官局部集中的特点设计专门的重要性评分准则。

📄 Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

字段	信息
作者	Xiong 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：自动驾驶场景对 VLM 推理延迟要求极为严格（实时性）；通用方法未对驾驶安全关键区域（障碍物、交通信号、行人）做特殊保护，高剪枝率下可能引发安全隐患。

创新点：提出针对自动驾驶 VLM/VLA 场景的即插即用（plug-and-play）剪枝框架，将驾驶先验知识融入 Token 重要性评估，在实时性约束下确保安全关键信息优先保留。

核心方法：利用场景语义先验（障碍物、车道线等关键区域）增强 Token 重要性评估；即插即用，无需修改原始 VLM 结构；在自动驾驶 VLA 模型上验证有效性。

📄 RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference

字段	信息
作者	Xu 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：扩散 VLM（SD-XL、FLUX 等）多步去噪每步都需处理完整视觉 Token 序列，推理计算量极大；目前专门针对扩散 VLM 的 Token 剪枝研究极为匮乏。

创新点：首次将视觉 Token 压缩技术扩展至扩散视觉-语言模型，利用去噪过程中的时序冗余性实现无训练加速，开拓 Token 剪枝的全新应用场景。

核心方法：在去噪时间步中分析视觉 Token 的跨步冗余性；跨时间步复用或稀疏化 Token；无需训练，直接应用于预训练扩散 VLM。

📄 Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Semantic Segmentation

字段	信息
作者	Fang 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	待确认

痛点难点：现有 patch 级方法缺乏语义层级理解，同一语义区域内多个 Token 高度冗余而未被彻底压缩，而跨区域边界的 Token 即使相似度低也各自不可缺少，导致压缩语义一致性差。

创新点：引入语义分割（Semantic Segmentation）先验指导视觉 Token 压缩，以语义区域为单位评估冗余，在语义完整性与区域内冗余消除之间取得更优平衡。

核心方法：利用轻量分割模型或 CLIP 特征对 patch Token 进行语义聚类；在每个语义区域内进行区域内 Token 合并/剪枝，跨区域边界保留代表性 Token；语义分割信息作为结构化先验辅助信号。

📌 类别 H：分析性 / 综述性工作

📄 When Does Pruning Benefit Vision Representations?

字段	信息
作者	Cassano 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	—

核心贡献：系统研究剪枝对视觉表示质量的影响边界——何种架构、数据规模、剪枝类型和稀疏度能使剪枝实质性提升（而非损害）视觉特征表示能力。在 ViT、CNN 等架构和多个基准上，系统对比不同剪枝率/方法对视觉特征质量（线性探针/迁移学习精度）的影响，厘清剪枝有益的充分必要条件，为视觉模型压缩提供理论依据。

📄 Small Vision-Language Models: A Technical Survey

字段	信息
作者	Mukherjee 等
发表时间	2024/2025
录用会议	arXiv 预印本
引用数	待统计
GitHub	—

核心贡献：针对小型 VLM（<7B 参数）提供系统性技术综述，涵盖架构优化（高效视觉编码器、轻量融合模块）、压缩技术（剪枝、量化、知识蒸馏、低秩分解）及推理优化等多维度，为研究者和工程师构建完整技术图谱。对比分析 MobileVLM、MiniVLM 等小型 VLM 设计选择，总结在移动/边缘设备约束下实现高效多模态理解的核心技术路线。

📄 Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

字段	信息
作者	Zichen Wen 等
arXiv	2502.11501
发表时间	2025年2月
录用会议	arXiv 预印本
引用数	~15+
GitHub	—

核心贡献：对 Token 剪枝领域提出根本性反思——现有方法在 VQA 等通用基准上比较，但这些基准对”文本引导”并不特别敏感，使文本无关与文本引导方法看起来性能相近。在强文本依赖任务（如 Visual Haystack 大海捞针）上量化两类方法的性能差距，区分”去除冗余 Token”和”去除不重要 Token”两个不同优化目标，指出现有评估体系的不足，给出可操作的剪枝策略建议。

四、论文信息汇总表

论文简称	作者	发表时间	录用会议	引用数	GitHub
Vision Transformer Pruning (VTP)	Zhu 等	2021.04	arXiv	~200+	—
Isomorphic Pruning	Fang 等	2024.07	ECCV 2024	~60+	VainF/Isomorphic-Pruning
MULTIFLOW	Farina 等	2024.04	CVPR 2024	~50+	FarinaMatteo/multiflow
Rethinking Pruning for VLMs	He 等	2024.04	arXiv	~25+	见论文
POP (Prefill-Only Pruning)	He 等	2026.02	arXiv	—	—
VisPruner	Zhang 等	2024.12	ICCV 2025	~60+	Theia-4869/VisPruner
Towards Lossless Vision Token Compression	Zheng 等	2024/2025	arXiv	—	待确认
Object-Centric Vision Token Pruning	Li 等	2024/2025	arXiv	—	待确认
SAINT	Jeddi 等	2024/2025	arXiv	—	见论文
VLM-Pruner	Wu 等	2024.12	arXiv	—	待确认
LVPruning	Sun 等	2025.01	NAACL 2025 Findings	~30+	见论文
ZSPAPrune	Zhang 等	2025.10	arXiv	—	待开源
SGL (A Stitch in Time)	Zhao 等	2024.12	CVPR 2025	~80+	NUS-HPC-AI-Lab/SGL
LEARNPRUNER	Takezoe 等	2024/2025	arXiv	—	待确认
ATP	Li 等	2024.12	arXiv	~15+	—
AutoPrune	Wang 等	2025.09	NeurIPS 2025	~10+	AutoLab-SAI-SJTU/AutoPrune
SmartTrim	Wang 等	2023.05	LREC-COLING 2024	~40+	kugwzk/SmartTrim
DUET-VLM	Singh 等	2024/2025	arXiv	—	待确认
SwiftVLM	Qian 等	2026.02	arXiv	—	待确认
When Does Pruning Benefit?	Cassano 等	2024/2025	arXiv	—	—
Small VLMs: A Technical Survey	Mukherjee 等	2024/2025	arXiv	—	—
Token Pruning: Right Problem?	Wen 等	2025.02	arXiv	~15+	—
MedPruner	Liu 等	2024/2025	arXiv	—	待确认
Prune2Drive	Xiong 等	2024/2025	arXiv	—	待确认
RedVTP	Xu 等	2024/2025	arXiv	—	待确认
Prune Redundancy, Preserve Essence	Fang 等	2024/2025	arXiv	—	待确认

⚠️ 关于引用数：标注”—“的论文为近期发布，引用数据尚不充分，建议通过 Semantic Scholar 或 Google Scholar 查验最新数据。
⚠️ 关于 GitHub：标注”待确认”的论文，可通过对应 arXiv 页面（论文摘要末尾通常有代码链接）或作者主页查找最新代码地址。

五、研究趋势与未来展望

5.1 从静态走向动态自适应

早期工作（FastV、LLaMA-VID）采用固定剪枝率，而 AutoPrune、SmartTrim、SwiftVLM 等近期工作转向根据输入复杂度或层间 Token 演化动态调整策略，实现更优的精度-效率权衡。

5.2 重新审视注意力分数的可靠性

VisPruner 系统量化了文本-视觉注意力的位置偏置与分散问题；LEARNPRUNER 用可学习打分替代注意力启发；Token Pruning: Right Problem? 从评估基准层面发出根本性质疑——领域正从”使用注意力”走向”超越注意力”。

5.3 从单阶段推理走向多阶段协同

SGL（小模型引导大模型）和 POP（prefill/decode 阶段感知）均体现了推理流程感知的剪枝设计；SwiftVLM 的跨层 Bypass 机制打破了单层独立决策的局限；这一趋势将推动系统级视角下的剪枝设计。

5.4 从推理加速扩展至训练加速

DUET-VLM 将 Token 压缩同时应用于训练和推理阶段，消除训练-推理不一致问题，降低训练成本。这是未来重要方向，尤其对大规模 VLM 预训练和指令微调具有重要价值。

5.5 任务无关性与一次剪枝多次迁移

MULTIFLOW 开创了任务无关 VLM 剪枝范式，一次剪枝迁移至多个未知任务，显著降低部署成本。如何在更大规模 VLM（GPT-4V 量级）上实现高效任务无关剪枝，仍有巨大探索空间。

5.6 向专用垂直场景延伸

MedPruner（3D 医学影像）、Prune2Drive（自动驾驶）、RedVTP（扩散 VLM）等工作表明，通用方法在特定场景下需针对性适配。随着 VLM 在垂直行业快速落地，领域专用剪枝框架将成为重要分支。

报告生成时间：2026年3月 | 引用数为近似估计，以 Semantic Scholar 和 Google Scholar 为参考，随时间变化请以最新数据为准。

Starry's Blog

Explorer

VLM_Pruning_Survey_Report

VLM Pruning 方法综述报告

一、VLM Pruning 背景与整体概述

二、方法分类体系

类别 A｜结构化权重剪枝（Structured Weight Pruning）

类别 B｜任务无关权重剪枝（Task-Agnostic Weight Pruning）

类别 C｜文本无关型视觉 Token 剪枝（Text-Agnostic Visual Token Pruning）

类别 D｜文本引导型视觉 Token 剪枝（Text-Guided Visual Token Pruning）

类别 E｜自适应 / 动态 Token 剪枝（Adaptive & Dynamic Token Pruning）

类别 F｜阶段感知剪枝（Stage-Aware Pruning）

类别 G｜领域专用 VLM 剪枝（Domain-Specific Pruning）

类别 H｜分析性 / 综述性工作（Analysis & Survey）

三、各论文详细解析

📌 类别 A & B：权重剪枝

📄 Vision Transformer Pruning (VTP)

📄 Isomorphic Pruning for Vision Models

📄 MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

📄 Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

📄 POP: Prefill-Only Pruning for Efficient Large Model Inference

📌 类别 C：文本无关型视觉 Token 剪枝

📄 Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs (VisPruner)

📄 Towards Lossless Ultimate Vision Token Compression for VLMs

📄 Object-Centric Vision Token Pruning for Vision Language Models

📄 Similarity-Aware Token Pruning: Your VLM but Faster (SAINT)

📄 VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

📌 类别 D：文本引导型视觉 Token 剪枝

📄 LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models

📄 ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models

📄 A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs (SGL)

📄 LEARNPRUNER: Rethinking Attention-Based Token Pruning in Vision Language Models

📄 Efficient Vision-Language Reasoning via Adaptive Token Pruning (ATP)

📌 类别 E：自适应 / 动态 Token 剪枝

📄 AutoPrune: Each Complexity Deserves a Pruning Policy

📄 SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

📄 DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference

📄 SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

📌 类别 G：领域专用 VLM 剪枝

📄 MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Analysis

📄 Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

📄 RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference

📄 Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Semantic Segmentation

📌 类别 H：分析性 / 综述性工作

📄 When Does Pruning Benefit Vision Representations?

📄 Small Vision-Language Models: A Technical Survey

📄 Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

四、论文信息汇总表

五、研究趋势与未来展望

5.1 从静态走向动态自适应

5.2 重新审视注意力分数的可靠性

5.3 从单阶段推理走向多阶段协同

5.4 从推理加速扩展至训练加速

5.5 任务无关性与一次剪枝多次迁移

5.6 向专用垂直场景延伸

Graph View

Table of Contents