VLM Pruning 方法综述报告

本报告系统梳理了视觉-语言模型(VLM)剪枝领域的代表性研究工作,涵盖方法体系概述、分类框架,以及图中所列每篇论文的痛点分析、创新点、核心方法、发表信息、引用数与代码资源。


一、VLM Pruning 背景与整体概述

随着 LLaVA、InternVL、Qwen-VL、Flamingo 等大型视觉-语言模型在多模态理解任务中取得突破,推理计算开销成为工业部署的核心瓶颈。VLM 的计算负担主要来自两个方面:

  1. 模型参数量庞大:视觉编码器(ViT)与大型语言模型(LLM)各自拥有数十亿参数,显存和延迟代价极高。
  2. 视觉 Token 数量冗余:每张图像经 ViT 编码后通常产生数百至数千个 Token(如 LLaVA-NeXT 可达 2880 个),但其中大多数 Token 对下游任务贡献有限,却在 LLM 自注意力中引入 O(N²) 的二次计算复杂度。

剪枝(Pruning) 是应对上述问题的核心技术路径之一,可分为两大维度:

  • 权重剪枝(Weight Pruning):移除模型中冗余的参数或结构单元,直接压缩模型尺寸;
  • Token 剪枝(Token Pruning / Visual Token Compression):在推理过程中识别并丢弃对任务贡献较小的视觉 Token,减少 LLM 处理的序列长度。

二、方法分类体系

类别 A|结构化权重剪枝(Structured Weight Pruning)

通过移除整块结构单元(通道、注意力头、整层)压缩模型参数量,可直接实现推理加速,适合硬件部署。
代表论文:Vision Transformer Pruning、Isomorphic Pruning、MULTIFLOW、Rethinking Pruning for VLMs

类别 B|任务无关权重剪枝(Task-Agnostic Weight Pruning)

在不依赖下游任务标注的前提下对 VLM 进行一次性剪枝,所得稀疏模型可迁移至多个未知任务。
代表论文:MULTIFLOW

类别 C|文本无关型视觉 Token 剪枝(Text-Agnostic Visual Token Pruning)

仅依赖视觉特征自身(CLS 注意力、特征相似度)评估 Token 重要性,无需跨模态信息,延迟低,可在 LLM 之前完成剪枝,兼容 FlashAttention。
代表论文:VisPruner、Towards Lossless Vision Token Compression、Object-Centric Vision Token Pruning、SAINT、VLM-Pruner

类别 D|文本引导型视觉 Token 剪枝(Text-Guided Visual Token Pruning)

利用语言指令或文本-视觉注意力评估视觉 Token 与当前任务的相关性,针对性地保留任务关键 Token。
代表论文:LVPruning、ZSPAPrune、SGL(A Stitch in Time Saves Nine)、LEARNPRUNER、ATP

类别 E|自适应 / 动态 Token 剪枝(Adaptive & Dynamic Token Pruning)

根据输入样本或任务复杂度动态调整剪枝率与策略,避免固定剪枝计划带来的次优结果。
代表论文:AutoPrune、SmartTrim、DUET-VLM、SwiftVLM

类别 F|阶段感知剪枝(Stage-Aware Pruning)

区分模型推理的不同阶段(prefill 与 decode)对参数的差异化需求,针对特定阶段进行专属剪枝。
代表论文:POP

类别 G|领域专用 VLM 剪枝(Domain-Specific Pruning)

针对自动驾驶、医学影像、扩散模型等特定垂直场景定制的 VLM 加速方案。
代表论文:Prune2Drive、MedPruner、RedVTP、Prune Redundancy Preserve Essence

类别 H|分析性 / 综述性工作(Analysis & Survey)

对现有剪枝方法进行系统综述、反思与评估,厘清领域核心问题。
代表论文:Token Pruning: Are We Solving the Right Problem?、Small VLMs: A Technical Survey、When Does Pruning Benefit?


三、各论文详细解析


📌 类别 A & B:权重剪枝


📄 Vision Transformer Pruning (VTP)

字段信息
作者Mingjian Zhu, Yehui Tang, Kai Han(华为诺亚方舟实验室)
arXiv2104.08500
发表时间2021年4月
录用会议arXiv 预印本
引用数~200+
GitHub无独立仓库(方法已集成至多个剪枝库)

痛点难点:ViT 参数规模庞大(ViT-Base ~86M),严重制约移动端部署。已有剪枝方法主要针对 CNN,缺乏专门为 Transformer 中 MSA 和 MLP 设计的结构化剪枝方案,如何有效识别并剪除 ViT 各层维度中不重要的特征是核心难题。

创新点:提出首个专门面向 Vision Transformer 的维度级结构化剪枝方法——通过鼓励各层线性投影维度上的稀疏性,让重要维度自动涌现,以高剪枝率实现高精度保留。

核心方法

  • 稀疏正则化训练:对每层线性投影的通道维度引入 L1 稀疏惩罚,使不重要维度权重趋于零;
  • 维度剪枝:按重要性排序剪除冗余维度,同时针对 MSA 的 Q/K/V 投影和 MLP 层;
  • 微调恢复:短周期微调恢复精度,整体三阶段流程(训练 → 剪枝 → 微调)。

📄 Isomorphic Pruning for Vision Models

字段信息
作者Gongfan Fang, Xinyin Ma, Michael Bi Mi, Xinchao Wang(新加坡国立大学、华为)
arXiv2407.04616
发表时间2024年7月
录用会议ECCV 2024
引用数~60+
GitHubhttps://github.com/VainF/Isomorphic-Pruning

痛点难点:结构化剪枝常用全局重要性排序,但 ViT、CNN 等模型包含自注意力、深度可分离卷积、残差连接等异构子结构,其参数尺度、权重分布和计算拓扑差异悬殊,导致全局排序结果严重偏斜——不同类型结构之间的重要性无法直接比较。

创新点:提出同构剪枝(Isomorphic Pruning):将计算拓扑相同(isomorphic)的子结构归组,在组内独立排序和剪枝,完全自动化,无需手工分析网络拓扑,已集成至 Torch-Pruning v1.4.1。

核心方法

  • 将模型建模为有向计算图,通过图同构检测自动识别并归组相同拓扑的子结构;
  • 在每个同构组内部独立进行数据驱动的重要性估计与排序;
  • 剪枝后微调恢复精度,DeiT-Base 剪枝后 ImageNet Top-1 达 82.41%,优于同等计算量下从头训练。

📄 MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

字段信息
作者Matteo Farina, Massimiliano Mancini, Elia Cunegatti, Gaowen Liu, Giovanni Iacca, Elisa Ricci(University of Trento / Cisco Research)
arXiv2404.05621
发表时间2024年4月
录用会议CVPR 2024
引用数~50+
GitHubhttps://github.com/FarinaMatteo/multiflow

痛点难点:现有 VLM 剪枝方法均为任务特定(Task-Specific)——面对新任务需从头重新剪枝,且依赖梯度计算,效率低下。如何在不知道目标任务的前提下剪枝,同时保持跨任务的迁移表示能力是关键难题。

创新点首次形式化定义”任务无关视觉-语言剪枝”(TA-VLP)设定,提出无梯度(gradient-free)框架 MULTIFLOW,速度比同类梯度方法快约 41×,一次剪枝可迁移至多个未知下游任务。

核心方法

  • 将每层建模为二部图,参数重要性同时考虑:① 幅度(magnitude);② 信息流(information flow,即参数所连接的输入/输出节点信号强度);
  • 模态分布解耦引导(视觉/文本/融合模块独立参考各自分布),避免跨模态偏置;
  • 在 XVLM、BLIP 两个 VLM,三种视觉-语言任务和三种稀疏度(63%/75%/90%)下超越 8 种 SOTA 基线。

📄 Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration

字段信息
作者Shwai He 等
arXiv2404.02424
发表时间2024年4月
录用会议arXiv 预印本
引用数~25+
GitHub见论文链接

痛点难点:VLM 剪枝策略研究严重不足:① 如何在视觉编码器和语言模型之间合理分配稀疏度?② 传统 LoRA 微调与稀疏模型根本不兼容——合并 ΔW 后破坏稀疏模式,不合并则引入推理延迟。

创新点:系统性实验揭示有效剪枝策略,并提出 SparseLoRA:将稀疏掩码直接施加于 LoRA 增量权重 ΔW,确保合并后主干权重保持稀疏模式,彻底解决 LoRA 与稀疏模型的不兼容问题。

核心方法:采用 SparseGPT/Wanda 进行权重稀疏化;SparseLoRA 在训练时屏蔽被剪枝位置的梯度更新;实验验证:2:4 结构化稀疏下提升 11.3%,非结构化 70% 稀疏下提升 47.6%。


📄 POP: Prefill-Only Pruning for Efficient Large Model Inference

字段信息
作者Junhui He, Zhihui Fu, Jun Wang, Qingan Li(武汉大学 / OPPO Research)
arXiv2602.03295
发表时间2026年2月
录用会议arXiv 预印本
引用数待统计
GitHub暂未开源

痛点难点:现有结构化剪枝(如层剪枝)是”阶段无感知的”——对 prefill 和 decode 阶段使用相同缩减架构。然而两阶段对层的需求截然不同:深层对 decode(next-token 预测)至关重要,但对 prefill(上下文编码)高度冗余。

创新点首次明确区分 prefill/decode 两阶段的剪枝需求,提出仅在 prefill 阶段跳过深层,decode 阶段保留完整架构——在不影响生成质量的前提下大幅加速上下文编码。

核心方法

  • 引入虚拟门机制分析各层对两阶段的差异化重要性;
  • 对被跳过层引入独立 KV 投影,在 prefill 时仍能为 decode 阶段生成 KV 缓存;
  • 设计边界处理确保首个生成 Token 精度不受影响;在 Llama-3.1、Qwen3-VL、Gemma-3 等模型上验证有效性。

📌 类别 C:文本无关型视觉 Token 剪枝


📄 Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs (VisPruner)

字段信息
作者Qizhe Zhang, Aosong Cheng, Ming Lu, Renrui Zhang 等(北京大学 / 中科院自动化所)
arXiv2412.01818
发表时间2024年12月
录用会议ICCV 2025
引用数~60+
GitHubhttps://github.com/Theia-4869/VisPruner

痛点难点:大多数方法用 LLM 内部的文本-视觉注意力评估 Token 重要性。作者首次量化其两大缺陷:① 注意力偏移——RoPE 位置编码长程衰减导致文本 Token 偏向关注序列靠后的视觉 Token(位置偏置);② 注意力分散——权重过于均匀,难以区分重要与不重要 Token。

创新点:发现并量化文本-视觉注意力的系统性缺陷,转而使用视觉编码器 CLS 注意力作为更可靠的重要性指示器,在 LLM 之前完成剪枝,天然兼容 FlashAttention。

核心方法

  1. 用 ViT CLS Token 对各视觉 patch 的注意力分数选取显著 Token
  2. 从剩余 Token 中基于余弦相似度去除重复,保留多样性 Token
  3. 将两者合并送入 LLM,最大化视觉信息覆盖;
  4. 在 13 个图像和视频基准(10 image + 3 video)上显著超越基于文本-视觉注意力的同类方法。

📄 Towards Lossless Ultimate Vision Token Compression for VLMs

字段信息
作者Zheng 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:现有 Token 压缩方法在高压缩比下存在明显信息损失——简单丢弃 Token 的方式无法保留被移除 Token 携带的信息,极端压缩场景下性能大幅下滑,难以实现”无损”极限压缩。

创新点:探索在接近无损前提下实现极高视觉 Token 压缩率,研究如何在最高压缩比下维持模型性能上界。

核心方法:结合 Token 重要性评分与信息蒸馏/融合机制,对被压缩 Token 的信息进行有效保留与再注入,在极高剪枝率(>95%)下仍能保持竞争性性能。


📄 Object-Centric Vision Token Pruning for Vision Language Models

字段信息
作者Li 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:大多数 Token 剪枝方法缺乏对图像语义结构的理解,无法区分前景目标区域与背景,在高剪枝率下会丢失对 VQA、视觉推理至关重要的目标级语义信息。

创新点:引入以目标为中心(Object-Centric)的剪枝视角,将目标级语义完整性纳入 Token 保留决策,确保重要语义目标的区域不被破坏性剪枝。

核心方法:利用目标检测/分割先验识别显著目标区域,将 Token 保留与目标区域空间对齐,优先保留包含完整目标语义的 patch,对目标区域内部进一步区分重要性。


📄 Similarity-Aware Token Pruning: Your VLM but Faster (SAINT)

字段信息
作者Jeddi 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub见论文(已开源)

痛点难点:现有 training-free 剪枝方法仅基于单层注意力分数评估 Token 重要性,忽略了 Transformer 层间 Token 演化规律中蕴含的丰富冗余信号;且固定剪枝阈值无法适应不同层间 Token 分布差异。

创新点:系统发现并利用 Transformer 中 Token 演化的三段式规律(aligner-explorer-aggregator),提出基于相似度图模型的动态跨层剪枝框架,无需训练,支持 ViT-only、LLM-only 和混合模式。

核心方法:分析早期(aligner)、中期(explorer)、后期(aggregator)三阶段,早期 Token 可激进压缩;基于余弦相似度构建 Token 图模型,动态优化各层剪枝率;ViT-H/14 在 224px 下实现 2× 吞吐提升,ImageNet Top-1 损失仅 0.6%。


📄 VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

字段信息
作者Wu 等
arXiv2512.02700
发表时间2024年12月
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:现有方法在高剪枝率(>88%)下空间结构破坏严重:重要性打分方法倾向于选择局部聚集的显著 Token,导致空间覆盖不足;直接丢弃 Token 导致细粒度信息(OCR、定位等任务关键)永久丢失。

创新点:提出离心式 Token 剪枝(Centrifugal Token Pruning)范式,引入空间稀疏性缓冲机制(BSS),在极高剪枝率下同时保持 Token 空间多样性和细粒度信息。

核心方法

  • BSS 准则:延迟引入空间距离较远的 Token,确保保留 Token 在空间上分散(离心布局);
  • 并行贪心选择:高效实现 Token 选取;
  • 相似度加权聚合:将被丢弃 Token 的显著信息融合至最近保留 Token;
  • 在 5 个 VLM、13 个基准上,88.9% 剪枝率下一致超越强基线,OCRBench 等细节敏感任务上优势突出。

📌 类别 D:文本引导型视觉 Token 剪枝


📄 LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models

字段信息
作者Yizheng Sun, Yanze Xin, Hao Li, Jingyuan Sun, Chenghua Lin, Riza Batista-Navarro(曼彻斯特大学 / 帝国理工学院)
arXiv2501.13652
发表时间2025年1月
录用会议NAACL 2025 Findings(pp. 4299–4308)
引用数~30+
GitHub见论文(已开源)

痛点难点:纯视觉特征驱动的 Token 压缩方法无法利用语言-视觉交互信息;而大多数语言引导方法需修改原始模型参数,兼容性差,难以即插即用。

创新点:提出轻量跨注意力模块精准评分,无需修改原始 MLLM 任何参数,完全 plug-and-play,兼容任意基于 Transformer 的 MLLM 架构。

核心方法

  • 在 MLLM 特定中间层插入 LVPruning 跨注意力模块,以视觉 Token 为 Query、语言 Token 为 Key/Value;
  • 根据交叉注意力分数为每个视觉 Token 预测保留/丢弃决策,原始模型参数完全冻结;
  • 联合因果语言建模损失和剪枝率损失训练;
  • 削减高达 90% 视觉 Token,推理 TFLOPs 降低 62.1%,9 个基准平均性能损失仅 0.45%

📄 ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models

字段信息
作者Pu Zhang, Yuwei Li, Xingyuan Xian, Guoming Tang(香港科技大学(广州))
arXiv2510.17197
发表时间2025年10月
录用会议arXiv 预印本
引用数待统计
GitHub待开源

痛点难点:现有 Token 剪枝方法普遍忽略文本 Prompt 的语义引导,无法在 zero-shot 设置下优先保留与用户意图相关的视觉 Token,在强语言依赖任务上效果不佳。

创新点首次从 prompt-aware 视角建模 zero-shot 视觉 Token 剪枝问题,形式化为任务相关性与信息多样性之间的平衡优化,全程无需训练或微调。

核心方法

  • 第一阶段:Prompt 嵌入与视觉 Token 余弦相似度选取”核心任务相关 Token”;
  • 第二阶段:MMR 贪心策略选取”多样性补充 Token”;
  • 将两类 Token 合并送入 LLM,在多个 VLM 和基准上与 SOTA 持平甚至超越。

📄 A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs (SGL)

字段信息
作者Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You(NUS / 阿里巴巴 DAMO / UT Austin)
arXiv2412.03324
发表时间2024年12月
录用会议CVPR 2025(pp. 19814–19824)
引用数~80+
GitHubhttps://github.com/NUS-HPC-AI-Lab/SGL

痛点难点:作者通过实验揭示三个关键发现:① 单层注意力不足以精准识别关键视觉 Token,FastV 在低保留率下性能急剧下降;② 全层聚合注意力效果好,但需完整推理 pass,本身就是被加速的对象;③ 小模型的全层聚合注意力与大模型高度相似,可作为高效替代。

创新点:首次提出”以小型 VLM 的全层聚合注意力引导大型 VLM 的 Token 剪枝”的协同推理框架(SGL),同时引入小模型早退机制(SEE)进一步降低计算量。

核心方法

  • SGP:小型 VLM(如 InternVL-2B)跑完整推理,聚合所有层/头的注意力分数,生成全局 Token 重要性排名,作为大型 VLM(如 InternVL-26B/76B)剪枝先验;
  • SEE:评估小模型预测置信度,超过阈值则直接使用小模型答案,完全跳过大模型;
  • 在 11 个基准上验证,视觉 Token 剪枝率高达 91% 仍保持竞争性性能。

📄 LEARNPRUNER: Rethinking Attention-Based Token Pruning in Vision Language Models

字段信息
作者Takezoe 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:主流方法直接将注意力分数用于 Token 重要性打分,但这些分数并非为剪枝目的而设计,与最终任务输出质量之间存在系统性偏差,导致基于注意力的剪枝存在内在局限。

创新点:系统性反思注意力启发式规则的局限性,提出可学习的 Token 评分器,通过任务导向训练信号学习更准确的 Token 重要性度量,从根本上替代注意力启发式规则。

核心方法:训练轻量可学习评分模块,以任务损失为监督直接优化 Token 重要性预测;评分器与 VLM 联合训练,使重要性评估与下游任务性能直接对齐;在细粒度视觉任务上优势明显。


📄 Efficient Vision-Language Reasoning via Adaptive Token Pruning (ATP)

字段信息
作者Xue Li 等
arXiv2512.12701
发表时间2024年12月
录用会议arXiv 预印本
引用数~15+
GitHub暂未开源

痛点难点:VLM 对所有视觉 Token 一视同仁处理,大量背景 patch 贡献极小,造成计算浪费;已有方法要么纯视觉无关文本,要么需修改模型结构,难以实现轻量自适应剪枝。

创新点:提出混合重要性评分(Hybrid Importance Score),将 ViT 内视觉显著性(CLS 注意力)与 CLIP 跨模态相关性(文本-图像相似度)统一融合,无需训练或修改骨干网络,兼容 BLIP-2、LLaVA、Flamingo 等主流架构。

核心方法

  • 视觉显著性(ViT CLS 注意力)+ 跨模态相关性(CLIP 余弦相似度)加权组合为混合分数;
  • 保留 Top-K Token 送入 LLM;
  • VQAv2、GQA、COCO 上减少约 40% FLOPs,端到端延迟加速约 1.5×,准确率损失 <1%。

📌 类别 E:自适应 / 动态 Token 剪枝


📄 AutoPrune: Each Complexity Deserves a Pruning Policy

字段信息
作者Hanshi Wang, Yuhao Xu, Zekun Xu, Jin Gao, Yufan Liu, Weiming Hu, Ke Wang, Zhipeng Zhang(上海交通大学 AutoLab)
arXiv2509.23931
发表时间2025年9月
录用会议NeurIPS 2025
引用数~10+
GitHubhttps://github.com/AutoLab-SAI-SJTU/AutoPrune

痛点难点:现有 training-free 方法采用固定剪枝计划——对不同输入统一应用相同剪枝率曲线,无法适应样本复杂度差异:简单样本无法激进剪枝(浪费效率),复杂样本无法保守剪枝(损失性能)。认知科学表明人类视觉处理遵循”先广泛探索、后聚焦”规律,而固定策略无法模拟此过程。

创新点首次从认知神经科学角度系统分析 VLM 中样本与任务复杂度对 Token 保留模式的影响,提出通过 Sigmoid 型保留曲线(logistic retention curve)为每个输入生成个性化剪枝策略,且在给定计算预算下保证全局约束。

核心方法

  • 计算视觉-文本 Token 间互信息量化输入复杂度;
  • 将复杂度映射为 Sigmoid 保留曲线,斜率/拐点由互信息线性调制;简单样本→早期激进剪枝;复杂样本→晚期保守剪枝;
  • 解析积分对曲线归一化,保证 Token/FLOPs 预算约束;
  • 支持 VLM(LLaVA-1.5/NeXT)和 VLA(自动驾驶 Senna)。

实验结果:LLaVA-1.5-7B 上剪枝 89% 视觉 Token,FLOPs 减少 76.8%,保留 96.7% 原始精度,超越 PDrop (CVPR 2025) 9.1%


📄 SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

字段信息
作者Zekun Wang, Jingchang Chen 等
arXiv2305.15033
发表时间2023年5月
录用会议LREC-COLING 2024
引用数~40+
GitHubhttps://github.com/kugwzk/SmartTrim

痛点难点:Transformer-based VLM 在 Token 表示和注意力头中均存在冗余,但冗余程度因输入差异悬殊,固定策略无法自适应分配计算资源;此前无工作同时对 Token 和注意力头进行联合自适应剪枝。

创新点首个同时自适应剪枝 Token 和注意力头的 VLM 加速框架;提出自蒸馏(Self-Distillation)策略将剪枝模型与全容量版本对齐,无需额外蒸馏数据。

核心方法:各层插入轻量 Trimmer 模块,以当前层 Token 表示为输入,实例级动态预测 Token 和注意力头的保留概率;Self-Distillation 对齐预测分布;METER、BLIP 等模型推理速度提升 2–3×


📄 DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference

字段信息
作者Singh 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:现有 Token 压缩方法几乎全部针对推理阶段,训练时仍需处理完整 Token 序列,显存和时间开销居高不下;训练与推理的 Token 分布不一致(training-inference mismatch)引发额外性能下降。

创新点首次将 Token 压缩统一应用于 VLM 的训练和推理两个阶段,消除训练-推理不一致问题,同时降低训练显存开销,实现端到端高效。

核心方法:双阶段统一压缩(ViT 侧 + LLM 侧);训练时即启用 Token 减少策略,模型端到端联合优化效率与性能;模型在训练阶段即适应低 Token 数量的输入分布。


📄 SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

字段信息
作者Chen Qian, Xinran Yu, Danyang Li, Guoxuan Chi, Zheng Yang, Qiang Ma, Xin Miao 等
arXiv2602.03134
发表时间2026年2月
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:现有方法(FastV、PDrop)一旦在某层做出剪枝决策,被丢弃 Token 的信息永久消失。通过逐层分析,作者发现视觉 Token 的重要性在不同层之间存在显著差异——浅层认为不重要的 Token 在深层反而可能对文本条件推理高度关键,过早剪枝导致细粒度信息不可逆损失。

创新点:提出跨层 Token Bypass 范式:被某层认为不重要的 Token 不直接丢弃,通过旁路路径传递至后续层重新评估,赋予 Token 在深层”复活”的机会,从根本上解决过早剪枝的不可逆信息损失问题。

核心方法

  • 将视觉 Token 分为保留(retained)和旁路(bypass)两类;
  • 旁路 Token 跳过当前层完整计算,通过轻量路径传播特征;
  • 在后续深层通过 Token 对齐(token alignment)重新评估并恢复关键 Token;
  • 两个 VLM、9 个基准上显著超越现有 training-free 方法,localization 等细粒度任务优势突出。

📌 类别 G:领域专用 VLM 剪枝


📄 MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Analysis

字段信息
作者Liu 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:3D 医学图像(CT/MRI)体积数据经 ViT 编码后产生极大量 Token;通用方法忽视医学影像特有的局部解剖结构和三维各向异性;医学数据稀缺,需无训练方案保证对稀有病症的泛化性。

创新点:针对 3D 医学图像设计分层(hierarchical)无训练 Token 剪枝策略,在切片层和体素块层进行两级层次化重要性评估,适配医学影像三维各向异性特性。

核心方法:先在切片级筛选关键切片,再在 patch 级对保留切片精细剪枝;Training-free,直接利用预训练 VLM 注意力模式;针对病灶/器官局部集中的特点设计专门的重要性评分准则。


📄 Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

字段信息
作者Xiong 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:自动驾驶场景对 VLM 推理延迟要求极为严格(实时性);通用方法未对驾驶安全关键区域(障碍物、交通信号、行人)做特殊保护,高剪枝率下可能引发安全隐患。

创新点:提出针对自动驾驶 VLM/VLA 场景的即插即用(plug-and-play)剪枝框架,将驾驶先验知识融入 Token 重要性评估,在实时性约束下确保安全关键信息优先保留。

核心方法:利用场景语义先验(障碍物、车道线等关键区域)增强 Token 重要性评估;即插即用,无需修改原始 VLM 结构;在自动驾驶 VLA 模型上验证有效性。


📄 RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference

字段信息
作者Xu 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:扩散 VLM(SD-XL、FLUX 等)多步去噪每步都需处理完整视觉 Token 序列,推理计算量极大;目前专门针对扩散 VLM 的 Token 剪枝研究极为匮乏。

创新点:首次将视觉 Token 压缩技术扩展至扩散视觉-语言模型,利用去噪过程中的时序冗余性实现无训练加速,开拓 Token 剪枝的全新应用场景。

核心方法:在去噪时间步中分析视觉 Token 的跨步冗余性;跨时间步复用或稀疏化 Token;无需训练,直接应用于预训练扩散 VLM。


📄 Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Semantic Segmentation

字段信息
作者Fang 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub待确认

痛点难点:现有 patch 级方法缺乏语义层级理解,同一语义区域内多个 Token 高度冗余而未被彻底压缩,而跨区域边界的 Token 即使相似度低也各自不可缺少,导致压缩语义一致性差。

创新点:引入语义分割(Semantic Segmentation)先验指导视觉 Token 压缩,以语义区域为单位评估冗余,在语义完整性与区域内冗余消除之间取得更优平衡。

核心方法:利用轻量分割模型或 CLIP 特征对 patch Token 进行语义聚类;在每个语义区域内进行区域内 Token 合并/剪枝,跨区域边界保留代表性 Token;语义分割信息作为结构化先验辅助信号。


📌 类别 H:分析性 / 综述性工作


📄 When Does Pruning Benefit Vision Representations?

字段信息
作者Cassano 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub

核心贡献:系统研究剪枝对视觉表示质量的影响边界——何种架构、数据规模、剪枝类型和稀疏度能使剪枝实质性提升(而非损害)视觉特征表示能力。在 ViT、CNN 等架构和多个基准上,系统对比不同剪枝率/方法对视觉特征质量(线性探针/迁移学习精度)的影响,厘清剪枝有益的充分必要条件,为视觉模型压缩提供理论依据。


📄 Small Vision-Language Models: A Technical Survey

字段信息
作者Mukherjee 等
发表时间2024/2025
录用会议arXiv 预印本
引用数待统计
GitHub

核心贡献:针对小型 VLM(<7B 参数)提供系统性技术综述,涵盖架构优化(高效视觉编码器、轻量融合模块)、压缩技术(剪枝、量化、知识蒸馏、低秩分解)及推理优化等多维度,为研究者和工程师构建完整技术图谱。对比分析 MobileVLM、MiniVLM 等小型 VLM 设计选择,总结在移动/边缘设备约束下实现高效多模态理解的核心技术路线。


📄 Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

字段信息
作者Zichen Wen 等
arXiv2502.11501
发表时间2025年2月
录用会议arXiv 预印本
引用数~15+
GitHub

核心贡献:对 Token 剪枝领域提出根本性反思——现有方法在 VQA 等通用基准上比较,但这些基准对”文本引导”并不特别敏感,使文本无关与文本引导方法看起来性能相近。在强文本依赖任务(如 Visual Haystack 大海捞针)上量化两类方法的性能差距,区分”去除冗余 Token”和”去除不重要 Token”两个不同优化目标,指出现有评估体系的不足,给出可操作的剪枝策略建议。


四、论文信息汇总表

论文简称作者发表时间录用会议引用数GitHub
Vision Transformer Pruning (VTP)Zhu 等2021.04arXiv~200+
Isomorphic PruningFang 等2024.07ECCV 2024~60+VainF/Isomorphic-Pruning
MULTIFLOWFarina 等2024.04CVPR 2024~50+FarinaMatteo/multiflow
Rethinking Pruning for VLMsHe 等2024.04arXiv~25+见论文
POP (Prefill-Only Pruning)He 等2026.02arXiv
VisPrunerZhang 等2024.12ICCV 2025~60+Theia-4869/VisPruner
Towards Lossless Vision Token CompressionZheng 等2024/2025arXiv待确认
Object-Centric Vision Token PruningLi 等2024/2025arXiv待确认
SAINTJeddi 等2024/2025arXiv见论文
VLM-PrunerWu 等2024.12arXiv待确认
LVPruningSun 等2025.01NAACL 2025 Findings~30+见论文
ZSPAPruneZhang 等2025.10arXiv待开源
SGL (A Stitch in Time)Zhao 等2024.12CVPR 2025~80+NUS-HPC-AI-Lab/SGL
LEARNPRUNERTakezoe 等2024/2025arXiv待确认
ATPLi 等2024.12arXiv~15+
AutoPruneWang 等2025.09NeurIPS 2025~10+AutoLab-SAI-SJTU/AutoPrune
SmartTrimWang 等2023.05LREC-COLING 2024~40+kugwzk/SmartTrim
DUET-VLMSingh 等2024/2025arXiv待确认
SwiftVLMQian 等2026.02arXiv待确认
When Does Pruning Benefit?Cassano 等2024/2025arXiv
Small VLMs: A Technical SurveyMukherjee 等2024/2025arXiv
Token Pruning: Right Problem?Wen 等2025.02arXiv~15+
MedPrunerLiu 等2024/2025arXiv待确认
Prune2DriveXiong 等2024/2025arXiv待确认
RedVTPXu 等2024/2025arXiv待确认
Prune Redundancy, Preserve EssenceFang 等2024/2025arXiv待确认

⚠️ 关于引用数:标注”—“的论文为近期发布,引用数据尚不充分,建议通过 Semantic ScholarGoogle Scholar 查验最新数据。
⚠️ 关于 GitHub:标注”待确认”的论文,可通过对应 arXiv 页面(论文摘要末尾通常有代码链接)或作者主页查找最新代码地址。


五、研究趋势与未来展望

5.1 从静态走向动态自适应

早期工作(FastV、LLaMA-VID)采用固定剪枝率,而 AutoPrune、SmartTrim、SwiftVLM 等近期工作转向根据输入复杂度或层间 Token 演化动态调整策略,实现更优的精度-效率权衡。

5.2 重新审视注意力分数的可靠性

VisPruner 系统量化了文本-视觉注意力的位置偏置与分散问题;LEARNPRUNER 用可学习打分替代注意力启发;Token Pruning: Right Problem? 从评估基准层面发出根本性质疑——领域正从”使用注意力”走向”超越注意力”。

5.3 从单阶段推理走向多阶段协同

SGL(小模型引导大模型)和 POP(prefill/decode 阶段感知)均体现了推理流程感知的剪枝设计;SwiftVLM 的跨层 Bypass 机制打破了单层独立决策的局限;这一趋势将推动系统级视角下的剪枝设计。

5.4 从推理加速扩展至训练加速

DUET-VLM 将 Token 压缩同时应用于训练和推理阶段,消除训练-推理不一致问题,降低训练成本。这是未来重要方向,尤其对大规模 VLM 预训练和指令微调具有重要价值。

5.5 任务无关性与一次剪枝多次迁移

MULTIFLOW 开创了任务无关 VLM 剪枝范式,一次剪枝迁移至多个未知任务,显著降低部署成本。如何在更大规模 VLM(GPT-4V 量级)上实现高效任务无关剪枝,仍有巨大探索空间。

5.6 向专用垂直场景延伸

MedPruner(3D 医学影像)、Prune2Drive(自动驾驶)、RedVTP(扩散 VLM)等工作表明,通用方法在特定场景下需针对性适配。随着 VLM 在垂直行业快速落地,领域专用剪枝框架将成为重要分支。


报告生成时间:2026年3月 | 引用数为近似估计,以 Semantic Scholar 和 Google Scholar 为参考,随时间变化请以最新数据为准。