VLM Pruning 方法综述报告
本报告系统梳理了视觉-语言模型(VLM)剪枝领域的代表性研究工作,涵盖方法体系概述、分类框架,以及图中所列每篇论文的痛点分析、创新点、核心方法、发表信息、引用数与代码资源。
一、VLM Pruning 背景与整体概述
随着 LLaVA、InternVL、Qwen-VL、Flamingo 等大型视觉-语言模型在多模态理解任务中取得突破,推理计算开销成为工业部署的核心瓶颈。VLM 的计算负担主要来自两个方面:
- 模型参数量庞大:视觉编码器(ViT)与大型语言模型(LLM)各自拥有数十亿参数,显存和延迟代价极高。
- 视觉 Token 数量冗余:每张图像经 ViT 编码后通常产生数百至数千个 Token(如 LLaVA-NeXT 可达 2880 个),但其中大多数 Token 对下游任务贡献有限,却在 LLM 自注意力中引入 O(N²) 的二次计算复杂度。
剪枝(Pruning) 是应对上述问题的核心技术路径之一,可分为两大维度:
- 权重剪枝(Weight Pruning):移除模型中冗余的参数或结构单元,直接压缩模型尺寸;
- Token 剪枝(Token Pruning / Visual Token Compression):在推理过程中识别并丢弃对任务贡献较小的视觉 Token,减少 LLM 处理的序列长度。
二、方法分类体系
类别 A|结构化权重剪枝(Structured Weight Pruning)
通过移除整块结构单元(通道、注意力头、整层)压缩模型参数量,可直接实现推理加速,适合硬件部署。
代表论文:Vision Transformer Pruning、Isomorphic Pruning、MULTIFLOW、Rethinking Pruning for VLMs
类别 B|任务无关权重剪枝(Task-Agnostic Weight Pruning)
在不依赖下游任务标注的前提下对 VLM 进行一次性剪枝,所得稀疏模型可迁移至多个未知任务。
代表论文:MULTIFLOW
类别 C|文本无关型视觉 Token 剪枝(Text-Agnostic Visual Token Pruning)
仅依赖视觉特征自身(CLS 注意力、特征相似度)评估 Token 重要性,无需跨模态信息,延迟低,可在 LLM 之前完成剪枝,兼容 FlashAttention。
代表论文:VisPruner、Towards Lossless Vision Token Compression、Object-Centric Vision Token Pruning、SAINT、VLM-Pruner
类别 D|文本引导型视觉 Token 剪枝(Text-Guided Visual Token Pruning)
利用语言指令或文本-视觉注意力评估视觉 Token 与当前任务的相关性,针对性地保留任务关键 Token。
代表论文:LVPruning、ZSPAPrune、SGL(A Stitch in Time Saves Nine)、LEARNPRUNER、ATP
类别 E|自适应 / 动态 Token 剪枝(Adaptive & Dynamic Token Pruning)
根据输入样本或任务复杂度动态调整剪枝率与策略,避免固定剪枝计划带来的次优结果。
代表论文:AutoPrune、SmartTrim、DUET-VLM、SwiftVLM
类别 F|阶段感知剪枝(Stage-Aware Pruning)
区分模型推理的不同阶段(prefill 与 decode)对参数的差异化需求,针对特定阶段进行专属剪枝。
代表论文:POP
类别 G|领域专用 VLM 剪枝(Domain-Specific Pruning)
针对自动驾驶、医学影像、扩散模型等特定垂直场景定制的 VLM 加速方案。
代表论文:Prune2Drive、MedPruner、RedVTP、Prune Redundancy Preserve Essence
类别 H|分析性 / 综述性工作(Analysis & Survey)
对现有剪枝方法进行系统综述、反思与评估,厘清领域核心问题。
代表论文:Token Pruning: Are We Solving the Right Problem?、Small VLMs: A Technical Survey、When Does Pruning Benefit?
三、各论文详细解析
📌 类别 A & B:权重剪枝
📄 Vision Transformer Pruning (VTP)
| 字段 | 信息 |
|---|---|
| 作者 | Mingjian Zhu, Yehui Tang, Kai Han(华为诺亚方舟实验室) |
| arXiv | 2104.08500 |
| 发表时间 | 2021年4月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | ~200+ |
| GitHub | 无独立仓库(方法已集成至多个剪枝库) |
痛点难点:ViT 参数规模庞大(ViT-Base ~86M),严重制约移动端部署。已有剪枝方法主要针对 CNN,缺乏专门为 Transformer 中 MSA 和 MLP 设计的结构化剪枝方案,如何有效识别并剪除 ViT 各层维度中不重要的特征是核心难题。
创新点:提出首个专门面向 Vision Transformer 的维度级结构化剪枝方法——通过鼓励各层线性投影维度上的稀疏性,让重要维度自动涌现,以高剪枝率实现高精度保留。
核心方法:
- 稀疏正则化训练:对每层线性投影的通道维度引入 L1 稀疏惩罚,使不重要维度权重趋于零;
- 维度剪枝:按重要性排序剪除冗余维度,同时针对 MSA 的 Q/K/V 投影和 MLP 层;
- 微调恢复:短周期微调恢复精度,整体三阶段流程(训练 → 剪枝 → 微调)。
📄 Isomorphic Pruning for Vision Models
| 字段 | 信息 |
|---|---|
| 作者 | Gongfan Fang, Xinyin Ma, Michael Bi Mi, Xinchao Wang(新加坡国立大学、华为) |
| arXiv | 2407.04616 |
| 发表时间 | 2024年7月 |
| 录用会议 | ECCV 2024 |
| 引用数 | ~60+ |
| GitHub | https://github.com/VainF/Isomorphic-Pruning |
痛点难点:结构化剪枝常用全局重要性排序,但 ViT、CNN 等模型包含自注意力、深度可分离卷积、残差连接等异构子结构,其参数尺度、权重分布和计算拓扑差异悬殊,导致全局排序结果严重偏斜——不同类型结构之间的重要性无法直接比较。
创新点:提出同构剪枝(Isomorphic Pruning):将计算拓扑相同(isomorphic)的子结构归组,在组内独立排序和剪枝,完全自动化,无需手工分析网络拓扑,已集成至 Torch-Pruning v1.4.1。
核心方法:
- 将模型建模为有向计算图,通过图同构检测自动识别并归组相同拓扑的子结构;
- 在每个同构组内部独立进行数据驱动的重要性估计与排序;
- 剪枝后微调恢复精度,DeiT-Base 剪枝后 ImageNet Top-1 达 82.41%,优于同等计算量下从头训练。
📄 MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning
| 字段 | 信息 |
|---|---|
| 作者 | Matteo Farina, Massimiliano Mancini, Elia Cunegatti, Gaowen Liu, Giovanni Iacca, Elisa Ricci(University of Trento / Cisco Research) |
| arXiv | 2404.05621 |
| 发表时间 | 2024年4月 |
| 录用会议 | CVPR 2024 |
| 引用数 | ~50+ |
| GitHub | https://github.com/FarinaMatteo/multiflow |
痛点难点:现有 VLM 剪枝方法均为任务特定(Task-Specific)——面对新任务需从头重新剪枝,且依赖梯度计算,效率低下。如何在不知道目标任务的前提下剪枝,同时保持跨任务的迁移表示能力是关键难题。
创新点:首次形式化定义”任务无关视觉-语言剪枝”(TA-VLP)设定,提出无梯度(gradient-free)框架 MULTIFLOW,速度比同类梯度方法快约 41×,一次剪枝可迁移至多个未知下游任务。
核心方法:
- 将每层建模为二部图,参数重要性同时考虑:① 幅度(magnitude);② 信息流(information flow,即参数所连接的输入/输出节点信号强度);
- 按模态分布解耦引导(视觉/文本/融合模块独立参考各自分布),避免跨模态偏置;
- 在 XVLM、BLIP 两个 VLM,三种视觉-语言任务和三种稀疏度(63%/75%/90%)下超越 8 种 SOTA 基线。
📄 Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration
| 字段 | 信息 |
|---|---|
| 作者 | Shwai He 等 |
| arXiv | 2404.02424 |
| 发表时间 | 2024年4月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | ~25+ |
| GitHub | 见论文链接 |
痛点难点:VLM 剪枝策略研究严重不足:① 如何在视觉编码器和语言模型之间合理分配稀疏度?② 传统 LoRA 微调与稀疏模型根本不兼容——合并 ΔW 后破坏稀疏模式,不合并则引入推理延迟。
创新点:系统性实验揭示有效剪枝策略,并提出 SparseLoRA:将稀疏掩码直接施加于 LoRA 增量权重 ΔW,确保合并后主干权重保持稀疏模式,彻底解决 LoRA 与稀疏模型的不兼容问题。
核心方法:采用 SparseGPT/Wanda 进行权重稀疏化;SparseLoRA 在训练时屏蔽被剪枝位置的梯度更新;实验验证:2:4 结构化稀疏下提升 11.3%,非结构化 70% 稀疏下提升 47.6%。
📄 POP: Prefill-Only Pruning for Efficient Large Model Inference
| 字段 | 信息 |
|---|---|
| 作者 | Junhui He, Zhihui Fu, Jun Wang, Qingan Li(武汉大学 / OPPO Research) |
| arXiv | 2602.03295 |
| 发表时间 | 2026年2月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 暂未开源 |
痛点难点:现有结构化剪枝(如层剪枝)是”阶段无感知的”——对 prefill 和 decode 阶段使用相同缩减架构。然而两阶段对层的需求截然不同:深层对 decode(next-token 预测)至关重要,但对 prefill(上下文编码)高度冗余。
创新点:首次明确区分 prefill/decode 两阶段的剪枝需求,提出仅在 prefill 阶段跳过深层,decode 阶段保留完整架构——在不影响生成质量的前提下大幅加速上下文编码。
核心方法:
- 引入虚拟门机制分析各层对两阶段的差异化重要性;
- 对被跳过层引入独立 KV 投影,在 prefill 时仍能为 decode 阶段生成 KV 缓存;
- 设计边界处理确保首个生成 Token 精度不受影响;在 Llama-3.1、Qwen3-VL、Gemma-3 等模型上验证有效性。
📌 类别 C:文本无关型视觉 Token 剪枝
📄 Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs (VisPruner)
| 字段 | 信息 |
|---|---|
| 作者 | Qizhe Zhang, Aosong Cheng, Ming Lu, Renrui Zhang 等(北京大学 / 中科院自动化所) |
| arXiv | 2412.01818 |
| 发表时间 | 2024年12月 |
| 录用会议 | ICCV 2025 |
| 引用数 | ~60+ |
| GitHub | https://github.com/Theia-4869/VisPruner |
痛点难点:大多数方法用 LLM 内部的文本-视觉注意力评估 Token 重要性。作者首次量化其两大缺陷:① 注意力偏移——RoPE 位置编码长程衰减导致文本 Token 偏向关注序列靠后的视觉 Token(位置偏置);② 注意力分散——权重过于均匀,难以区分重要与不重要 Token。
创新点:发现并量化文本-视觉注意力的系统性缺陷,转而使用视觉编码器 CLS 注意力作为更可靠的重要性指示器,在 LLM 之前完成剪枝,天然兼容 FlashAttention。
核心方法:
- 用 ViT CLS Token 对各视觉 patch 的注意力分数选取显著 Token;
- 从剩余 Token 中基于余弦相似度去除重复,保留多样性 Token;
- 将两者合并送入 LLM,最大化视觉信息覆盖;
- 在 13 个图像和视频基准(10 image + 3 video)上显著超越基于文本-视觉注意力的同类方法。
📄 Towards Lossless Ultimate Vision Token Compression for VLMs
| 字段 | 信息 |
|---|---|
| 作者 | Zheng 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:现有 Token 压缩方法在高压缩比下存在明显信息损失——简单丢弃 Token 的方式无法保留被移除 Token 携带的信息,极端压缩场景下性能大幅下滑,难以实现”无损”极限压缩。
创新点:探索在接近无损前提下实现极高视觉 Token 压缩率,研究如何在最高压缩比下维持模型性能上界。
核心方法:结合 Token 重要性评分与信息蒸馏/融合机制,对被压缩 Token 的信息进行有效保留与再注入,在极高剪枝率(>95%)下仍能保持竞争性性能。
📄 Object-Centric Vision Token Pruning for Vision Language Models
| 字段 | 信息 |
|---|---|
| 作者 | Li 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:大多数 Token 剪枝方法缺乏对图像语义结构的理解,无法区分前景目标区域与背景,在高剪枝率下会丢失对 VQA、视觉推理至关重要的目标级语义信息。
创新点:引入以目标为中心(Object-Centric)的剪枝视角,将目标级语义完整性纳入 Token 保留决策,确保重要语义目标的区域不被破坏性剪枝。
核心方法:利用目标检测/分割先验识别显著目标区域,将 Token 保留与目标区域空间对齐,优先保留包含完整目标语义的 patch,对目标区域内部进一步区分重要性。
📄 Similarity-Aware Token Pruning: Your VLM but Faster (SAINT)
| 字段 | 信息 |
|---|---|
| 作者 | Jeddi 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 见论文(已开源) |
痛点难点:现有 training-free 剪枝方法仅基于单层注意力分数评估 Token 重要性,忽略了 Transformer 层间 Token 演化规律中蕴含的丰富冗余信号;且固定剪枝阈值无法适应不同层间 Token 分布差异。
创新点:系统发现并利用 Transformer 中 Token 演化的三段式规律(aligner-explorer-aggregator),提出基于相似度图模型的动态跨层剪枝框架,无需训练,支持 ViT-only、LLM-only 和混合模式。
核心方法:分析早期(aligner)、中期(explorer)、后期(aggregator)三阶段,早期 Token 可激进压缩;基于余弦相似度构建 Token 图模型,动态优化各层剪枝率;ViT-H/14 在 224px 下实现 2× 吞吐提升,ImageNet Top-1 损失仅 0.6%。
📄 VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm
| 字段 | 信息 |
|---|---|
| 作者 | Wu 等 |
| arXiv | 2512.02700 |
| 发表时间 | 2024年12月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:现有方法在高剪枝率(>88%)下空间结构破坏严重:重要性打分方法倾向于选择局部聚集的显著 Token,导致空间覆盖不足;直接丢弃 Token 导致细粒度信息(OCR、定位等任务关键)永久丢失。
创新点:提出离心式 Token 剪枝(Centrifugal Token Pruning)范式,引入空间稀疏性缓冲机制(BSS),在极高剪枝率下同时保持 Token 空间多样性和细粒度信息。
核心方法:
- BSS 准则:延迟引入空间距离较远的 Token,确保保留 Token 在空间上分散(离心布局);
- 并行贪心选择:高效实现 Token 选取;
- 相似度加权聚合:将被丢弃 Token 的显著信息融合至最近保留 Token;
- 在 5 个 VLM、13 个基准上,88.9% 剪枝率下一致超越强基线,OCRBench 等细节敏感任务上优势突出。
📌 类别 D:文本引导型视觉 Token 剪枝
📄 LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models
| 字段 | 信息 |
|---|---|
| 作者 | Yizheng Sun, Yanze Xin, Hao Li, Jingyuan Sun, Chenghua Lin, Riza Batista-Navarro(曼彻斯特大学 / 帝国理工学院) |
| arXiv | 2501.13652 |
| 发表时间 | 2025年1月 |
| 录用会议 | NAACL 2025 Findings(pp. 4299–4308) |
| 引用数 | ~30+ |
| GitHub | 见论文(已开源) |
痛点难点:纯视觉特征驱动的 Token 压缩方法无法利用语言-视觉交互信息;而大多数语言引导方法需修改原始模型参数,兼容性差,难以即插即用。
创新点:提出轻量跨注意力模块精准评分,无需修改原始 MLLM 任何参数,完全 plug-and-play,兼容任意基于 Transformer 的 MLLM 架构。
核心方法:
- 在 MLLM 特定中间层插入 LVPruning 跨注意力模块,以视觉 Token 为 Query、语言 Token 为 Key/Value;
- 根据交叉注意力分数为每个视觉 Token 预测保留/丢弃决策,原始模型参数完全冻结;
- 联合因果语言建模损失和剪枝率损失训练;
- 削减高达 90% 视觉 Token,推理 TFLOPs 降低 62.1%,9 个基准平均性能损失仅 0.45%。
📄 ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models
| 字段 | 信息 |
|---|---|
| 作者 | Pu Zhang, Yuwei Li, Xingyuan Xian, Guoming Tang(香港科技大学(广州)) |
| arXiv | 2510.17197 |
| 发表时间 | 2025年10月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待开源 |
痛点难点:现有 Token 剪枝方法普遍忽略文本 Prompt 的语义引导,无法在 zero-shot 设置下优先保留与用户意图相关的视觉 Token,在强语言依赖任务上效果不佳。
创新点:首次从 prompt-aware 视角建模 zero-shot 视觉 Token 剪枝问题,形式化为任务相关性与信息多样性之间的平衡优化,全程无需训练或微调。
核心方法:
- 第一阶段:Prompt 嵌入与视觉 Token 余弦相似度选取”核心任务相关 Token”;
- 第二阶段:MMR 贪心策略选取”多样性补充 Token”;
- 将两类 Token 合并送入 LLM,在多个 VLM 和基准上与 SOTA 持平甚至超越。
📄 A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs (SGL)
| 字段 | 信息 |
|---|---|
| 作者 | Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You(NUS / 阿里巴巴 DAMO / UT Austin) |
| arXiv | 2412.03324 |
| 发表时间 | 2024年12月 |
| 录用会议 | CVPR 2025(pp. 19814–19824) |
| 引用数 | ~80+ |
| GitHub | https://github.com/NUS-HPC-AI-Lab/SGL |
痛点难点:作者通过实验揭示三个关键发现:① 单层注意力不足以精准识别关键视觉 Token,FastV 在低保留率下性能急剧下降;② 全层聚合注意力效果好,但需完整推理 pass,本身就是被加速的对象;③ 小模型的全层聚合注意力与大模型高度相似,可作为高效替代。
创新点:首次提出”以小型 VLM 的全层聚合注意力引导大型 VLM 的 Token 剪枝”的协同推理框架(SGL),同时引入小模型早退机制(SEE)进一步降低计算量。
核心方法:
- SGP:小型 VLM(如 InternVL-2B)跑完整推理,聚合所有层/头的注意力分数,生成全局 Token 重要性排名,作为大型 VLM(如 InternVL-26B/76B)剪枝先验;
- SEE:评估小模型预测置信度,超过阈值则直接使用小模型答案,完全跳过大模型;
- 在 11 个基准上验证,视觉 Token 剪枝率高达 91% 仍保持竞争性性能。
📄 LEARNPRUNER: Rethinking Attention-Based Token Pruning in Vision Language Models
| 字段 | 信息 |
|---|---|
| 作者 | Takezoe 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:主流方法直接将注意力分数用于 Token 重要性打分,但这些分数并非为剪枝目的而设计,与最终任务输出质量之间存在系统性偏差,导致基于注意力的剪枝存在内在局限。
创新点:系统性反思注意力启发式规则的局限性,提出可学习的 Token 评分器,通过任务导向训练信号学习更准确的 Token 重要性度量,从根本上替代注意力启发式规则。
核心方法:训练轻量可学习评分模块,以任务损失为监督直接优化 Token 重要性预测;评分器与 VLM 联合训练,使重要性评估与下游任务性能直接对齐;在细粒度视觉任务上优势明显。
📄 Efficient Vision-Language Reasoning via Adaptive Token Pruning (ATP)
| 字段 | 信息 |
|---|---|
| 作者 | Xue Li 等 |
| arXiv | 2512.12701 |
| 发表时间 | 2024年12月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | ~15+ |
| GitHub | 暂未开源 |
痛点难点:VLM 对所有视觉 Token 一视同仁处理,大量背景 patch 贡献极小,造成计算浪费;已有方法要么纯视觉无关文本,要么需修改模型结构,难以实现轻量自适应剪枝。
创新点:提出混合重要性评分(Hybrid Importance Score),将 ViT 内视觉显著性(CLS 注意力)与 CLIP 跨模态相关性(文本-图像相似度)统一融合,无需训练或修改骨干网络,兼容 BLIP-2、LLaVA、Flamingo 等主流架构。
核心方法:
- 视觉显著性(ViT CLS 注意力)+ 跨模态相关性(CLIP 余弦相似度)加权组合为混合分数;
- 保留 Top-K Token 送入 LLM;
- VQAv2、GQA、COCO 上减少约 40% FLOPs,端到端延迟加速约 1.5×,准确率损失 <1%。
📌 类别 E:自适应 / 动态 Token 剪枝
📄 AutoPrune: Each Complexity Deserves a Pruning Policy
| 字段 | 信息 |
|---|---|
| 作者 | Hanshi Wang, Yuhao Xu, Zekun Xu, Jin Gao, Yufan Liu, Weiming Hu, Ke Wang, Zhipeng Zhang(上海交通大学 AutoLab) |
| arXiv | 2509.23931 |
| 发表时间 | 2025年9月 |
| 录用会议 | NeurIPS 2025 |
| 引用数 | ~10+ |
| GitHub | https://github.com/AutoLab-SAI-SJTU/AutoPrune |
痛点难点:现有 training-free 方法采用固定剪枝计划——对不同输入统一应用相同剪枝率曲线,无法适应样本复杂度差异:简单样本无法激进剪枝(浪费效率),复杂样本无法保守剪枝(损失性能)。认知科学表明人类视觉处理遵循”先广泛探索、后聚焦”规律,而固定策略无法模拟此过程。
创新点:首次从认知神经科学角度系统分析 VLM 中样本与任务复杂度对 Token 保留模式的影响,提出通过 Sigmoid 型保留曲线(logistic retention curve)为每个输入生成个性化剪枝策略,且在给定计算预算下保证全局约束。
核心方法:
- 计算视觉-文本 Token 间互信息量化输入复杂度;
- 将复杂度映射为 Sigmoid 保留曲线,斜率/拐点由互信息线性调制;简单样本→早期激进剪枝;复杂样本→晚期保守剪枝;
- 解析积分对曲线归一化,保证 Token/FLOPs 预算约束;
- 支持 VLM(LLaVA-1.5/NeXT)和 VLA(自动驾驶 Senna)。
实验结果:LLaVA-1.5-7B 上剪枝 89% 视觉 Token,FLOPs 减少 76.8%,保留 96.7% 原始精度,超越 PDrop (CVPR 2025) 9.1%。
📄 SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models
| 字段 | 信息 |
|---|---|
| 作者 | Zekun Wang, Jingchang Chen 等 |
| arXiv | 2305.15033 |
| 发表时间 | 2023年5月 |
| 录用会议 | LREC-COLING 2024 |
| 引用数 | ~40+ |
| GitHub | https://github.com/kugwzk/SmartTrim |
痛点难点:Transformer-based VLM 在 Token 表示和注意力头中均存在冗余,但冗余程度因输入差异悬殊,固定策略无法自适应分配计算资源;此前无工作同时对 Token 和注意力头进行联合自适应剪枝。
创新点:首个同时自适应剪枝 Token 和注意力头的 VLM 加速框架;提出自蒸馏(Self-Distillation)策略将剪枝模型与全容量版本对齐,无需额外蒸馏数据。
核心方法:各层插入轻量 Trimmer 模块,以当前层 Token 表示为输入,实例级动态预测 Token 和注意力头的保留概率;Self-Distillation 对齐预测分布;METER、BLIP 等模型推理速度提升 2–3×。
📄 DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference
| 字段 | 信息 |
|---|---|
| 作者 | Singh 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:现有 Token 压缩方法几乎全部针对推理阶段,训练时仍需处理完整 Token 序列,显存和时间开销居高不下;训练与推理的 Token 分布不一致(training-inference mismatch)引发额外性能下降。
创新点:首次将 Token 压缩统一应用于 VLM 的训练和推理两个阶段,消除训练-推理不一致问题,同时降低训练显存开销,实现端到端高效。
核心方法:双阶段统一压缩(ViT 侧 + LLM 侧);训练时即启用 Token 减少策略,模型端到端联合优化效率与性能;模型在训练阶段即适应低 Token 数量的输入分布。
📄 SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass
| 字段 | 信息 |
|---|---|
| 作者 | Chen Qian, Xinran Yu, Danyang Li, Guoxuan Chi, Zheng Yang, Qiang Ma, Xin Miao 等 |
| arXiv | 2602.03134 |
| 发表时间 | 2026年2月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:现有方法(FastV、PDrop)一旦在某层做出剪枝决策,被丢弃 Token 的信息永久消失。通过逐层分析,作者发现视觉 Token 的重要性在不同层之间存在显著差异——浅层认为不重要的 Token 在深层反而可能对文本条件推理高度关键,过早剪枝导致细粒度信息不可逆损失。
创新点:提出跨层 Token Bypass 范式:被某层认为不重要的 Token 不直接丢弃,通过旁路路径传递至后续层重新评估,赋予 Token 在深层”复活”的机会,从根本上解决过早剪枝的不可逆信息损失问题。
核心方法:
- 将视觉 Token 分为保留(retained)和旁路(bypass)两类;
- 旁路 Token 跳过当前层完整计算,通过轻量路径传播特征;
- 在后续深层通过 Token 对齐(token alignment)重新评估并恢复关键 Token;
- 两个 VLM、9 个基准上显著超越现有 training-free 方法,localization 等细粒度任务优势突出。
📌 类别 G:领域专用 VLM 剪枝
📄 MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Analysis
| 字段 | 信息 |
|---|---|
| 作者 | Liu 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:3D 医学图像(CT/MRI)体积数据经 ViT 编码后产生极大量 Token;通用方法忽视医学影像特有的局部解剖结构和三维各向异性;医学数据稀缺,需无训练方案保证对稀有病症的泛化性。
创新点:针对 3D 医学图像设计分层(hierarchical)无训练 Token 剪枝策略,在切片层和体素块层进行两级层次化重要性评估,适配医学影像三维各向异性特性。
核心方法:先在切片级筛选关键切片,再在 patch 级对保留切片精细剪枝;Training-free,直接利用预训练 VLM 注意力模式;针对病灶/器官局部集中的特点设计专门的重要性评分准则。
📄 Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
| 字段 | 信息 |
|---|---|
| 作者 | Xiong 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:自动驾驶场景对 VLM 推理延迟要求极为严格(实时性);通用方法未对驾驶安全关键区域(障碍物、交通信号、行人)做特殊保护,高剪枝率下可能引发安全隐患。
创新点:提出针对自动驾驶 VLM/VLA 场景的即插即用(plug-and-play)剪枝框架,将驾驶先验知识融入 Token 重要性评估,在实时性约束下确保安全关键信息优先保留。
核心方法:利用场景语义先验(障碍物、车道线等关键区域)增强 Token 重要性评估;即插即用,无需修改原始 VLM 结构;在自动驾驶 VLA 模型上验证有效性。
📄 RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference
| 字段 | 信息 |
|---|---|
| 作者 | Xu 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:扩散 VLM(SD-XL、FLUX 等)多步去噪每步都需处理完整视觉 Token 序列,推理计算量极大;目前专门针对扩散 VLM 的 Token 剪枝研究极为匮乏。
创新点:首次将视觉 Token 压缩技术扩展至扩散视觉-语言模型,利用去噪过程中的时序冗余性实现无训练加速,开拓 Token 剪枝的全新应用场景。
核心方法:在去噪时间步中分析视觉 Token 的跨步冗余性;跨时间步复用或稀疏化 Token;无需训练,直接应用于预训练扩散 VLM。
📄 Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Semantic Segmentation
| 字段 | 信息 |
|---|---|
| 作者 | Fang 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | 待确认 |
痛点难点:现有 patch 级方法缺乏语义层级理解,同一语义区域内多个 Token 高度冗余而未被彻底压缩,而跨区域边界的 Token 即使相似度低也各自不可缺少,导致压缩语义一致性差。
创新点:引入语义分割(Semantic Segmentation)先验指导视觉 Token 压缩,以语义区域为单位评估冗余,在语义完整性与区域内冗余消除之间取得更优平衡。
核心方法:利用轻量分割模型或 CLIP 特征对 patch Token 进行语义聚类;在每个语义区域内进行区域内 Token 合并/剪枝,跨区域边界保留代表性 Token;语义分割信息作为结构化先验辅助信号。
📌 类别 H:分析性 / 综述性工作
📄 When Does Pruning Benefit Vision Representations?
| 字段 | 信息 |
|---|---|
| 作者 | Cassano 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | — |
核心贡献:系统研究剪枝对视觉表示质量的影响边界——何种架构、数据规模、剪枝类型和稀疏度能使剪枝实质性提升(而非损害)视觉特征表示能力。在 ViT、CNN 等架构和多个基准上,系统对比不同剪枝率/方法对视觉特征质量(线性探针/迁移学习精度)的影响,厘清剪枝有益的充分必要条件,为视觉模型压缩提供理论依据。
📄 Small Vision-Language Models: A Technical Survey
| 字段 | 信息 |
|---|---|
| 作者 | Mukherjee 等 |
| 发表时间 | 2024/2025 |
| 录用会议 | arXiv 预印本 |
| 引用数 | 待统计 |
| GitHub | — |
核心贡献:针对小型 VLM(<7B 参数)提供系统性技术综述,涵盖架构优化(高效视觉编码器、轻量融合模块)、压缩技术(剪枝、量化、知识蒸馏、低秩分解)及推理优化等多维度,为研究者和工程师构建完整技术图谱。对比分析 MobileVLM、MiniVLM 等小型 VLM 设计选择,总结在移动/边缘设备约束下实现高效多模态理解的核心技术路线。
📄 Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?
| 字段 | 信息 |
|---|---|
| 作者 | Zichen Wen 等 |
| arXiv | 2502.11501 |
| 发表时间 | 2025年2月 |
| 录用会议 | arXiv 预印本 |
| 引用数 | ~15+ |
| GitHub | — |
核心贡献:对 Token 剪枝领域提出根本性反思——现有方法在 VQA 等通用基准上比较,但这些基准对”文本引导”并不特别敏感,使文本无关与文本引导方法看起来性能相近。在强文本依赖任务(如 Visual Haystack 大海捞针)上量化两类方法的性能差距,区分”去除冗余 Token”和”去除不重要 Token”两个不同优化目标,指出现有评估体系的不足,给出可操作的剪枝策略建议。
四、论文信息汇总表
| 论文简称 | 作者 | 发表时间 | 录用会议 | 引用数 | GitHub |
|---|---|---|---|---|---|
| Vision Transformer Pruning (VTP) | Zhu 等 | 2021.04 | arXiv | ~200+ | — |
| Isomorphic Pruning | Fang 等 | 2024.07 | ECCV 2024 | ~60+ | VainF/Isomorphic-Pruning |
| MULTIFLOW | Farina 等 | 2024.04 | CVPR 2024 | ~50+ | FarinaMatteo/multiflow |
| Rethinking Pruning for VLMs | He 等 | 2024.04 | arXiv | ~25+ | 见论文 |
| POP (Prefill-Only Pruning) | He 等 | 2026.02 | arXiv | — | — |
| VisPruner | Zhang 等 | 2024.12 | ICCV 2025 | ~60+ | Theia-4869/VisPruner |
| Towards Lossless Vision Token Compression | Zheng 等 | 2024/2025 | arXiv | — | 待确认 |
| Object-Centric Vision Token Pruning | Li 等 | 2024/2025 | arXiv | — | 待确认 |
| SAINT | Jeddi 等 | 2024/2025 | arXiv | — | 见论文 |
| VLM-Pruner | Wu 等 | 2024.12 | arXiv | — | 待确认 |
| LVPruning | Sun 等 | 2025.01 | NAACL 2025 Findings | ~30+ | 见论文 |
| ZSPAPrune | Zhang 等 | 2025.10 | arXiv | — | 待开源 |
| SGL (A Stitch in Time) | Zhao 等 | 2024.12 | CVPR 2025 | ~80+ | NUS-HPC-AI-Lab/SGL |
| LEARNPRUNER | Takezoe 等 | 2024/2025 | arXiv | — | 待确认 |
| ATP | Li 等 | 2024.12 | arXiv | ~15+ | — |
| AutoPrune | Wang 等 | 2025.09 | NeurIPS 2025 | ~10+ | AutoLab-SAI-SJTU/AutoPrune |
| SmartTrim | Wang 等 | 2023.05 | LREC-COLING 2024 | ~40+ | kugwzk/SmartTrim |
| DUET-VLM | Singh 等 | 2024/2025 | arXiv | — | 待确认 |
| SwiftVLM | Qian 等 | 2026.02 | arXiv | — | 待确认 |
| When Does Pruning Benefit? | Cassano 等 | 2024/2025 | arXiv | — | — |
| Small VLMs: A Technical Survey | Mukherjee 等 | 2024/2025 | arXiv | — | — |
| Token Pruning: Right Problem? | Wen 等 | 2025.02 | arXiv | ~15+ | — |
| MedPruner | Liu 等 | 2024/2025 | arXiv | — | 待确认 |
| Prune2Drive | Xiong 等 | 2024/2025 | arXiv | — | 待确认 |
| RedVTP | Xu 等 | 2024/2025 | arXiv | — | 待确认 |
| Prune Redundancy, Preserve Essence | Fang 等 | 2024/2025 | arXiv | — | 待确认 |
⚠️ 关于引用数:标注”—“的论文为近期发布,引用数据尚不充分,建议通过 Semantic Scholar 或 Google Scholar 查验最新数据。
⚠️ 关于 GitHub:标注”待确认”的论文,可通过对应 arXiv 页面(论文摘要末尾通常有代码链接)或作者主页查找最新代码地址。
五、研究趋势与未来展望
5.1 从静态走向动态自适应
早期工作(FastV、LLaMA-VID)采用固定剪枝率,而 AutoPrune、SmartTrim、SwiftVLM 等近期工作转向根据输入复杂度或层间 Token 演化动态调整策略,实现更优的精度-效率权衡。
5.2 重新审视注意力分数的可靠性
VisPruner 系统量化了文本-视觉注意力的位置偏置与分散问题;LEARNPRUNER 用可学习打分替代注意力启发;Token Pruning: Right Problem? 从评估基准层面发出根本性质疑——领域正从”使用注意力”走向”超越注意力”。
5.3 从单阶段推理走向多阶段协同
SGL(小模型引导大模型)和 POP(prefill/decode 阶段感知)均体现了推理流程感知的剪枝设计;SwiftVLM 的跨层 Bypass 机制打破了单层独立决策的局限;这一趋势将推动系统级视角下的剪枝设计。
5.4 从推理加速扩展至训练加速
DUET-VLM 将 Token 压缩同时应用于训练和推理阶段,消除训练-推理不一致问题,降低训练成本。这是未来重要方向,尤其对大规模 VLM 预训练和指令微调具有重要价值。
5.5 任务无关性与一次剪枝多次迁移
MULTIFLOW 开创了任务无关 VLM 剪枝范式,一次剪枝迁移至多个未知任务,显著降低部署成本。如何在更大规模 VLM(GPT-4V 量级)上实现高效任务无关剪枝,仍有巨大探索空间。
5.6 向专用垂直场景延伸
MedPruner(3D 医学影像)、Prune2Drive(自动驾驶)、RedVTP(扩散 VLM)等工作表明,通用方法在特定场景下需针对性适配。随着 VLM 在垂直行业快速落地,领域专用剪枝框架将成为重要分支。
报告生成时间:2026年3月 | 引用数为近似估计,以 Semantic Scholar 和 Google Scholar 为参考,随时间变化请以最新数据为准。