先提醒两点:

  1. AdaCM2 更准确说是 query-aware memory reduction,不只是普通 patch pruning。

  2. VLTPtask-oriented segmentation 场景,不是通用 VQA/Chat MLLM,但它很适合放进“专门加 query-aware 模块”这一类。 (CVF Open Access)

论文query 信号信号来源类型生效位置 / 剪枝位置粒度training-free / 训练方式一句话概括
SparseVLM先选出与视觉相关的文本 token,再用 decoder 内 visual-text self-attention 给视觉 token 打分内部 attention 直接读取LLM decoder 多层内部,逐层 progressive sparsificationimage/video visual tokenstraining-free用模型内部 attention 直接做 text-guided 逐层剪枝,还带 token recycling。 (arXiv)
PruneVidquestion-to-video attention 评估 token 对问题的相关性内部 attention 直接读取先做时空 merging,再在 LLM 中间层 / prefill 阶段video tokens,兼顾时空training-free“先去冗余,再用中间层问句-视频 attention 做二次筛选”。 (arXiv)
FlexSelectreference transformer layer 的 cross-modal attention 读 token relevance内部 attention 直接读取在进入重推理前做筛选;核心依据是 reference layerlong-video video tokens核心 ranking 是 training-free;另有一个轻量 selector 可监督训练复现该 ranking关键不是“有没有用 attention”,而是“找哪一层的 attention 最可信”。 (arXiv)
DyToK从 VLLM 内部 attention 提取 query-conditioned keyframe prior,并按帧动态分配保留比例内部 attention 直接读取主要作用在 帧级 token budget 分配,再配合底层压缩器剪帧内 tokenframe-level budget + frame 内 token compressiontraining-free它更像“query-aware 动态分帧配额”,不是直接逐 patch 排名。 (arXiv)
AdaCM2cross-modality attention 衡量视觉 token 与文本 prompt 的相关性内部 attention / cross-modal moduleQ-Former / video cache memory reduction 阶段,按层压缩记忆video cache / memory tokens论文没有把它表述成 training-free 插件;是专门设计的 memory reduction 框架更准确说是 query-aware memory pruning,按层保留与文本更相关的视觉记忆。 (CVF Open Access)
LVPruning插入 cross-attention decision module,让 vision tokens attend to language tokens 计算重要性专门的 query-aware 模块插在 多个 LLM 层 中做 progressive pruningvision tokens需要训练插入的 decision modules;原模型冻结和 SparseVLM 的区别在于:它不是读原 attention,而是显式学一个语言引导的剪枝器
VLTPMLLM 先生成 SEG token / reasoning guidance,prune decoder 用它来预测 token relevance专门的 query-aware 模块插在 ViT 多个层 中,做 multi-stage pruning 与 reactivationimage patch tokens需要训练 prune decoder,并可联合训练 mask decoder这是“把 query guidance 前移到视觉 backbone 里剪”的代表。 (arXiv)
HICom直接把 instruction 作为条件注入压缩过程专门的 query-aware 模块hybrid-level:local 注入 grouped visual tokens,global 注入 learnable tokensvideo tokens不是 training-free;还有 conditional pre-training它不是从 attention 里读 query relevance,而是把 instruction 显式灌进压缩模块。 (arXiv)
TRIM外部 CLIP text-image similarity 给视觉 token 打分,再结合 IQR / outlier 规则选 token外部信号LLM 之前 做 token reductionimage tokenstraining-free不依赖 MLLM 内部 attention,而是借外部 CLIP 做 query-aware 预筛选。 (arXiv)
CDPruner把 instruction relevance 与 token similarity 合成 conditional diversity,再用 DPP 选子集结构化优化 / 外部建模更偏 LLM 前 / visual embedding 级 的子集选择image/video visual tokenstraining-free,model-agnostic它把“query-aware 剪枝”写成了一个条件化 subset selection 问题,而不是直接看 attention。 (arXiv)
D-CoDe先把原问题 分解成 sub-questions,再让压缩过程受这些子问题引导结构化 query 重写属于 compression 外层的推理控制;同时配合动态帧/空间压缩representative frames + spatial tokenstraining-free它最特别的地方是:先改写 query,再间接改变压缩重点。 (arXiv)

你可以直接在综述里这样分三类

1. 直接读内部 attention

SparseVLM / PruneVid / FlexSelect / DyToK / AdaCM2

这类方法共同点是:
query relevance 直接从模型内部已经形成的跨模态 attention 里“读出来”。
区别主要在于它们读的对象不同:

  • SparseVLM、PruneVid 更像 token-level relevance ranking

  • FlexSelect更强调 哪一层的 attention 最可信

  • DyToK更偏 frame-level allocation

  • AdaCM2更偏 memory/cache reduction。 (arXiv)

2. 专门加 query-aware 模块

LVPruning / VLTP / HICom

这类方法不是读原模型 attention,而是显式设计一个条件模块,让 query / instruction 直接参与保留决策。
因此通常更“强条件化”,但代价是更常需要训练,插件化程度和训练成本要单独考虑。

3. 外部信号 / 结构化方式

TRIM / CDPruner / D-CoDe

这类方法把 query-aware 看成一个更广义的问题:

  • TRIM:外部 CLIP 相关性;

  • CDPruner:条件化多样性最优化;

  • D-CoDe:先把 query 拆成子问题再引导压缩。
    也就是说,它们不把“attention score”当唯一答案。 (arXiv)


你做自己的方法时,这个表最有用的一个观察

如果你后面想设计自己的 query-aware video pruning,其实可以直接从这三种思路里选一条主线:

  • 最省事、最像 training-free 插件:学 PruneVid / FlexSelect / DyToK,直接读内部 attention。 (arXiv)

  • 最“正统”的 query-conditioned pruning:学 LVPruning / HICom,单独做 query-aware selector。

  • 最容易写出方法新意:学 CDPruner / D-CoDe,把 query 变成结构化约束,而不只是一个 attention 分数。 (arXiv)

我也可以继续帮你整理成一版 更适合论文 related work 的精简表,只保留:方法 | query信号 | 剪枝位置 | 是否training-free | 代表特点