一、图像 LVLM / MLLM:核心论文逐篇速记

  1. PyramidDrop
    核心想法是:越往深层,视觉 token 冗余越大,所以不在一开始猛剪,而是在 LLM 的几个 stage 末尾分阶段逐步丢 token,形成“金字塔式”递减。
    打分上不是 query-aware 的复杂评分,而是用轻量 token 相似度判断冗余,越相似越容易被丢。实现上通常是在 stage 边界插一个 pruning step,把相似/冗余 token 去掉后再送入后续层。 (OpenReview)

  2. A Stitch in Time Saves Nine / SGL
    它的关键点是:大模型自己算“全层 global attention”太贵,于是用小 VLM 先跑一遍,把所有层、所有头聚合后的全局 attention map当作大模型的 token 重要性代理。
    打分逻辑就是:attention 聚合值越高,token 越重要;然后按排名保留 top-k。实现上分两步:先用小模型生成 global attention 排序,再拿这个排序去剪大模型视觉 token;另外还配了early exit,小模型答案够可靠时直接不调大模型。 (arXiv)

  3. HiRED
    这是给高分辨率图像设计的。它先把图像分块,再根据 ViT 中 CLS token 对各分区的注意力来分配 token budget。
    打分逻辑本质上是分区级 saliency:CLS 更关注的图像块,分到更多 token 预算;不重要区域少留甚至早丢。实现上发生在vision encoder 到 LLM 之前,属于 early dropping。 (arXiv)

  4. Fit and Prune / FitPrune
    它不是在线每次临时算一个 importance,而是先用一小批校准样本,拟合一套 pruning recipe
    打分/目标函数是:找一个剪枝方案,使剪枝前后 attention distribution 的差异最小。实现上先离线统计 attention,再在给定 budget 下求最优 recipe;推理时按这套 recipe 直接剪,因此很快。 (arXiv)

  5. HiPrune
    这篇的思路是利用vision encoder 的层级注意力结构:中层更偏物体/局部,深层更偏全局语义。
    因此它不是只保留一种 token,而是保留不同角色的 token,比如anchor token(物体核心)+ buffer token(局部连续性)+ register/global token(全局上下文)。打分逻辑来自不同层 attention 的层级信号,实现上是 training-free 的层级筛选。这里我主要依据论文页摘要信息整理。 (Emergent Mind)

  6. ZOO-Prune
    它不相信 raw attention 足够稳,而是直接估计“这个 token 被扰动后,模型输出会变多少”。
    打分逻辑是zeroth-order sensitivity:在 projection layer 对 token 做小扰动,观察输出变化,变化越大说明越重要;同时还强调不要选一堆重复 token,所以会兼顾互补性/多样性。实现上不需要反传,只做轻量 forward perturbation。 (OpenReview)

  7. AgilePruner
    这篇的核心结论是:只看 attention 容易保留重复 token,只看 diversity 又容易带来 hallucination
    所以它的方法论是自适应平衡 attention importance 和 feature diversity。打分逻辑不是单一指标,而是混合式 objective;实现上是根据样本情况动态调平两者,而不是固定只走 attention 或只走 diversity。这里我依据 OpenReview/项目页摘要做简化。 (OpenReview)

  8. DivPrune
    它把 token pruning 直接写成Max-Min Diversity Problem
    打分逻辑不是“谁最重要”,而是“被选中的 token 彼此尽量不重复”,也就是最大化保留集合的多样性。实现上通常是基于 token 特征距离做子集选择,保留代表性最强、冗余最小的一组。 (arXiv)

  9. SCOPE
    这篇是在“显著性”之外再加“覆盖度”。
    打分逻辑是:对每个候选 token 计算coverage gain,再和它自己的saliency score合成一个 SCOPE score,然后greedy 迭代地每次选分数最高的 token。实现上很像 set coverage / submodular 风格的逐步选子集。 (arXiv)

  10. Beyond Attention or Similarity / CDPruner
    它认为 attention 会选出很多“都重要但彼此重复”的 token,而纯 similarity 又不考虑指令。
    所以打分逻辑改成conditional diversity:先在给定 instruction 条件下定义 token 间相似性,再用 DPP 选一组既和问题相关、彼此又不重复的 token。实现上是 training-free 的条件化子集选择。 (arXiv)

  11. LVPruning
    这篇是典型的语言引导视觉剪枝
    打分逻辑来自text token 和 vision token 的 cross-attention 交互强度;跟语言更相关的视觉 token 得分更高。实现上往原模型边上插一个 cross-attention decision module,不改原始 MLLM 参数。 (arXiv)

  12. VLTP
    这篇更像“任务导向”的 token pruning。
    打分逻辑是让一个pruning decoder同时看 image tokens 和 vision-language guidance,预测每个 token 与当前任务的相关性。实现上是在 ViT deeper layers 前把低相关 token 剪掉,只让高相关 token 继续向后传播。 (arXiv)

  13. CROP
    这篇是两步法:先找与问题相关的图像区域,再压缩。
    打分逻辑先是region relevance,然后有两条实现路径:PLC 在 LLM 前对不同区域按不同压缩率压缩;ILP 则在早期 LLM 层里按该区域引导做 pruning。它的优势是明显更 query-aware。 (arXiv)

  14. VisionZip
    这篇不是纯丢弃,而是“重要 token 保留 + 其余 token 合并”。
    打分逻辑是先根据 visual token attention 找出少量 dominant tokens;剩余 token 按语义相似性合成 contextual tokens。实现上因此兼有 pruning 和 merging 两种味道。 (arXiv)

  15. LLaVA-Mini
    这篇严格说不是“在线剪枝”,而是结构性压缩
    核心观察是视觉 token 的主要作用发生在早层,于是它先做modality pre-fusion,把视觉信息提前融合进文本,再把送入 LLM backbone 的视觉 token 压到 1 个。打分逻辑不是逐 token 排名,而是通过预融合直接把大部分 token“吸收掉”。 (arXiv)

  16. PVC
    它把图像也视为“静态视频”,用统一的视频式压缩框架。
    剪枝/压缩逻辑是:当前帧 token 只补充前面帧没提取到的信息,所以 token 会被逐帧渐进压缩。实现上偏 progressive compression,而不是一次性 hard prune。 (arXiv)

  17. AIM
    这是“先 merge、再 prune”的典型代表。
    打分逻辑分两段:LLM 前用embedding similarity迭代合并相似 token;LLM 内再用multimodal importance做 progressive pruning。实现上同时兼容 image 和 video LLM。 (arXiv)

  18. VoCo-LLaMA
    这篇是 learned compression,不是纯 test-time pruning。
    核心做法是引入VoCo compression tokens,在 instruction tuning 里通过attention distillation学会让少量压缩 token 代替原始大批视觉 token。打分逻辑不再是手工 importance score,而是训练出一组能承载视觉信息的压缩 token。 (arXiv)

  19. PACT
    它是“prune + cluster”混合流派。
    打分逻辑先用一个不依赖 attention 的 importance metric筛掉无关 token,然后把剩余冗余 token 用 Distance-Bounded Density Peak Clustering 聚类并合并。实现上优点是兼容 FlashAttention,因为不需要直接读注意力矩阵。 (arXiv)

  20. ATP-LLaVA
    这篇强调不同样本、不同层需要不同剪枝率。
    打分逻辑由一个轻量 ATP module 动态产生:它同时输出 token importance 和 pruning threshold,所以是instance-wise + layer-wise 自适应;另外还有 SAP 强化空间一致性。实现上可插在任意两层之间。 (arXiv)

  21. Visual Tokens Withdrawal / VTW
    这篇很适合你做 baseline。
    核心观察是:视觉信息会在前几层逐步迁移到文本 token,中后层视觉 token 价值明显下降,所以干脆在某一层后整段撤掉全部视觉 token。打分逻辑不再是逐 token 排序,而是选 withdrawal layer;层位置通过小规模校准集上的 KL divergence criterion 决定。 (arXiv)

  22. SparseVLM
    这篇是文本引导、免训练
    打分逻辑是先挑出与当前语义相关的 text tokens,再利用self-attention 矩阵去反推 visual token 的重要性;同时用rank-based strategy给每层定 sparsification ratio。实现上还带 token recycling,把被剪掉的信息压成更紧凑表示。 (arXiv)

  23. Less is More / TRIM
    这篇的核心是用 CLIP metric 来做 token reduction。
    打分逻辑可以理解成:用 CLIP 风格的图文相关性/匹配信号评估哪些图像 token 更值得保留,而不是直接依赖 LLM 内部注意力。实现上属于外部相关性打分 + 选 token。 (arXiv)

  24. Dynamic-LLaVA
    它关心的不只是 prefill,而是整个生成阶段
    打分逻辑由两个可学习 predictor 动态决定:prefill 时压视觉上下文,decoding 时继续压视觉-语言联合上下文,并分别适配带/不带 KV cache 的模式。实现上因此能把“只加速首轮、不加速后续生成”的问题补上。 (arXiv)

二、视频 / 长视频:

  1. KVTP / Keyframe-oriented Vision Token Pruning
    这篇很适合长视频。
    核心逻辑是把关键帧选择帧内 token pruning结合起来:不是只选关键帧,也不是所有帧一刀切,而是根据帧和问题的相关性给每帧分配不同剪枝率。打分逻辑是 frame relevance to query;实现上兼顾时序连续性和帧内压缩。 (arXiv)

  2. TimeChat-Online
    这是流式视频场景。
    打分逻辑不是语言引导,而是看相邻帧的变化量:变化小就认为是冗余静态内容,靠 Differential Token Drop (DTD) 直接滤掉;变化大再保留。实现上很像基于 temporal delta 的在线压缩。 (arXiv)

  3. DyCoke
    它针对视频里“不同解码步关注不同帧”的现象。
    所以它不做一次性静态剪枝,而是在decoding 过程中动态压缩。打分逻辑随当前解码状态变化,哪个时刻当前问题/生成更关注哪个帧,就优先保留对应 token。实现上属于 decode-time dynamic compression。 (arXiv)

  4. PruneVid
    这是很清楚的两阶段。
    第一步先做时空 token merging,减少视频天然冗余;第二步利用 question token 相关的注意力,进一步剪掉与问题弱相关的视觉 token。也就是说它兼顾“视频本身冗余”和“任务相关性”两种标准。 (arXiv)

  5. HICom / Hybrid-Level Instruction Injection
    这篇是视频 token compression 的 query-aware 代表。
    打分逻辑来自instruction 条件注入:一方面在局部 grouped visual tokens 里注入指令,另一方面在全局 learnable tokens 里注入指令,然后通过 attention 做条件压缩。实现上就是 local/global 双层条件压缩。 (arXiv)

视频分类

你这份“视频部分”里,其实混了三类工作:
一类是直接对视频 token 做 pruning / merging;一类是用 keyframe / memory / cache 先缩短有效上下文;还有一类是改推理流程或策略学习,本质上不只是“剪 token”,但对 token 数和推理成本有同样作用。 (arXiv)

A. 基于关键帧 / 时序稀疏 的视频 token 压缩

LLM-Guided Keyframe Prior / DyToK
剪枝逻辑:不是做二值关键帧选择,而是先从 VLLM 自带 attention 里读出query-conditioned keyframe prior,再给每一帧分配不同保留率;信息丰富帧多留,冗余帧少留。
打分逻辑:核心分数就是每帧对当前问题的 attention-prior 强度
实现方式:training-free,直接在现有 VideoLLM 前插入一个per-frame dynamic retention模块,可和已有压缩器叠加。 (arXiv)

LION-FS
剪枝逻辑:它不是纯静态剪枝,而是“快路径 + 慢路径”。快路径先判断当前时刻是否需要立即响应,同时做 token 聚合和 token dropping;慢路径再对关键帧做增强。
打分逻辑:快路径里通过Routing-Based Response Determination决定是否响应;token 层面则依据 routing 信号做动态聚合或丢弃。
实现方式:在线视频助手框架,前半段做轻量路由与压缩,后半段只对关键帧抽更细粒度特征。 (arXiv)

FastVID
剪枝逻辑:先把视频按时间切成有序 segment,保持时间结构不乱;然后在 segment 内做density-based pruning,压掉密度高、重复多的 token。
打分逻辑:token 重要性不是单看 attention,而是看它在时空邻域里的信息密度/冗余密度
实现方式:training-free,属于 pre-LLM 视频压缩;先分段,再在段内做稀疏保留。 (arXiv)

HoliTom
剪枝逻辑:它把外部压缩和内部压缩合起来做。外部先做全局冗余感知的时间分段和时空 merging,内部再做 LLM 内 token similarity merging。
打分逻辑:外层看全局时序冗余,内层看token 相似度
实现方式:三段式 holistic token merging:先 temporal merging,再 spatial merging,最后 inner-LLM merging。它更像“合并优先”,不是纯 hard prune。 (arXiv)

FlexSelect
剪枝逻辑:专门做长视频 token selection。先分析不同层 cross-modal attention,找到一个最可靠的 reference layer,再用这层的分数给视频 token 排名。
打分逻辑:reference layer 的跨模态 attention score
实现方式:两段式:先用 training-free ranking 得到教师排序,再训练一个轻量 selector 模仿这个排序,推理时快速过滤冗余 token。 (arXiv)

Recurrent Attention-based Token Selection
剪枝逻辑:流式场景下,每处理一个短 clip,就从 LLM 已经真正关注过的 token 里选出少量保留,并把这些保留 token 递归带到下一段。
打分逻辑:LLM-attended token importance,也就是哪些视觉 token 真对当前理解起作用。
实现方式:training-free 的 recurrent selection;上一段保留下来的 token 进入下一段继续参与理解,形成轻量时序记忆。 (arXiv)

B. 基于时空 merging / 合并压缩 的方法

Multi-Granular Spatio-Temporal Token Merging / STTM
剪枝逻辑:先在每帧内部做粗到细 quadtree 空间合并,再在时间维做 pairwise merging。
打分逻辑:主要依据空间和时间上的局部相似性,不是 query-aware。
实现方式:training-free;先空间多粒度压缩,再跨帧定向合并,适合需要 KV cache 复用的场景。 (arXiv)

FlashVID
剪枝逻辑:核心是 TSTM(Tree-based Spatiotemporal Token Merging),联合建模时空冗余;同时还有 ADTS,在每帧内部挑语义代表 token。
打分逻辑:一部分是树状时空结构上的 merging 依据,另一部分是attention + diversity联合挑代表 token。
实现方式:training-free plug-and-play;先选代表,再树状合并时空冗余。 (arXiv)

LongVU
剪枝逻辑:先用 DINOv2 特征删掉高相似帧,再根据文本查询做 selective frame feature reduction,最后结合跨帧 temporal dependency 做 spatial token reduction。
打分逻辑:先是帧间相似度,再是text-guided cross-modal relevance,最后是跨帧依赖强度
实现方式:典型的“先帧级去冗余,再 token 级压缩”的 spatiotemporal adaptive compression。 (arXiv)

Hierarchical Differential Distillation / ViLaMP
剪枝逻辑:关键帧保留全信息,非关键帧只留最 salient 的 patch 特征,相当于视频里的“混合精度表示”。
打分逻辑:两层 differential 标准:帧级要兼顾query relevance + temporal distinctiveness,patch 级保留query-salient features
实现方式:分层蒸馏式压缩框架,不是简单 test-time 排名,而是用 differential distillation 学出“关键帧全保留、非关键帧压缩”的层级结构。 (arXiv)

TempMe
剪枝逻辑:针对视频检索,专门处理连续帧时间冗余;通过 progressive multi-granularity,把邻近 clip 逐步合并。
打分逻辑:主要依据跨帧 temporal redundancy / similarity,不是问题引导型。
实现方式:temporal token merging,从局部 clip 开始逐层往上合并到视频级特征。 (arXiv)

Dynamic-VLM
剪枝逻辑:论文主线是“动态图像/视频 token compression 架构”,目标是在性能和效率之间动态平衡。
打分逻辑:摘要没有展开成明确公式,但可以确定它是动态视觉 token compression,即输入内容不同压缩强度不同。
实现方式:更偏“整体模型架构 + 数据构造 + 动态压缩模块”,属于 VideoLLM 端到端设计,而不是单独一个可插拔 pruning rule。这里主要按摘要判断。 (arXiv)

D-CoDe
剪枝逻辑:两条线并行:一条是dynamic compression,对帧和空间 token 做自适应压缩;另一条是question decomposition,把复杂问题拆小,减少一次性 token overload。
打分逻辑:压缩部分看代表帧选择 + content-aware spatial aggregation;问题分解部分则是任务导向的 query restructuring。
实现方式:training-free,把 image-pretrained VLM 扩到视频时,前端先动态压缩,后端通过子问题引导注意力聚焦。 (arXiv)

Video Compression Commander
剪枝逻辑:提出基于frame uniqueness 的 frame-wise dynamic compression;本质是每帧压缩率不固定,而是按独特性动态分配预算。
打分逻辑:核心信号是当前帧相对其他帧的 uniqueness,越独特越少压,越重复越多压。
实现方式:plug-and-play,逐帧动态压缩,适合直接接在现有 VideoLLM 前面。 (arXiv)

LightVLM
剪枝逻辑:编码阶段用pyramid token merging,逐层只保留少数 dominant tokens;解码阶段再做 KV cache compression
打分逻辑:编码时更像 dominant-token 选择 + merging;解码时按 cache 重要性删掉冗余 KV。
实现方式:把推理拆成 encoding / decoding 两段分别加速,是“token merge + cache 压缩”联合框架。虽然名字是 VLM,不只视频,但很适合长视频推理。 (arXiv)

PruneVid
这个我前一条已经写过:先做时空 merging,再用与问题相关的 attention 进一步筛 token,本质是“先去视频冗余,再做 query-aware pruning”。 (GitHub)

C. 更偏“memory / 表征压缩 / 长视频机制”的方法

VQToken
剪枝逻辑:不是直接从原 token 里选子集,而是把连续 ViT embedding 做adaptive vector quantization,映射到紧凑 codebook。
打分逻辑:不靠 attention 排名,而是看 token 落到哪个离散 codebook entry;信息重复的 token 会被量化到同一或相近 code。
实现方式:离散 token 表征学习 + hash 保留时空位置信息;本质上是表征压缩,不是传统 pruning。 (arXiv)

AdaCM2
剪枝逻辑:做的是adaptive cross-modality memory reduction。也就是压缩的不是原始 frame token 子集,而是视频流里持续积累的 memory。
打分逻辑:基于跨模态注意力看哪些记忆单元对文本/问题更相关,并且在不同层用不同压缩率。
实现方式:视觉编码后先形成 memory,再按 cross-modality attention 做动态 memory reduction。它更像长视频 memory pruning。 (arXiv)

MovieChat+
剪枝逻辑:不是剪输入 token,而是做question-aware sparse memory
打分逻辑:通过vision-question matching判断哪些历史记忆值得保留。
实现方式:memory consolidation,把长视频内容压成和问题相关的稀疏记忆块,再用于回答。 (arXiv)

AuroraLong
剪枝逻辑:核心不是 attention pruning,而是token merging + 线性 RNN/RWKV。先把视觉 token 合并,再按适合 RNN 的顺序重排。
打分逻辑:更偏 merging strategy,而不是显式 importance score。
实现方式:把 LLaVA 式视频理解改成线性 RNN backbone,使显存几乎不随帧数线性爆炸,属于“架构替代 + token merging”。 (arXiv)

AuroraCap
剪枝逻辑:在长视频详细描述任务里直接采用 token merging,减少输入视觉 token。
打分逻辑:摘要没强调显式评分器,更像通用 merging 策略。
实现方式:不加额外时序模块,靠简洁架构 + token merging 做视频 caption。它偏应用型,但对“视频 token 合并并不会明显伤性能”这个结论很有参考价值。 (arXiv)

STORM
剪枝逻辑:不是先剪,而是先在图像编码器和 LLM 之间插一个temporal encoder / Mamba projector,把时序信息提前融合进 token,使后续 reduction 更稳。
打分逻辑:论文摘要更强调“先让 token 带上时序动力学”,再配合下游 sampling / pooling;不是直接定义一个 attention-based prune score。
实现方式:temporal projector 先增强,再做 token-efficient downstream processing。严格说它是“为压缩创造更好的 token 表示”。 (arXiv)

DynTok
剪枝逻辑:把视觉 token 自适应分组,在每组内进行 merging;信息密度低的区域压得更狠,重要区域保留更多。
打分逻辑:本质是组内信息密度
实现方式:先 group,再 group-wise merge;不是纯 top-k,而是 content-adaptive grouping compression。 (arXiv)

D. 流式视频的专门方案

StreamingTOM
剪枝逻辑:强调必须在严格因果约束下、而且在 pre-LLM 阶段就做 token reduction;否则要么不能减少 prefill 成本,要么偷看未来帧。
打分逻辑:在固定每帧预算下,保留当前帧最有代表性的 token。
实现方式:training-free,两阶段设计,同时处理 pre-LLM 压缩和 post-LLM memory 管理。 (arXiv)

Attend Before Attention / AutoGaze
剪枝逻辑:先做“gazing”,也就是在真正高成本 attention 之前,先预测应该看哪些 patch/区域。
打分逻辑:由autoregressive gazing policy 决定下一步该关注哪些视觉区域。
实现方式:先 gaze 后 attention,相当于把昂贵注意力前置成一个更轻量的主动选区过程。它更像 learned selection policy。 (arXiv)

Token Reduction via Local and Global Contexts Optimization / AOT
剪枝逻辑:先在帧内和帧间建立 token anchors,再用local-global optimal transport把被剪掉 token 的信息汇聚到 anchor 上。
打分逻辑:attention 引导下选 local/global anchor;再由 OT 决定信息如何流向 anchor。
实现方式:training-free,特点是不是简单丢弃,而是让 pruned token 的上下文被运输到 anchor 上。 (arXiv)

Accelerating Streaming Video LLMs via Hierarchical Token Compression / STC
剪枝逻辑:分两级压缩:STC-Cacher 在 ViT 编码阶段缓存并复用相似帧特征;STC-Pruner 在进 LLM 前再压缩 token 序列。
打分逻辑:Pruner 同时考虑空间显著性 + 时间相关性;Cacher 看帧间特征相似性是否值得复用。
实现方式:典型的“编码端缓存 + prefill 前压缩”的 streaming 分层加速框架。 (arXiv)

E. 更偏 RL / 检索式压缩 的方法

MARC
剪枝逻辑:采用 retrieve-then-compress。先用 Visual Memory Retriever 找关键 clip,再用 RL 压缩成更小 token 集。
打分逻辑:第一阶段是 clip relevance retrieval;第二阶段通过 C-GRPO 蒸馏教师到学生,让学生学会在高压缩下保留 reasoning 能力。
实现方式:这是“记忆检索 + RL 压缩”的组合,不是纯 attention pruning,但很适合极高压缩率。 (arXiv)

VisionThink
严格说它更偏图像/通用 VLM,不是视频专门方法,但你把它放在这段里是有道理的,因为它是“是否需要更多视觉 token”的策略学习代表。
剪枝逻辑:先用低分辨率输入;模型若判断不够,再显式请求高分辨率图像。
打分逻辑:不是给 token 排序,而是用 RL 学一个是否追加高分辨率视觉信息的决策策略。
实现方式:LLM-as-Judge + reward 设计,学会 case-by-case 决定压不压、补不补。 (arXiv)

F. 这篇其实不是视频专用,但很值得你放在“视频 section 的反思”里

Don’t Just Chase “Highlighted Tokens” / HoloV
这篇更广义,是面向 MLLM 的 holistic retention,不是视频专门论文;但它对视频压缩非常有启发。
剪枝逻辑:批评 attention-first pruning 容易保留一堆语义相近 token,因此在高剪枝率下容易丢全局上下文。它改成按不同空间 crop 自适应分配 budget,保证保留下来的 token 覆盖整体视野。
打分逻辑:不是单纯 top attention,而是holistic context retention
实现方式:plug-and-play pruning framework,尤其适合作为你分析“为什么只追 highlighted tokens 不够”的论据。 (arXiv)

研究视角

把你这整个“视频 token 剪枝”段落总结成方法流派,其实就是这 6 类:

1. 关键帧优先:KVTP、DyToK、LongVU、ViLaMP。
本质是先决定“哪些帧值得多留 token”。 (arXiv)

2. 组内/跨帧 merging:HoliTom、STTM、FlashVID、TempMe、DynTok。
本质是“不是删,而是合并重复信息”。 (arXiv)

3. query-aware 选择:FlexSelect、PruneVid、D-CoDe、AdaCM2、MovieChat+。
本质是问题决定该留什么。 (arXiv)

4. 流式场景专用:TimeChat-Online、Recurrent ATS、StreamingTOM、STC、LION-FS。
本质是要满足因果约束和稳定延迟。 (arXiv)

5. memory / cache 压缩:LightVLM、AdaCM2、MovieChat+、MARC。
本质是“长期保留什么”,不只是“当前输入留什么”。 (arXiv)

6. 策略学习 / 主动感知:VisionThink、Attend Before Attention。
本质是“让模型先决定看哪里、看多细”。 (arXiv)