剪枝

一、图像 LVLM / MLLM：核心论文逐篇速记

PyramidDrop
核心想法是：越往深层，视觉 token 冗余越大，所以不在一开始猛剪，而是在 LLM 的几个 stage 末尾分阶段逐步丢 token，形成“金字塔式”递减。
打分上不是 query-aware 的复杂评分，而是用轻量 token 相似度判断冗余，越相似越容易被丢。实现上通常是在 stage 边界插一个 pruning step，把相似/冗余 token 去掉后再送入后续层。 (OpenReview)
A Stitch in Time Saves Nine / SGL
它的关键点是：大模型自己算“全层 global attention”太贵，于是用小 VLM 先跑一遍，把所有层、所有头聚合后的全局 attention map当作大模型的 token 重要性代理。
打分逻辑就是：attention 聚合值越高，token 越重要；然后按排名保留 top-k。实现上分两步：先用小模型生成 global attention 排序，再拿这个排序去剪大模型视觉 token；另外还配了early exit，小模型答案够可靠时直接不调大模型。 (arXiv)
HiRED
这是给高分辨率图像设计的。它先把图像分块，再根据 ViT 中 CLS token 对各分区的注意力来分配 token budget。
打分逻辑本质上是分区级 saliency：CLS 更关注的图像块，分到更多 token 预算；不重要区域少留甚至早丢。实现上发生在vision encoder 到 LLM 之前，属于 early dropping。 (arXiv)
Fit and Prune / FitPrune
它不是在线每次临时算一个 importance，而是先用一小批校准样本，拟合一套 pruning recipe。
打分/目标函数是：找一个剪枝方案，使剪枝前后 attention distribution 的差异最小。实现上先离线统计 attention，再在给定 budget 下求最优 recipe；推理时按这套 recipe 直接剪，因此很快。 (arXiv)
HiPrune
这篇的思路是利用vision encoder 的层级注意力结构：中层更偏物体/局部，深层更偏全局语义。
因此它不是只保留一种 token，而是保留不同角色的 token，比如anchor token（物体核心）+ buffer token（局部连续性）+ register/global token（全局上下文）。打分逻辑来自不同层 attention 的层级信号，实现上是 training-free 的层级筛选。这里我主要依据论文页摘要信息整理。 (Emergent Mind)
ZOO-Prune
它不相信 raw attention 足够稳，而是直接估计“这个 token 被扰动后，模型输出会变多少”。
打分逻辑是zeroth-order sensitivity：在 projection layer 对 token 做小扰动，观察输出变化，变化越大说明越重要；同时还强调不要选一堆重复 token，所以会兼顾互补性/多样性。实现上不需要反传，只做轻量 forward perturbation。 (OpenReview)
AgilePruner
这篇的核心结论是：只看 attention 容易保留重复 token，只看 diversity 又容易带来 hallucination。
所以它的方法论是自适应平衡 attention importance 和 feature diversity。打分逻辑不是单一指标，而是混合式 objective；实现上是根据样本情况动态调平两者，而不是固定只走 attention 或只走 diversity。这里我依据 OpenReview/项目页摘要做简化。 (OpenReview)
DivPrune
它把 token pruning 直接写成Max-Min Diversity Problem。
打分逻辑不是“谁最重要”，而是“被选中的 token 彼此尽量不重复”，也就是最大化保留集合的多样性。实现上通常是基于 token 特征距离做子集选择，保留代表性最强、冗余最小的一组。 (arXiv)
SCOPE
这篇是在“显著性”之外再加“覆盖度”。
打分逻辑是：对每个候选 token 计算coverage gain，再和它自己的saliency score合成一个 SCOPE score，然后greedy 迭代地每次选分数最高的 token。实现上很像 set coverage / submodular 风格的逐步选子集。 (arXiv)
Beyond Attention or Similarity / CDPruner
它认为 attention 会选出很多“都重要但彼此重复”的 token，而纯 similarity 又不考虑指令。
所以打分逻辑改成conditional diversity：先在给定 instruction 条件下定义 token 间相似性，再用 DPP 选一组既和问题相关、彼此又不重复的 token。实现上是 training-free 的条件化子集选择。 (arXiv)
LVPruning
这篇是典型的语言引导视觉剪枝。
打分逻辑来自text token 和 vision token 的 cross-attention 交互强度；跟语言更相关的视觉 token 得分更高。实现上往原模型边上插一个 cross-attention decision module，不改原始 MLLM 参数。 (arXiv)
VLTP
这篇更像“任务导向”的 token pruning。
打分逻辑是让一个pruning decoder同时看 image tokens 和 vision-language guidance，预测每个 token 与当前任务的相关性。实现上是在 ViT deeper layers 前把低相关 token 剪掉，只让高相关 token 继续向后传播。 (arXiv)
CROP
这篇是两步法：先找与问题相关的图像区域，再压缩。
打分逻辑先是region relevance，然后有两条实现路径：PLC 在 LLM 前对不同区域按不同压缩率压缩；ILP 则在早期 LLM 层里按该区域引导做 pruning。它的优势是明显更 query-aware。 (arXiv)
VisionZip
这篇不是纯丢弃，而是“重要 token 保留 + 其余 token 合并”。
打分逻辑是先根据 visual token attention 找出少量 dominant tokens；剩余 token 按语义相似性合成 contextual tokens。实现上因此兼有 pruning 和 merging 两种味道。 (arXiv)
LLaVA-Mini
这篇严格说不是“在线剪枝”，而是结构性压缩。
核心观察是视觉 token 的主要作用发生在早层，于是它先做modality pre-fusion，把视觉信息提前融合进文本，再把送入 LLM backbone 的视觉 token 压到 1 个。打分逻辑不是逐 token 排名，而是通过预融合直接把大部分 token“吸收掉”。 (arXiv)
PVC
它把图像也视为“静态视频”，用统一的视频式压缩框架。
剪枝/压缩逻辑是：当前帧 token 只补充前面帧没提取到的信息，所以 token 会被逐帧渐进压缩。实现上偏 progressive compression，而不是一次性 hard prune。 (arXiv)
AIM
这是“先 merge、再 prune”的典型代表。
打分逻辑分两段：LLM 前用embedding similarity迭代合并相似 token；LLM 内再用multimodal importance做 progressive pruning。实现上同时兼容 image 和 video LLM。 (arXiv)
VoCo-LLaMA
这篇是 learned compression，不是纯 test-time pruning。
核心做法是引入VoCo compression tokens，在 instruction tuning 里通过attention distillation学会让少量压缩 token 代替原始大批视觉 token。打分逻辑不再是手工 importance score，而是训练出一组能承载视觉信息的压缩 token。 (arXiv)
PACT
它是“prune + cluster”混合流派。
打分逻辑先用一个不依赖 attention 的 importance metric筛掉无关 token，然后把剩余冗余 token 用 Distance-Bounded Density Peak Clustering 聚类并合并。实现上优点是兼容 FlashAttention，因为不需要直接读注意力矩阵。 (arXiv)
ATP-LLaVA
这篇强调不同样本、不同层需要不同剪枝率。
打分逻辑由一个轻量 ATP module 动态产生：它同时输出 token importance 和 pruning threshold，所以是instance-wise + layer-wise 自适应；另外还有 SAP 强化空间一致性。实现上可插在任意两层之间。 (arXiv)
Visual Tokens Withdrawal / VTW
这篇很适合你做 baseline。
核心观察是：视觉信息会在前几层逐步迁移到文本 token，中后层视觉 token 价值明显下降，所以干脆在某一层后整段撤掉全部视觉 token。打分逻辑不再是逐 token 排序，而是选 withdrawal layer；层位置通过小规模校准集上的 KL divergence criterion 决定。 (arXiv)
SparseVLM
这篇是文本引导、免训练。
打分逻辑是先挑出与当前语义相关的 text tokens，再利用self-attention 矩阵去反推 visual token 的重要性；同时用rank-based strategy给每层定 sparsification ratio。实现上还带 token recycling，把被剪掉的信息压成更紧凑表示。 (arXiv)
Less is More / TRIM
这篇的核心是用 CLIP metric 来做 token reduction。
打分逻辑可以理解成：用 CLIP 风格的图文相关性/匹配信号评估哪些图像 token 更值得保留，而不是直接依赖 LLM 内部注意力。实现上属于外部相关性打分 + 选 token。 (arXiv)
Dynamic-LLaVA
它关心的不只是 prefill，而是整个生成阶段。
打分逻辑由两个可学习 predictor 动态决定：prefill 时压视觉上下文，decoding 时继续压视觉-语言联合上下文，并分别适配带/不带 KV cache 的模式。实现上因此能把“只加速首轮、不加速后续生成”的问题补上。 (arXiv)

二、视频 / 长视频：

KVTP / Keyframe-oriented Vision Token Pruning
这篇很适合长视频。
核心逻辑是把关键帧选择和帧内 token pruning结合起来：不是只选关键帧，也不是所有帧一刀切，而是根据帧和问题的相关性给每帧分配不同剪枝率。打分逻辑是 frame relevance to query；实现上兼顾时序连续性和帧内压缩。 (arXiv)
TimeChat-Online
这是流式视频场景。
打分逻辑不是语言引导，而是看相邻帧的变化量：变化小就认为是冗余静态内容，靠 Differential Token Drop (DTD) 直接滤掉；变化大再保留。实现上很像基于 temporal delta 的在线压缩。 (arXiv)
DyCoke
它针对视频里“不同解码步关注不同帧”的现象。
所以它不做一次性静态剪枝，而是在decoding 过程中动态压缩。打分逻辑随当前解码状态变化，哪个时刻当前问题/生成更关注哪个帧，就优先保留对应 token。实现上属于 decode-time dynamic compression。 (arXiv)
PruneVid
这是很清楚的两阶段。
第一步先做时空 token merging，减少视频天然冗余；第二步利用 question token 相关的注意力，进一步剪掉与问题弱相关的视觉 token。也就是说它兼顾“视频本身冗余”和“任务相关性”两种标准。 (arXiv)
HICom / Hybrid-Level Instruction Injection
这篇是视频 token compression 的 query-aware 代表。
打分逻辑来自instruction 条件注入：一方面在局部 grouped visual tokens 里注入指令，另一方面在全局 learnable tokens 里注入指令，然后通过 attention 做条件压缩。实现上就是 local/global 双层条件压缩。 (arXiv)

视频分类

你这份“视频部分”里，其实混了三类工作：
一类是直接对视频 token 做 pruning / merging；一类是用 keyframe / memory / cache 先缩短有效上下文；还有一类是改推理流程或策略学习，本质上不只是“剪 token”，但对 token 数和推理成本有同样作用。 (arXiv)

A. 基于关键帧 / 时序稀疏的视频 token 压缩

LLM-Guided Keyframe Prior / DyToK
剪枝逻辑：不是做二值关键帧选择，而是先从 VLLM 自带 attention 里读出query-conditioned keyframe prior，再给每一帧分配不同保留率；信息丰富帧多留，冗余帧少留。
打分逻辑：核心分数就是每帧对当前问题的 attention-prior 强度。
实现方式：training-free，直接在现有 VideoLLM 前插入一个per-frame dynamic retention模块，可和已有压缩器叠加。 (arXiv)

LION-FS
剪枝逻辑：它不是纯静态剪枝，而是“快路径 + 慢路径”。快路径先判断当前时刻是否需要立即响应，同时做 token 聚合和 token dropping；慢路径再对关键帧做增强。
打分逻辑：快路径里通过Routing-Based Response Determination决定是否响应；token 层面则依据 routing 信号做动态聚合或丢弃。
实现方式：在线视频助手框架，前半段做轻量路由与压缩，后半段只对关键帧抽更细粒度特征。 (arXiv)

FastVID
剪枝逻辑：先把视频按时间切成有序 segment，保持时间结构不乱；然后在 segment 内做density-based pruning，压掉密度高、重复多的 token。
打分逻辑：token 重要性不是单看 attention，而是看它在时空邻域里的信息密度/冗余密度。
实现方式：training-free，属于 pre-LLM 视频压缩；先分段，再在段内做稀疏保留。 (arXiv)

HoliTom
剪枝逻辑：它把外部压缩和内部压缩合起来做。外部先做全局冗余感知的时间分段和时空 merging，内部再做 LLM 内 token similarity merging。
打分逻辑：外层看全局时序冗余，内层看token 相似度。
实现方式：三段式 holistic token merging：先 temporal merging，再 spatial merging，最后 inner-LLM merging。它更像“合并优先”，不是纯 hard prune。 (arXiv)

FlexSelect
剪枝逻辑：专门做长视频 token selection。先分析不同层 cross-modal attention，找到一个最可靠的 reference layer，再用这层的分数给视频 token 排名。
打分逻辑：reference layer 的跨模态 attention score。
实现方式：两段式：先用 training-free ranking 得到教师排序，再训练一个轻量 selector 模仿这个排序，推理时快速过滤冗余 token。 (arXiv)

Recurrent Attention-based Token Selection
剪枝逻辑：流式场景下，每处理一个短 clip，就从 LLM 已经真正关注过的 token 里选出少量保留，并把这些保留 token 递归带到下一段。
打分逻辑：LLM-attended token importance，也就是哪些视觉 token 真对当前理解起作用。
实现方式：training-free 的 recurrent selection；上一段保留下来的 token 进入下一段继续参与理解，形成轻量时序记忆。 (arXiv)

B. 基于时空 merging / 合并压缩的方法

Multi-Granular Spatio-Temporal Token Merging / STTM
剪枝逻辑：先在每帧内部做粗到细 quadtree 空间合并，再在时间维做 pairwise merging。
打分逻辑：主要依据空间和时间上的局部相似性，不是 query-aware。
实现方式：training-free；先空间多粒度压缩，再跨帧定向合并，适合需要 KV cache 复用的场景。 (arXiv)

FlashVID
剪枝逻辑：核心是 TSTM（Tree-based Spatiotemporal Token Merging），联合建模时空冗余；同时还有 ADTS，在每帧内部挑语义代表 token。
打分逻辑：一部分是树状时空结构上的 merging 依据，另一部分是attention + diversity联合挑代表 token。
实现方式：training-free plug-and-play；先选代表，再树状合并时空冗余。 (arXiv)

LongVU
剪枝逻辑：先用 DINOv2 特征删掉高相似帧，再根据文本查询做 selective frame feature reduction，最后结合跨帧 temporal dependency 做 spatial token reduction。
打分逻辑：先是帧间相似度，再是text-guided cross-modal relevance，最后是跨帧依赖强度。
实现方式：典型的“先帧级去冗余，再 token 级压缩”的 spatiotemporal adaptive compression。 (arXiv)

Hierarchical Differential Distillation / ViLaMP
剪枝逻辑：关键帧保留全信息，非关键帧只留最 salient 的 patch 特征，相当于视频里的“混合精度表示”。
打分逻辑：两层 differential 标准：帧级要兼顾query relevance + temporal distinctiveness，patch 级保留query-salient features。
实现方式：分层蒸馏式压缩框架，不是简单 test-time 排名，而是用 differential distillation 学出“关键帧全保留、非关键帧压缩”的层级结构。 (arXiv)

TempMe
剪枝逻辑：针对视频检索，专门处理连续帧时间冗余；通过 progressive multi-granularity，把邻近 clip 逐步合并。
打分逻辑：主要依据跨帧 temporal redundancy / similarity，不是问题引导型。
实现方式：temporal token merging，从局部 clip 开始逐层往上合并到视频级特征。 (arXiv)

Dynamic-VLM
剪枝逻辑：论文主线是“动态图像/视频 token compression 架构”，目标是在性能和效率之间动态平衡。
打分逻辑：摘要没有展开成明确公式，但可以确定它是动态视觉 token compression，即输入内容不同压缩强度不同。
实现方式：更偏“整体模型架构 + 数据构造 + 动态压缩模块”，属于 VideoLLM 端到端设计，而不是单独一个可插拔 pruning rule。这里主要按摘要判断。 (arXiv)

D-CoDe
剪枝逻辑：两条线并行：一条是dynamic compression，对帧和空间 token 做自适应压缩；另一条是question decomposition，把复杂问题拆小，减少一次性 token overload。
打分逻辑：压缩部分看代表帧选择 + content-aware spatial aggregation；问题分解部分则是任务导向的 query restructuring。
实现方式：training-free，把 image-pretrained VLM 扩到视频时，前端先动态压缩，后端通过子问题引导注意力聚焦。 (arXiv)

Video Compression Commander
剪枝逻辑：提出基于frame uniqueness 的 frame-wise dynamic compression；本质是每帧压缩率不固定，而是按独特性动态分配预算。
打分逻辑：核心信号是当前帧相对其他帧的 uniqueness，越独特越少压，越重复越多压。
实现方式：plug-and-play，逐帧动态压缩，适合直接接在现有 VideoLLM 前面。 (arXiv)

LightVLM
剪枝逻辑：编码阶段用pyramid token merging，逐层只保留少数 dominant tokens；解码阶段再做 KV cache compression。
打分逻辑：编码时更像 dominant-token 选择 + merging；解码时按 cache 重要性删掉冗余 KV。
实现方式：把推理拆成 encoding / decoding 两段分别加速，是“token merge + cache 压缩”联合框架。虽然名字是 VLM，不只视频，但很适合长视频推理。 (arXiv)

PruneVid
这个我前一条已经写过：先做时空 merging，再用与问题相关的 attention 进一步筛 token，本质是“先去视频冗余，再做 query-aware pruning”。 (GitHub)

C. 更偏“memory / 表征压缩 / 长视频机制”的方法

VQToken
剪枝逻辑：不是直接从原 token 里选子集，而是把连续 ViT embedding 做adaptive vector quantization，映射到紧凑 codebook。
打分逻辑：不靠 attention 排名，而是看 token 落到哪个离散 codebook entry；信息重复的 token 会被量化到同一或相近 code。
实现方式：离散 token 表征学习 + hash 保留时空位置信息；本质上是表征压缩，不是传统 pruning。 (arXiv)

AdaCM2
剪枝逻辑：做的是adaptive cross-modality memory reduction。也就是压缩的不是原始 frame token 子集，而是视频流里持续积累的 memory。
打分逻辑：基于跨模态注意力看哪些记忆单元对文本/问题更相关，并且在不同层用不同压缩率。
实现方式：视觉编码后先形成 memory，再按 cross-modality attention 做动态 memory reduction。它更像长视频 memory pruning。 (arXiv)

MovieChat+
剪枝逻辑：不是剪输入 token，而是做question-aware sparse memory。
打分逻辑：通过vision-question matching判断哪些历史记忆值得保留。
实现方式：memory consolidation，把长视频内容压成和问题相关的稀疏记忆块，再用于回答。 (arXiv)

AuroraLong
剪枝逻辑：核心不是 attention pruning，而是token merging + 线性 RNN/RWKV。先把视觉 token 合并，再按适合 RNN 的顺序重排。
打分逻辑：更偏 merging strategy，而不是显式 importance score。
实现方式：把 LLaVA 式视频理解改成线性 RNN backbone，使显存几乎不随帧数线性爆炸，属于“架构替代 + token merging”。 (arXiv)

AuroraCap
剪枝逻辑：在长视频详细描述任务里直接采用 token merging，减少输入视觉 token。
打分逻辑：摘要没强调显式评分器，更像通用 merging 策略。
实现方式：不加额外时序模块，靠简洁架构 + token merging 做视频 caption。它偏应用型，但对“视频 token 合并并不会明显伤性能”这个结论很有参考价值。 (arXiv)

STORM
剪枝逻辑：不是先剪，而是先在图像编码器和 LLM 之间插一个temporal encoder / Mamba projector，把时序信息提前融合进 token，使后续 reduction 更稳。
打分逻辑：论文摘要更强调“先让 token 带上时序动力学”，再配合下游 sampling / pooling；不是直接定义一个 attention-based prune score。
实现方式：temporal projector 先增强，再做 token-efficient downstream processing。严格说它是“为压缩创造更好的 token 表示”。 (arXiv)

DynTok
剪枝逻辑：把视觉 token 自适应分组，在每组内进行 merging；信息密度低的区域压得更狠，重要区域保留更多。
打分逻辑：本质是组内信息密度。
实现方式：先 group，再 group-wise merge；不是纯 top-k，而是 content-adaptive grouping compression。 (arXiv)

D. 流式视频的专门方案

StreamingTOM
剪枝逻辑：强调必须在严格因果约束下、而且在 pre-LLM 阶段就做 token reduction；否则要么不能减少 prefill 成本，要么偷看未来帧。
打分逻辑：在固定每帧预算下，保留当前帧最有代表性的 token。
实现方式：training-free，两阶段设计，同时处理 pre-LLM 压缩和 post-LLM memory 管理。 (arXiv)

Attend Before Attention / AutoGaze
剪枝逻辑：先做“gazing”，也就是在真正高成本 attention 之前，先预测应该看哪些 patch/区域。
打分逻辑：由autoregressive gazing policy 决定下一步该关注哪些视觉区域。
实现方式：先 gaze 后 attention，相当于把昂贵注意力前置成一个更轻量的主动选区过程。它更像 learned selection policy。 (arXiv)

Token Reduction via Local and Global Contexts Optimization / AOT
剪枝逻辑：先在帧内和帧间建立 token anchors，再用local-global optimal transport把被剪掉 token 的信息汇聚到 anchor 上。
打分逻辑：attention 引导下选 local/global anchor；再由 OT 决定信息如何流向 anchor。
实现方式：training-free，特点是不是简单丢弃，而是让 pruned token 的上下文被运输到 anchor 上。 (arXiv)

Accelerating Streaming Video LLMs via Hierarchical Token Compression / STC
剪枝逻辑：分两级压缩：STC-Cacher 在 ViT 编码阶段缓存并复用相似帧特征；STC-Pruner 在进 LLM 前再压缩 token 序列。
打分逻辑：Pruner 同时考虑空间显著性 + 时间相关性；Cacher 看帧间特征相似性是否值得复用。
实现方式：典型的“编码端缓存 + prefill 前压缩”的 streaming 分层加速框架。 (arXiv)

E. 更偏 RL / 检索式压缩的方法

MARC
剪枝逻辑：采用 retrieve-then-compress。先用 Visual Memory Retriever 找关键 clip，再用 RL 压缩成更小 token 集。
打分逻辑：第一阶段是 clip relevance retrieval；第二阶段通过 C-GRPO 蒸馏教师到学生，让学生学会在高压缩下保留 reasoning 能力。
实现方式：这是“记忆检索 + RL 压缩”的组合，不是纯 attention pruning，但很适合极高压缩率。 (arXiv)

VisionThink
严格说它更偏图像/通用 VLM，不是视频专门方法，但你把它放在这段里是有道理的，因为它是“是否需要更多视觉 token”的策略学习代表。
剪枝逻辑：先用低分辨率输入；模型若判断不够，再显式请求高分辨率图像。
打分逻辑：不是给 token 排序，而是用 RL 学一个是否追加高分辨率视觉信息的决策策略。
实现方式：LLM-as-Judge + reward 设计，学会 case-by-case 决定压不压、补不补。 (arXiv)

F. 这篇其实不是视频专用，但很值得你放在“视频 section 的反思”里

Don’t Just Chase “Highlighted Tokens” / HoloV
这篇更广义，是面向 MLLM 的 holistic retention，不是视频专门论文；但它对视频压缩非常有启发。
剪枝逻辑：批评 attention-first pruning 容易保留一堆语义相近 token，因此在高剪枝率下容易丢全局上下文。它改成按不同空间 crop 自适应分配 budget，保证保留下来的 token 覆盖整体视野。
打分逻辑：不是单纯 top attention，而是holistic context retention。
实现方式：plug-and-play pruning framework，尤其适合作为你分析“为什么只追 highlighted tokens 不够”的论据。 (arXiv)

研究视角

把你这整个“视频 token 剪枝”段落总结成方法流派，其实就是这 6 类：

1. 关键帧优先：KVTP、DyToK、LongVU、ViLaMP。
本质是先决定“哪些帧值得多留 token”。 (arXiv)

2. 组内/跨帧 merging：HoliTom、STTM、FlashVID、TempMe、DynTok。
本质是“不是删，而是合并重复信息”。 (arXiv)

3. query-aware 选择：FlexSelect、PruneVid、D-CoDe、AdaCM2、MovieChat+。
本质是问题决定该留什么。 (arXiv)

4. 流式场景专用：TimeChat-Online、Recurrent ATS、StreamingTOM、STC、LION-FS。
本质是要满足因果约束和稳定延迟。 (arXiv)

5. memory / cache 压缩：LightVLM、AdaCM2、MovieChat+、MARC。
本质是“长期保留什么”，不只是“当前输入留什么”。 (arXiv)

6. 策略学习 / 主动感知：VisionThink、Attend Before Attention。
本质是“让模型先决定看哪里、看多细”。 (arXiv)

Starry's Blog

Explorer

剪枝

一、图像 LVLM / MLLM：核心论文逐篇速记

二、视频 / 长视频：

视频分类

A. 基于关键帧 / 时序稀疏的视频 token 压缩

B. 基于时空 merging / 合并压缩的方法

C. 更偏“memory / 表征压缩 / 长视频机制”的方法

D. 流式视频的专门方案

E. 更偏 RL / 检索式压缩的方法

F. 这篇其实不是视频专用，但很值得你放在“视频 section 的反思”里

研究视角

Graph View

Table of Contents

Starry's Blog

Explorer

剪枝

一、图像 LVLM / MLLM：核心论文逐篇速记

二、视频 / 长视频：

视频分类

A. 基于关键帧 / 时序稀疏 的视频 token 压缩

B. 基于时空 merging / 合并压缩 的方法

C. 更偏“memory / 表征压缩 / 长视频机制”的方法

D. 流式视频的专门方案

E. 更偏 RL / 检索式压缩 的方法

F. 这篇其实不是视频专用，但很值得你放在“视频 section 的反思”里

研究视角

Graph View

Table of Contents

A. 基于关键帧 / 时序稀疏的视频 token 压缩

B. 基于时空 merging / 合并压缩的方法

E. 更偏 RL / 检索式压缩的方法