FastVID 论文阅读笔记

论文标题：FastVID: Dynamic Density Pruning for Fast Video Large Language Models 作者：Leqi Shen 等 7 人发表：NeurIPS 2025（arXiv: 2503.11187）代码：https://github.com/LunarShen/FastVID

一、研究背景与动机

视频大语言模型(Video LLMs)如 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 等在视频理解任务上表现出色,但部署成本极高:视频被采样为 F 帧(如 LLaVA-OneVision 32 帧、LLaVA-Video 64 帧),每帧经视觉编码器后产生大量 token,总 token 数常常逼近甚至超过 LLM 的上下文长度,导致 prefill 阶段计算开销巨大。

现有 token 剪枝方法的局限:

图像剪枝方法(如 FastV、VisionZip):仅考虑空间冗余,在高压缩率(如 R=10%)下性能急剧下降,无法保留时序信息。
已有视频剪枝方法(如 PruneVID):基于聚类合并 token,会破坏时空位置结构,且未考虑 token 的代表性。

作者从时序上下文和视觉上下文两个角度系统分析了视频冗余,提出 FastVID。

二、核心方法

FastVID 是一个training-free、即插即用的推理时剪枝框架,由两个模块组成:

1. Dynamic Temporal Segmentation (DySeg) — 动态时序分段

将视频帧动态划分为时序有序的片段,目标是在保持时间顺序的前提下,使片段内部相似度尽可能高。

对比两种静态方法:

Fixed-interval(固定间隔分段):保持时序顺序但片段内相似度低。
Cluster-based(聚类分段):相似度高但破坏时序顺序。

作者实验发现 Fixed-interval 比 Cluster-based 高 1.4%,说明时序结构的保留比片段内相似度更重要。

DySeg 的做法:基于相邻帧的过渡相似度自适应分段——若相邻帧相似度低于阈值 τ,则划入不同片段。简单视频自然得到较少片段,复杂视频得到更细粒度的片段,既维持时序顺序,又保证片段内高相似度。

2. Density Spatiotemporal Pruning (STPrune) — 密度时空剪枝

在每个片段内做剪枝,包含两个互补子模块:

(a) Density-based Token Merging (DTM) — 密度 token 合并

借鉴密度峰值聚类(Density Peaks Clustering) 思想,从锚帧(anchor frames)中选取被相似 token 密集围绕的锚 token(即密度峰值处的 token)。
每帧锚 token 数量随片段长度自适应调整。
关键创新:与传统聚类合并不同,DTM 将相似 token 合并到锚 token 上,保留锚 token 的原始位置信息,维持时空结构的连贯性。这对使用 M-RoPE 的 Qwen-VL 系列特别重要。

(b) Attention-based Token Selection (ATS) — 注意力 token 选择

利用视觉编码器(改造版)产生的 [CLS] 注意力分数,在每帧中选取注意力最高的 token。
这些 token 反映显著的语义焦点,但容易聚集成簇,缺乏全局视觉上下文。

互补性:DTM 的红色 token 跨帧聚合视觉相似内容,提供全局视觉上下文;ATS 的蓝色 token 捕捉显著细节。两者结合,既保全局又保细节。

三、实验结果

评测模型:LLaVA-OneVision、LLaVA-Video、Qwen2-VL、Qwen2.5-VL 评测基准:多个短视频与长视频 benchmarks

核心数据(LLaVA-OneVision-7B):

剪枝掉 90.3% 的视频 token
FLOPs 降至原来的 8.3%
LLM prefill 阶段加速 7.1×
保持 98.0% 的原始精度

对比实验:

在 R=25% 时,图像方法(FastV、VisionZip)表现尚可。
当 R 从 25% 降到 10%,FastV 跌 5.9%,VisionZip 跌 9.5%,而 FastVID 几乎无下降。
在极端压缩率下,FastVID 显著优于 PruneVID 等视频剪枝方法。

四、贡献总结

从时序上下文与视觉上下文双重角度系统分析了视频 LLM 的冗余,强调时序和视觉完整性的重要性。
提出 FastVID 框架:DySeg 做动态时序分段 + STPrune 做密度时空剪枝(DTM + ATS)。
Training-free、即插即用,兼容 FlashAttention 与 KV cache,在多个主流 Video LLM 和 benchmark 上达到 SOTA,即使在极端压缩率下也保持稳健精度。

五、个人评价与思考

亮点:

把”密度峰值聚类”用于 token 合并并显式保留位置信息,是对 M-RoPE 等位置编码友好的设计,这一点比单纯聚类合并更聪明。
DySeg 的动机分析(时序顺序 vs 片段内相似度)非常清晰,有量化实验支撑。
DTM 与 ATS 的互补性论证有可视化支持,设计理念清楚。

可能的局限 / 后续工作:

ICLR 2026 的 FlashVID 已经在批评 FastVID 这类方法”独立处理时间和空间冗余”,并提出基于 Tree-based 时空 token 合并的联合建模方案,在同等设置下进一步超越 FastVID。可见联合时空建模是下一步方向。
FastVID 仍依赖 [CLS] 注意力选 token,在没有 [CLS] token 的视觉编码器上需要适配。
阈值 τ、锚 token 比例等超参对不同数据集是否鲁棒,值得进一步关注。

Starry's Blog

Explorer

FastVID