FastVID 论文阅读笔记
论文标题:FastVID: Dynamic Density Pruning for Fast Video Large Language Models 作者:Leqi Shen 等 7 人 发表:NeurIPS 2025(arXiv: 2503.11187) 代码:https://github.com/LunarShen/FastVID

一、研究背景与动机
视频大语言模型(Video LLMs)如 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 等在视频理解任务上表现出色,但部署成本极高:视频被采样为 F 帧(如 LLaVA-OneVision 32 帧、LLaVA-Video 64 帧),每帧经视觉编码器后产生大量 token,总 token 数常常逼近甚至超过 LLM 的上下文长度,导致 prefill 阶段计算开销巨大。
现有 token 剪枝方法的局限:
- 图像剪枝方法(如 FastV、VisionZip):仅考虑空间冗余,在高压缩率(如 R=10%)下性能急剧下降,无法保留时序信息。
- 已有视频剪枝方法(如 PruneVID):基于聚类合并 token,会破坏时空位置结构,且未考虑 token 的代表性。
作者从时序上下文和视觉上下文两个角度系统分析了视频冗余,提出 FastVID。
二、核心方法
FastVID 是一个training-free、即插即用的推理时剪枝框架,由两个模块组成:
1. Dynamic Temporal Segmentation (DySeg) — 动态时序分段
将视频帧动态划分为时序有序的片段,目标是在保持时间顺序的前提下,使片段内部相似度尽可能高。
对比两种静态方法:
- Fixed-interval(固定间隔分段):保持时序顺序但片段内相似度低。
- Cluster-based(聚类分段):相似度高但破坏时序顺序。
作者实验发现 Fixed-interval 比 Cluster-based 高 1.4%,说明时序结构的保留比片段内相似度更重要。
DySeg 的做法:基于相邻帧的过渡相似度自适应分段——若相邻帧相似度低于阈值 τ,则划入不同片段。简单视频自然得到较少片段,复杂视频得到更细粒度的片段,既维持时序顺序,又保证片段内高相似度。
2. Density Spatiotemporal Pruning (STPrune) — 密度时空剪枝
在每个片段内做剪枝,包含两个互补子模块:
(a) Density-based Token Merging (DTM) — 密度 token 合并
- 借鉴密度峰值聚类(Density Peaks Clustering) 思想,从锚帧(anchor frames)中选取被相似 token 密集围绕的锚 token(即密度峰值处的 token)。
- 每帧锚 token 数量随片段长度自适应调整。
- 关键创新:与传统聚类合并不同,DTM 将相似 token 合并到锚 token 上,保留锚 token 的原始位置信息,维持时空结构的连贯性。这对使用 M-RoPE 的 Qwen-VL 系列特别重要。
(b) Attention-based Token Selection (ATS) — 注意力 token 选择
- 利用视觉编码器(改造版)产生的 [CLS] 注意力分数,在每帧中选取注意力最高的 token。
- 这些 token 反映显著的语义焦点,但容易聚集成簇,缺乏全局视觉上下文。
互补性:DTM 的红色 token 跨帧聚合视觉相似内容,提供全局视觉上下文;ATS 的蓝色 token 捕捉显著细节。两者结合,既保全局又保细节。
三、实验结果
评测模型:LLaVA-OneVision、LLaVA-Video、Qwen2-VL、Qwen2.5-VL 评测基准:多个短视频与长视频 benchmarks
核心数据(LLaVA-OneVision-7B):
- 剪枝掉 90.3% 的视频 token
- FLOPs 降至原来的 8.3%
- LLM prefill 阶段加速 7.1×
- 保持 98.0% 的原始精度
对比实验:
- 在 R=25% 时,图像方法(FastV、VisionZip)表现尚可。
- 当 R 从 25% 降到 10%,FastV 跌 5.9%,VisionZip 跌 9.5%,而 FastVID 几乎无下降。
- 在极端压缩率下,FastVID 显著优于 PruneVID 等视频剪枝方法。
四、贡献总结
- 从时序上下文与视觉上下文双重角度系统分析了视频 LLM 的冗余,强调时序和视觉完整性的重要性。
- 提出 FastVID 框架:DySeg 做动态时序分段 + STPrune 做密度时空剪枝(DTM + ATS)。
- Training-free、即插即用,兼容 FlashAttention 与 KV cache,在多个主流 Video LLM 和 benchmark 上达到 SOTA,即使在极端压缩率下也保持稳健精度。
五、个人评价与思考
亮点:
- 把”密度峰值聚类”用于 token 合并并显式保留位置信息,是对 M-RoPE 等位置编码友好的设计,这一点比单纯聚类合并更聪明。
- DySeg 的动机分析(时序顺序 vs 片段内相似度)非常清晰,有量化实验支撑。
- DTM 与 ATS 的互补性论证有可视化支持,设计理念清楚。
可能的局限 / 后续工作:
- ICLR 2026 的 FlashVID 已经在批评 FastVID 这类方法”独立处理时间和空间冗余”,并提出基于 Tree-based 时空 token 合并的联合建模方案,在同等设置下进一步超越 FastVID。可见联合时空建模是下一步方向。
- FastVID 仍依赖 [CLS] 注意力选 token,在没有 [CLS] token 的视觉编码器上需要适配。
- 阈值 τ、锚 token 比例等超参对不同数据集是否鲁棒,值得进一步关注。