ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

论文基本信息

  • 全称:ERGO (Efficient Reasoning & Guided Observation)
  • 机构:Nota Inc. (EdgeFM Team)
  • 作者:Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
  • 发表:ICLR 2026
  • ArXiv2509.21991
  • 代码nota-github/ERGO
  • 模型nota-ai/ERGO-7B

Tags

efficient-vlm high-resolution reinforcement-learning coarse-to-fine vision-language-model 2025


核心一句话总结

ERGO 通过强化学习训练 VLM 做 “先推理再感知” ——在低分辨率图像中利用上下文语义推断任务相关区域,再将该区域以原始分辨率裁剪送入模型,仅用 23% 的视觉 token 超越基线,推理速度提升 3×。


问题背景与动机

核心矛盾

现象影响
高分辨率图像 → 大量视觉 token显著增加计算成本与推理延迟
低分辨率图像 → token 数减少细粒度视觉信息丢失,感知能力下降

已有方法的瓶颈:感知驱动推理 (Perception-Driven Reasoning)

现有”coarse-to-fine”方法(如 DeepEyes)的失败根源:

  • 第一阶段需要清晰感知目标物体才能定位到它
  • 图像下采样后,细小/模糊目标变得不可辨识
  • → 感知失败 → 定位失败 → 整个流程崩溃

直觉示例

在低分辨率图中找”桌上咖啡杯旁的吸管”——

  • 感知驱动方法:找不到吸管 → 定位失败
  • ERGO (推理驱动):通过语义推断”吸管在咖啡杯附近” → 正确定位 → 高分辨裁剪后作答

🏗️ 方法详解:ERGO

核心范式转换

感知驱动推理 (Perception-Driven Reasoning)
  "先看清楚,再推理定位"
  ↓ 下采样后感知失败

推理驱动感知 (Reasoning-Driven Perception)   ← ERGO
  "先用语义/上下文推断位置,再高清感知"
  ↓ 语义推理不受低分辨率影响

两阶段 Coarse-to-Fine Pipeline

Stage 1: 粗粒度感知(低分辨率)
  输入: 下采样图像 + 文本 Query
  输出: 任务相关区域的 Bounding Box 坐标 + 思维链 (Thinking Trace)
        ↓
Stage 2: 精细推理(原始分辨率)
  输入: 裁剪出的高分辨区域(原始分辨率)+ Query
  输出: 最终答案

关键设计思想

Stage 2 只接收裁剪区域,接收原图。这迫使 Stage 1 必须选出包含足够信息的自包含区域。

RL 训练框架

基于 VLM-R1 的 RL 代码库,在 Qwen2.5-VL-7B 上进行后训练 (post-training)。


奖励设计:TCE Reward

三个奖励组件

1. Region-Verification Reward ()

  • 机制:仅用裁剪区域(不含原图)验证答案正确性
  • 作用:激励模型选出”信息自足”的区域,而非随意框
  • 效果:模型被迫选择包含作答所需所有信息的区域

2. Box Adjustment Reward ()

  • 机制:根据裁剪区域面积比例施加惩罚
  • 作用:防止模型”懒策略”(直接框住全图),约束 box 大小
  • 效果:在精度与 token 效率之间取得平衡

3. Task-Driven Contextual Exploration (TCE) Reward

  • 核心创新:联合优化区域精度与视觉 token 效率
  • 关键洞察:模型学会了”精确定位不是唯一策略,利用上下文更优”

最终奖励

奖励项作用
主奖励:区域选择效率
弥补训练-测试分布差距(准确率奖励)
规范输出格式(结构化输出)

实验结果

主要性能对比(V* Benchmark)

方法V* ScoreVision Tokens加速比
Qwen2.5-VL-7B (原版)~79~7000+
DeepEyes较高非常多<1×
ERGO83.8 (+4.7)~1632 (23%)
ERGO (更激进压缩)81.71025>3×

核心结论

ERGO 用 23% 的视觉 token 超越基线 4.7 个百分点,实现 3× 推理加速

效率-性能 Frontier

  • 现有方法:精度↑ = token↑(线性权衡)
  • ERGO:将效率边界整体向”更高精度 + 更少 token”方向移动
  • → 推理引导感知能实现非零和的效率-精度提升

鲁棒性实验(目标遮挡测试)

将目标物体在图像中完全遮盖,模型只能依靠上下文作答:

  • ERGO 在遮挡条件下性能最强
  • 验证了 ERGO 确实学会了推理驱动感知,而非只是精确定位

通用基准保持

ERGO 在常规视觉-语言基准上保持或提升了 Qwen2.5-VL-7B 原有能力,没有出现灾难性遗忘。

消融实验结论

  • 逐步添加每个奖励组件均带来稳定提升
  • 仅靠准确率奖励()不足以学到高效区域选择
  • 是性能提升的关键驱动力
  • 性能增益来源于平衡的奖励设计,而非单一架构改动

对 Efficient VLM 研究的价值提炼

研究灵感 #1:训练目标要与效率显式对齐

大多数 VLM 优化只关注准确率奖励,ERGO 表明将 token 效率直接编入 RL 奖励函数是有效的路径。 → 设计 reward 时加入 token budget 惩罚项

研究灵感 #2:感知与推理的顺序很重要

“先感知再推理” vs “先推理再感知”——后者在低质量视觉输入时更鲁棒。 → 可以考虑在其他 VLM 任务中引入”推理优先”的感知策略

研究灵感 #3:上下文语义可以补偿视觉信息损失

模型不必清晰地”看见”目标,只要能从语境推断其位置,就能正确选择高清区域。 → 这是一种隐式的视觉注意力对齐机制

研究灵感 #4:Region-only 验证作为训练信号

只用裁剪区域(不含原图)来评分,是一种简洁有效的自监督奖励设计,可迁移到其他视觉定位任务。

研究灵感 #5:实际部署加速而非理论加速

很多 token 压缩方法只在理论上减少 FLOP,在实际推理框架(如 vLLM)中加速不明显。 ERGO 通过减少送入模型的 token 数量实现真实 3× 加速,且兼容 vLLM Automatic Prefix Caching。

研究灵感 #6:两阶段推理作为通用框架

Coarse (reasoning) → Fine (perception) 的范式可以扩展到:

  • 视频理解(先低帧率定位关键帧,再高帧率分析)
  • 多图理解(先粗筛相关图,再精细分析)
  • 文档理解(先定位相关段落,再精读)

🔗 相关工作对比

方法核心思路问题
DeepEyes (Zheng et al., 2025)感知驱动推理 + 工具调用下采样后感知失败;token 多
VisionThink动态分辨率选择不能处理局部高分辨需求
AdaptVision自适应 token 获取无 RL 显式效率优化
FastV / SparseVLM注意力剪枝实际加速效果有限
ERGO推理驱动感知 + RL 效率奖励

⚙️ 实现细节(复现要点)

  • 基座模型:Qwen2.5-VL-7B
  • RL 框架:VLM-R1 代码库
  • 推理框架:推荐 vLLM(支持 Automatic Prefix Caching)
  • 评测基准:V*, HR-Bench, MME-RealWorld-lite
  • Python 要求:≥ 3.10
  • Token 上限控制:通过 MAX_VISION_TOKEN_NUM 环境变量控制
# 推理示例
python ./src/ergo/infer.py \
  --input_path ./data/demo/demo.jpg \
  --question "Is the orange luggage on the left or right of the purple umbrella?"

❓ 待深入思考的问题

  • TCE Reward 中 , 的超参数敏感性如何?消融实验是否充分?
  • Stage 1 的 Bounding Box 预测是否可以换成更细粒度的 Mask 或 Attention Map?
  • 对于需要全局理解的任务(如场景关系),单 region crop 是否会丢失必要上下文?
  • 能否扩展到多 region 选择(同时关注多个区域)?
  • 在视频/多帧场景下的泛化能力?

📎 引用

@misc{lee2025ergoefficienthighresolutionvisual,
  title={ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models},
  author={Jewon Lee and Wooksu Shin and Seungmin Yang and Ki-Ung Song and DongUk Lim
          and Jaeyeon Kim and Tae-Ho Kim and Bo-Kyeong Kim},
  year={2025},
  eprint={2509.21991},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2509.21991}
}

读于 2026-03-11 | 整理者:个人笔记