ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

论文基本信息

全称：ERGO (Efficient Reasoning & Guided Observation)

机构：Nota Inc. (EdgeFM Team)

作者：Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim

发表：ICLR 2026

ArXiv：2509.21991

代码：nota-github/ERGO

模型：nota-ai/ERGO-7B

核心一句话总结

ERGO 通过强化学习训练 VLM 做 “先推理再感知” ——在低分辨率图像中利用上下文语义推断任务相关区域，再将该区域以原始分辨率裁剪送入模型，仅用 23% 的视觉 token 超越基线，推理速度提升 3×。

问题背景与动机

核心矛盾

现象	影响
高分辨率图像 → 大量视觉 token	显著增加计算成本与推理延迟
低分辨率图像 → token 数减少	细粒度视觉信息丢失，感知能力下降

已有方法的瓶颈：感知驱动推理 (Perception-Driven Reasoning)

现有”coarse-to-fine”方法（如 DeepEyes）的失败根源：

第一阶段需要清晰感知目标物体才能定位到它
图像下采样后，细小/模糊目标变得不可辨识
→ 感知失败 → 定位失败 → 整个流程崩溃

直觉示例

在低分辨率图中找”桌上咖啡杯旁的吸管”——

感知驱动方法：找不到吸管 → 定位失败

ERGO (推理驱动)：通过语义推断”吸管在咖啡杯附近” → 正确定位 → 高分辨裁剪后作答

🏗️ 方法详解：ERGO

核心范式转换

感知驱动推理 (Perception-Driven Reasoning)
  "先看清楚，再推理定位"
  ↓ 下采样后感知失败

推理驱动感知 (Reasoning-Driven Perception)   ← ERGO
  "先用语义/上下文推断位置，再高清感知"
  ↓ 语义推理不受低分辨率影响

两阶段 Coarse-to-Fine Pipeline

Stage 1: 粗粒度感知（低分辨率）
  输入: 下采样图像 + 文本 Query
  输出: 任务相关区域的 Bounding Box 坐标 + 思维链 (Thinking Trace)
        ↓
Stage 2: 精细推理（原始分辨率）
  输入: 裁剪出的高分辨区域（原始分辨率）+ Query
  输出: 最终答案

关键设计思想

Stage 2 只接收裁剪区域，不接收原图。这迫使 Stage 1 必须选出包含足够信息的自包含区域。

RL 训练框架

基于 VLM-R1 的 RL 代码库，在 Qwen2.5-VL-7B 上进行后训练 (post-training)。

奖励设计：TCE Reward

三个奖励组件

1. Region-Verification Reward ( $r_{region}$ )

机制：仅用裁剪区域（不含原图）验证答案正确性
作用：激励模型选出”信息自足”的区域，而非随意框
效果：模型被迫选择包含作答所需所有信息的区域

2. Box Adjustment Reward ( $r_{box}$ )

机制：根据裁剪区域面积比例施加惩罚
作用：防止模型”懒策略”（直接框住全图），约束 box 大小
效果：在精度与 token 效率之间取得平衡

3. Task-Driven Contextual Exploration (TCE) Reward

$r_{TCE} = α \cdot r_{region} + β \cdot r_{box}$

核心创新：联合优化区域精度与视觉 token 效率
关键洞察：模型学会了”精确定位不是唯一策略，利用上下文更优”

最终奖励

$R = r_{TCE} + r_{a cc} + r_{format}$

奖励项	作用
$r_{TCE}$	主奖励：区域选择效率
$r_{a cc}$	弥补训练-测试分布差距（准确率奖励）
$r_{format}$	规范输出格式（结构化输出）

实验结果

主要性能对比（V* Benchmark）

方法	V* Score	Vision Tokens	加速比
Qwen2.5-VL-7B (原版)	~79	~7000+	1×
DeepEyes	较高	非常多	<1×
ERGO	83.8 (+4.7)	~1632 (23%)	3×
ERGO (更激进压缩)	81.7	1025	>3×

核心结论

ERGO 用 23% 的视觉 token 超越基线 4.7 个百分点，实现 3× 推理加速

效率-性能 Frontier

现有方法：精度↑ = token↑（线性权衡）
ERGO：将效率边界整体向”更高精度 + 更少 token”方向移动
→ 推理引导感知能实现非零和的效率-精度提升

鲁棒性实验（目标遮挡测试）

将目标物体在图像中完全遮盖，模型只能依靠上下文作答：

ERGO 在遮挡条件下性能最强
验证了 ERGO 确实学会了推理驱动感知，而非只是精确定位

通用基准保持

ERGO 在常规视觉-语言基准上保持或提升了 Qwen2.5-VL-7B 原有能力，没有出现灾难性遗忘。

消融实验结论

逐步添加每个奖励组件均带来稳定提升
仅靠准确率奖励（ $r_{a cc}$ ）不足以学到高效区域选择
$r_{TCE}$ 是性能提升的关键驱动力
性能增益来源于平衡的奖励设计，而非单一架构改动

对 Efficient VLM 研究的价值提炼

研究灵感 #1：训练目标要与效率显式对齐

大多数 VLM 优化只关注准确率奖励，ERGO 表明将 token 效率直接编入 RL 奖励函数是有效的路径。 → 设计 reward 时加入 token budget 惩罚项

研究灵感 #2：感知与推理的顺序很重要

“先感知再推理” vs “先推理再感知”——后者在低质量视觉输入时更鲁棒。 → 可以考虑在其他 VLM 任务中引入”推理优先”的感知策略

研究灵感 #3：上下文语义可以补偿视觉信息损失

模型不必清晰地”看见”目标，只要能从语境推断其位置，就能正确选择高清区域。 → 这是一种隐式的视觉注意力对齐机制

研究灵感 #4：Region-only 验证作为训练信号

只用裁剪区域（不含原图）来评分，是一种简洁有效的自监督奖励设计，可迁移到其他视觉定位任务。

研究灵感 #5：实际部署加速而非理论加速

很多 token 压缩方法只在理论上减少 FLOP，在实际推理框架（如 vLLM）中加速不明显。 ERGO 通过减少送入模型的 token 数量实现真实 3× 加速，且兼容 vLLM Automatic Prefix Caching。

研究灵感 #6：两阶段推理作为通用框架

Coarse (reasoning) → Fine (perception) 的范式可以扩展到：

视频理解（先低帧率定位关键帧，再高帧率分析）

多图理解（先粗筛相关图，再精细分析）

文档理解（先定位相关段落，再精读）

🔗 相关工作对比

方法	核心思路	问题
DeepEyes (Zheng et al., 2025)	感知驱动推理 + 工具调用	下采样后感知失败；token 多
VisionThink	动态分辨率选择	不能处理局部高分辨需求
AdaptVision	自适应 token 获取	无 RL 显式效率优化
FastV / SparseVLM	注意力剪枝	实际加速效果有限
ERGO	推理驱动感知 + RL 效率奖励	—

⚙️ 实现细节（复现要点）

基座模型：Qwen2.5-VL-7B
RL 框架：VLM-R1 代码库
推理框架：推荐 vLLM（支持 Automatic Prefix Caching）
评测基准：V*, HR-Bench, MME-RealWorld-lite
Python 要求：≥ 3.10
Token 上限控制：通过 MAX_VISION_TOKEN_NUM 环境变量控制

# 推理示例
python ./src/ergo/infer.py \
  --input_path ./data/demo/demo.jpg \
  --question "Is the orange luggage on the left or right of the purple umbrella?"

❓ 待深入思考的问题

TCE Reward 中 $α$ , $β$ 的超参数敏感性如何？消融实验是否充分？
Stage 1 的 Bounding Box 预测是否可以换成更细粒度的 Mask 或 Attention Map？
对于需要全局理解的任务（如场景关系），单 region crop 是否会丢失必要上下文？
能否扩展到多 region 选择（同时关注多个区域）？
在视频/多帧场景下的泛化能力？

📎 引用

@misc{lee2025ergoefficienthighresolutionvisual,
  title={ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models},
  author={Jewon Lee and Wooksu Shin and Seungmin Yang and Ki-Ung Song and DongUk Lim
          and Jaeyeon Kim and Tae-Ho Kim and Bo-Kyeong Kim},
  year={2025},
  eprint={2509.21991},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2509.21991}
}

读于 2026-03-11 | 整理者：个人笔记

Starry's Blog

Explorer

ERGO

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

Tags

核心一句话总结

问题背景与动机

核心矛盾

已有方法的瓶颈：感知驱动推理 (Perception-Driven Reasoning)

🏗️ 方法详解：ERGO

核心范式转换

两阶段 Coarse-to-Fine Pipeline

RL 训练框架

奖励设计：TCE Reward

三个奖励组件

1. Region-Verification Reward ( $r_{region}$ )

2. Box Adjustment Reward ( $r_{box}$ )

3. Task-Driven Contextual Exploration (TCE) Reward

最终奖励

实验结果

主要性能对比（V* Benchmark）

效率-性能 Frontier

鲁棒性实验（目标遮挡测试）

通用基准保持

消融实验结论

对 Efficient VLM 研究的价值提炼

🔗 相关工作对比

⚙️ 实现细节（复现要点）

❓ 待深入思考的问题

📎 引用

Graph View

Table of Contents

Starry's Blog

Explorer

ERGO

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

Tags

核心一句话总结

问题背景与动机

核心矛盾

已有方法的瓶颈：感知驱动推理 (Perception-Driven Reasoning)

🏗️ 方法详解：ERGO

核心范式转换

两阶段 Coarse-to-Fine Pipeline

RL 训练框架

奖励设计：TCE Reward

三个奖励组件

1. Region-Verification Reward (rregion​)

2. Box Adjustment Reward (rbox​)

3. Task-Driven Contextual Exploration (TCE) Reward

最终奖励

实验结果

主要性能对比（V* Benchmark）

效率-性能 Frontier

鲁棒性实验（目标遮挡测试）

通用基准保持

消融实验结论

对 Efficient VLM 研究的价值提炼

🔗 相关工作对比

⚙️ 实现细节（复现要点）

❓ 待深入思考的问题

📎 引用

Graph View

Table of Contents

1. Region-Verification Reward ( $r_{region}$ )

2. Box Adjustment Reward ( $r_{box}$ )