ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
论文基本信息
- 全称:ERGO (Efficient Reasoning & Guided Observation)
- 机构:Nota Inc. (EdgeFM Team)
- 作者:Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim
- 发表:ICLR 2026
- ArXiv:2509.21991
- 代码:nota-github/ERGO
- 模型:nota-ai/ERGO-7B
Tags
efficient-vlm high-resolution reinforcement-learning coarse-to-fine vision-language-model 2025
核心一句话总结
ERGO 通过强化学习训练 VLM 做 “先推理再感知” ——在低分辨率图像中利用上下文语义推断任务相关区域,再将该区域以原始分辨率裁剪送入模型,仅用 23% 的视觉 token 超越基线,推理速度提升 3×。
问题背景与动机
核心矛盾
| 现象 | 影响 |
|---|---|
| 高分辨率图像 → 大量视觉 token | 显著增加计算成本与推理延迟 |
| 低分辨率图像 → token 数减少 | 细粒度视觉信息丢失,感知能力下降 |
已有方法的瓶颈:感知驱动推理 (Perception-Driven Reasoning)
现有”coarse-to-fine”方法(如 DeepEyes)的失败根源:
- 第一阶段需要清晰感知目标物体才能定位到它
- 图像下采样后,细小/模糊目标变得不可辨识
- → 感知失败 → 定位失败 → 整个流程崩溃
直觉示例
在低分辨率图中找”桌上咖啡杯旁的吸管”——
- 感知驱动方法:找不到吸管 → 定位失败
- ERGO (推理驱动):通过语义推断”吸管在咖啡杯附近” → 正确定位 → 高分辨裁剪后作答
🏗️ 方法详解:ERGO
核心范式转换
感知驱动推理 (Perception-Driven Reasoning)
"先看清楚,再推理定位"
↓ 下采样后感知失败
推理驱动感知 (Reasoning-Driven Perception) ← ERGO
"先用语义/上下文推断位置,再高清感知"
↓ 语义推理不受低分辨率影响
两阶段 Coarse-to-Fine Pipeline
Stage 1: 粗粒度感知(低分辨率)
输入: 下采样图像 + 文本 Query
输出: 任务相关区域的 Bounding Box 坐标 + 思维链 (Thinking Trace)
↓
Stage 2: 精细推理(原始分辨率)
输入: 裁剪出的高分辨区域(原始分辨率)+ Query
输出: 最终答案
关键设计思想
Stage 2 只接收裁剪区域,不接收原图。这迫使 Stage 1 必须选出包含足够信息的自包含区域。
RL 训练框架
基于 VLM-R1 的 RL 代码库,在 Qwen2.5-VL-7B 上进行后训练 (post-training)。
奖励设计:TCE Reward
三个奖励组件
1. Region-Verification Reward ()
- 机制:仅用裁剪区域(不含原图)验证答案正确性
- 作用:激励模型选出”信息自足”的区域,而非随意框
- 效果:模型被迫选择包含作答所需所有信息的区域
2. Box Adjustment Reward ()
- 机制:根据裁剪区域面积比例施加惩罚
- 作用:防止模型”懒策略”(直接框住全图),约束 box 大小
- 效果:在精度与 token 效率之间取得平衡
3. Task-Driven Contextual Exploration (TCE) Reward
- 核心创新:联合优化区域精度与视觉 token 效率
- 关键洞察:模型学会了”精确定位不是唯一策略,利用上下文更优”
最终奖励
| 奖励项 | 作用 |
|---|---|
| 主奖励:区域选择效率 | |
| 弥补训练-测试分布差距(准确率奖励) | |
| 规范输出格式(结构化输出) |
实验结果
主要性能对比(V* Benchmark)
| 方法 | V* Score | Vision Tokens | 加速比 |
|---|---|---|---|
| Qwen2.5-VL-7B (原版) | ~79 | ~7000+ | 1× |
| DeepEyes | 较高 | 非常多 | <1× |
| ERGO | 83.8 (+4.7) | ~1632 (23%) | 3× |
| ERGO (更激进压缩) | 81.7 | 1025 | >3× |
核心结论
ERGO 用 23% 的视觉 token 超越基线 4.7 个百分点,实现 3× 推理加速
效率-性能 Frontier
- 现有方法:精度↑ = token↑(线性权衡)
- ERGO:将效率边界整体向”更高精度 + 更少 token”方向移动
- → 推理引导感知能实现非零和的效率-精度提升
鲁棒性实验(目标遮挡测试)
将目标物体在图像中完全遮盖,模型只能依靠上下文作答:
- ERGO 在遮挡条件下性能最强
- 验证了 ERGO 确实学会了推理驱动感知,而非只是精确定位
通用基准保持
ERGO 在常规视觉-语言基准上保持或提升了 Qwen2.5-VL-7B 原有能力,没有出现灾难性遗忘。
消融实验结论
- 逐步添加每个奖励组件均带来稳定提升
- 仅靠准确率奖励()不足以学到高效区域选择
- 是性能提升的关键驱动力
- 性能增益来源于平衡的奖励设计,而非单一架构改动
对 Efficient VLM 研究的价值提炼
研究灵感 #1:训练目标要与效率显式对齐
大多数 VLM 优化只关注准确率奖励,ERGO 表明将 token 效率直接编入 RL 奖励函数是有效的路径。 → 设计 reward 时加入 token budget 惩罚项
研究灵感 #2:感知与推理的顺序很重要
“先感知再推理” vs “先推理再感知”——后者在低质量视觉输入时更鲁棒。 → 可以考虑在其他 VLM 任务中引入”推理优先”的感知策略
研究灵感 #3:上下文语义可以补偿视觉信息损失
模型不必清晰地”看见”目标,只要能从语境推断其位置,就能正确选择高清区域。 → 这是一种隐式的视觉注意力对齐机制
研究灵感 #4:Region-only 验证作为训练信号
只用裁剪区域(不含原图)来评分,是一种简洁有效的自监督奖励设计,可迁移到其他视觉定位任务。
研究灵感 #5:实际部署加速而非理论加速
很多 token 压缩方法只在理论上减少 FLOP,在实际推理框架(如 vLLM)中加速不明显。 ERGO 通过减少送入模型的 token 数量实现真实 3× 加速,且兼容 vLLM Automatic Prefix Caching。
研究灵感 #6:两阶段推理作为通用框架
Coarse (reasoning) → Fine (perception) 的范式可以扩展到:
- 视频理解(先低帧率定位关键帧,再高帧率分析)
- 多图理解(先粗筛相关图,再精细分析)
- 文档理解(先定位相关段落,再精读)
🔗 相关工作对比
| 方法 | 核心思路 | 问题 |
|---|---|---|
| DeepEyes (Zheng et al., 2025) | 感知驱动推理 + 工具调用 | 下采样后感知失败;token 多 |
| VisionThink | 动态分辨率选择 | 不能处理局部高分辨需求 |
| AdaptVision | 自适应 token 获取 | 无 RL 显式效率优化 |
| FastV / SparseVLM | 注意力剪枝 | 实际加速效果有限 |
| ERGO | 推理驱动感知 + RL 效率奖励 | — |
⚙️ 实现细节(复现要点)
- 基座模型:Qwen2.5-VL-7B
- RL 框架:VLM-R1 代码库
- 推理框架:推荐 vLLM(支持 Automatic Prefix Caching)
- 评测基准:V*, HR-Bench, MME-RealWorld-lite
- Python 要求:≥ 3.10
- Token 上限控制:通过
MAX_VISION_TOKEN_NUM环境变量控制
# 推理示例
python ./src/ergo/infer.py \
--input_path ./data/demo/demo.jpg \
--question "Is the orange luggage on the left or right of the purple umbrella?"❓ 待深入思考的问题
- TCE Reward 中 , 的超参数敏感性如何?消融实验是否充分?
- Stage 1 的 Bounding Box 预测是否可以换成更细粒度的 Mask 或 Attention Map?
- 对于需要全局理解的任务(如场景关系),单 region crop 是否会丢失必要上下文?
- 能否扩展到多 region 选择(同时关注多个区域)?
- 在视频/多帧场景下的泛化能力?
📎 引用
@misc{lee2025ergoefficienthighresolutionvisual,
title={ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models},
author={Jewon Lee and Wooksu Shin and Seungmin Yang and Ki-Ung Song and DongUk Lim
and Jaeyeon Kim and Tae-Ho Kim and Bo-Kyeong Kim},
year={2025},
eprint={2509.21991},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2509.21991}
}读于 2026-03-11 | 整理者:个人笔记