FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

论文基本信息


Tags

vlm-architecture cross-modal-fusion text-guided-encoding recursive-decoding vision-language-model efficient-vlm 2025


核心一句话总结

FUSION 提出了贯穿整个处理管线(编码 → 映射 → 解码)的视觉-语言全程深度融合框架,让文本信息在视觉编码阶段就开始主动引导像素级特征提取,仅用 630 个视觉 token,3B 模型便超越 Cambrian-1 8B 和 Florence-VL 8B,压缩到 300 token 后依然保持优势。


🧩 问题背景与动机

现有方法的根本缺陷:晚期融合(Late-stage Fusion)

传统 MLLM 流程:
  图像 → [视觉编码器] → 视觉 token → [Projector] → LLM 解码
                                                        ↑
                              文本 Query 只在此处才与视觉交互

三大问题:

问题具体表现
模态对齐不足视觉和文本 embedding 空间存在固有差距,缺乏系统对齐
视觉编码静态化视觉编码不感知任务文本,编码出与当前问题无关的通用特征
冗余 token增加更多图像 token 并不能真正改善跨模态理解,反而引入冗余

论文核心洞察

模态对齐可视化分析显示:LLaVA 和 LLaVA-NeXT 在 projector 之后均未能实现正确的特征映射,解码阶段注意力分散。根源在于缺乏双向的、全程的视觉-语言交互。

FUSION 的解决思路

让文本信息从视觉编码阶段就开始参与,在每个处理阶段都实现动态、自适应的模态融合:

FUSION 流程:
  文本 Query ─┐
              ↓
  图像 → [文本引导视觉编码] → 视觉 token → [双监督映射] → [递归对齐解码]
              ↑                                                    ↑
         像素级融合                                         每层递归更新

🏗️ 方法详解

FUSION 包含三个核心创新组件 + 一套合成数据集方案。


组件一:Text-Guided Unified Vision Encoding (TGUVE)

目标:在视觉编码阶段将文本信息融入,实现像素级的文本-视觉联合编码。

工作流程

Step 1:文本 embedding 投影到视觉空间 将问题的文本 embedding 通过 MLP 映射到视觉特征空间,使两者可以在同一空间交互。

Step 2:联合编码(带分层掩码)

关键设计:分层掩码

  • 前半段编码层(低层):屏蔽文本→视觉的注意力,保留低层视觉信息的完整性
  • 后半段编码层(高层):开放双向注意力,实现高层语义的文本引导融合

→ 低层保形,高层融语义,实现两者兼顾

Step 3:早/晚期特征聚合

Step 4:特征拼接并映射到 LLM 空间

设计哲学:早期特征捕获低层视觉结构,晚期特征捕获文本引导的高层语义,拼接保留二者信息。


组件二:Context-Aware Recursive Alignment Decoding (CARAD)

目标:在 LLM 解码过程中,通过递归更新的 latent token 动态对齐视觉与文本特征。

核心思想

不像传统方法在序列开头一次性输入视觉 token,而是引入上下文感知的 latent token ,在解码层之间持续递归地细化视觉-文本对齐。

关键结构

辅助视觉表示 :将原图分成 4 个子图(不含文本条件)单独编码再拼接,作为 K/V 提供丰富的视觉细节。

Context-Aware Query 构建 其中 是当前解码到问题末尾时的隐藏状态——即当前文本上下文的语义摘要

局部窗口注意力更新

效率优化:局部窗口注意力

用预定义窗口大小 限制注意力计算范围,避免全局注意力的 代价,保持计算效率。

递归机制:每个 LLM 解码层之后都插入一个 Interaction Layer, 随解码进程不断被更新精炼。


组件三:Dual-Supervised Semantic Mapping Loss (DSSL)

目标:通过双向重建损失约束两个 MLP projector,缓解模态嵌入空间的固有差距。

双向重建损失

视觉→文本方向

要求视觉编码器处理过的文本 token,经 映射后能还原出 LLM 的文本表示。

文本→视觉方向

要求视觉 embedding 经 映射后能还原出原始视觉特征。

总损失

设计直觉

两个 MLP 互为”验证者”—— 映射视觉→文本, 逆向映射,双向余弦相似度约束确保映射可逆、跨模态特征空间对齐一致。


组件四:合成语言驱动 QA 数据集

问题:现有 VQA 数据缺乏专门为文本引导视觉特征优化的高质量数据。

数据合成流程

高质量图片描述池
       ↓
   LLM 丰富化 → 详细描述
       ↓
扩散模型生成图像  +  LLM 构建多样化 QA 对
       ↓
   多阶段过滤(去歧义、去缺失、去不一致)
       ↓
Stage 1: 5 类合成数据,1.5M 图文对(颜色/计数/空间/文字/场景)
Stage 1.5: 7 类合成 QA,1M 对(多选/对话/推理/文字QA/对比)

三阶段训练策略

阶段名称数据目标
Stage 1Foundational Semantic Alignment1.5M 合成图文对预训练视觉编码器处理视觉+文本联合表示
Stage 1.5Contextual Multimodal Fusion多样化 QA + 描述数据强化多样上下文中的跨模态对齐
Stage 2Visual Instruction Tuning视觉任务数据集微调适配下游视觉问答任务

训练策略关键发现

全参数解冻优于部分冻结:由于 FUSION 框架根本性地改变了视觉编码器和 LLM 的使用模式,两者都需要持续适应新的处理范式,端到端优化所有参数效果最优。


📊 实验结果

主要性能对比

模型参数Vision Tokens综合表现
LLaVA-NeXT7B~2880基线
Cambrian-18B较强
Florence-VL8B较强
FUSION3B630超越 Cambrian-1 8B 和 Florence-VL 8B
FUSION-L3B300仍超越 Cambrian-1 8B
FUSION-X3BMMBench 3B 以下最高分,超越 Qwen2.5VL 3B

效率优势总结

关键结论

  • 仅用 630 tokens(约为 LLaVA-NeXT 的 22%),3B 模型超过多个 8B 基线
  • 进一步压缩至 300 tokens 性能依然领先 —— 说明深度融合使每个 token 携带更多有效信息
  • 无需动态分辨率技巧,仅凭模态融合方法,就在超过半数基准上超越 LLaVA-NeXT

模态对齐可视化

通过对 LLaVA、LLaVA-NeXT、FUSION 的对齐质量可视化对比:

  • LLaVA/LLaVA-NeXT:projector 后特征映射混乱,解码注意力分散
  • FUSION:projector 后特征映射清晰,注意力集中于与问题相关的图像区域

💡 对 Efficient VLM 研究的价值提炼

研究灵感 #1:全程融合 vs 晚期融合

传统”视觉编码 → 映射 → LLM 解码”的串行、单次融合是性能瓶颈的根源。全程融合能让每个 token 携带更多与任务相关的信息,从而以更少 token 达到更好效果。 → 做 efficient VLM 不只是减少 token 数量,更要提升每个 token 的信息密度

研究灵感 #2:文本引导视觉编码是提升 token 质量的关键

让 Query 文本在编码阶段就参与,可以让视觉编码器”知道要看什么”,产出任务相关的高质量特征而非通用特征。这从源头上减少了冗余 token 的产生。 → 可以考虑在 token 压缩方法中引入问题条件化的重要性评分(question-conditioned importance scoring)

研究灵感 #3:分层掩码策略保护低层视觉特征

TGUVE 中在编码器前半段屏蔽文本→视觉注意力,是一个精妙的设计:既保留了低层几何/纹理信息,又在高层实现语义引导。 → 一个可迁移的设计原则:分阶段融合,低层保形高层融语义

研究灵感 #4:递归动态对齐 vs 一次性静态 token

CARAD 的 latent token 随解码进程递归更新,而非像传统方法一样在序列开头固定注入。这让视觉表示可以随着解码的语义累积而动态细化。 → 可探索:动态视觉 token 而非静态视觉 token,在推理过程中按需更新视觉特征

研究灵感 #5:双监督双向 MLP 作为对齐正则化

DSSL 的双向余弦重建损失是一种轻量但有效的对齐正则化方法,不需要额外的对齐预训练数据。 → 可作为即插即用的模态对齐辅助损失,附加到任何 VLM 的 projector 训练中

研究灵感 #6:局部窗口注意力实现高效递归

CARAD 中使用局部窗口注意力而非全局注意力来做 latent token 更新,在保持空间局部性的同时控制计算量。 → 在设计跨层或跨模态注意力时,窗口化注意力是实用的效率-精度权衡手段

研究灵感 #7:全参数解冻的必要性

当引入根本性范式变化时(不是微调而是重塑处理流程),局部解冻效果不佳,全参数优化是必要的。 → 做新架构时要注意:范式变化幅度越大,对端到端训练的需求越强


🔗 相关工作对比

方法融合方式问题
LLaVA晚期融合(MLP Projector)仅 Projector 层做对齐,特征空间失配
LLaVA-NeXT晚期融合 + 动态分辨率Token 过多但融合质量未提升
InstructBLIPQFormer 文本引导仅在 Q-Former 层引入文本,不够深入
Cambrian-1多视觉编码器融合编码器堆叠,冗余多,无文本引导
Florence-VL多尺度视觉特征缺乏系统性的跨模态对齐框架
FUSION全程双向深度融合

⚙️ 实现细节(复现要点)

  • 基座 LLM:Phi-3.5-mini-instruct(轻量版消融)
  • 视觉编码器:SigLIP2
  • 规模:3B(Phi-3.5-mini + SigLIP2)、8B
  • 每个阶段训练步数:8000 steps(轻量配置)
  • 超参数(损失平衡参数),窗口大小 (CARAD 中的局部注意力范围)
  • 关键配置:全参数解冻(全部组件)
# 大致训练阶段配置
stage1: pretrain_vision_encoder(synth_caption_data_1.5M)   # 基础语义对齐
stage15: train_cross_modal_fusion(diverse_qa_data_1M)       # 上下文多模态融合  
stage2: visual_instruction_tuning(downstream_vqa_data)       # 指令微调

❓ 待深入思考的问题

  • CARAD 中 latent token 数量 如何选取?与最终输入 LLM 的视觉 token 数量关系如何?
  • 前半段编码层屏蔽文本注意力——这个”前半段”比例是否做过消融?不同任务最优比例是否不同?
  • DSSL 的 超参数如何选取?双向损失各自的权重是否相同更优?
  • 与 token 压缩方法(如 FastV, SparseVLM)结合是否有协同效果?
  • 动态分辨率支持:FUSION-X 是否引入了动态分辨率,如果是,与 FUSION 基础版的差异是什么?
  • 合成数据的 domain gap:diffusion 生成图像与真实图像的分布差距对下游泛化有多大影响?

🔁 与 ERGO 的对比(两篇 Efficient VLM 论文联读)

维度ERGOFUSION
核心思路推理驱动感知(先定位再高清)全程深度融合(全流程文本引导)
效率来源减少处理像素数(coarse-to-fine)提升每个 token 信息密度
训练方式RL(奖励设计)监督学习(三阶段训练)
Token 策略动态裁剪高分辨率区域静态少量 token + 质量更高
互补性✅ 可结合:FUSION 编码 + ERGO 定位裁剪✅ 提升被裁剪区域的 token 质量

组合研究方向

将 FUSION 的文本引导编码方式应用到 ERGO 的 Stage 2(高清裁剪区域处理),进一步压缩 Stage 2 所需的 token 数量,同时用 ERGO 的 RL 效率奖励对 FUSION 的 token budget 做动态约束。


📎 引用

@article{liu2025fusion,
  title={FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding},
  author={Zheng Liu et al.},
  journal={arXiv preprint arXiv:2504.09925},
  year={2025}
}