FUSION

论文基本信息

ArXiv：2504.09925

作者：Zheng Liu et al.

代码：starriver030515/FUSION

模型/数据集：starriver030515/FUSION-Model

发表时间：2025年4月（arXiv v2: 2025.04.19）

规模：FUSION-3B、FUSION-8B

核心一句话总结

FUSION 提出了贯穿整个处理管线（编码 → 映射 → 解码）的视觉-语言全程深度融合框架，让文本信息在视觉编码阶段就开始主动引导像素级特征提取，仅用 630 个视觉 token，3B 模型便超越 Cambrian-1 8B 和 Florence-VL 8B，压缩到 300 token 后依然保持优势。

🧩 问题背景与动机

现有方法的根本缺陷：晚期融合（Late-stage Fusion）

传统 MLLM 流程：
  图像 → [视觉编码器] → 视觉 token → [Projector] → LLM 解码
                                                        ↑
                              文本 Query 只在此处才与视觉交互

三大问题：

问题	具体表现
模态对齐不足	视觉和文本 embedding 空间存在固有差距，缺乏系统对齐
视觉编码静态化	视觉编码不感知任务文本，编码出与当前问题无关的通用特征
冗余 token	增加更多图像 token 并不能真正改善跨模态理解，反而引入冗余

论文核心洞察

模态对齐可视化分析显示：LLaVA 和 LLaVA-NeXT 在 projector 之后均未能实现正确的特征映射，解码阶段注意力分散。根源在于缺乏双向的、全程的视觉-语言交互。

FUSION 的解决思路

让文本信息从视觉编码阶段就开始参与，在每个处理阶段都实现动态、自适应的模态融合：

FUSION 流程：
  文本 Query ─┐
              ↓
  图像 → [文本引导视觉编码] → 视觉 token → [双监督映射] → [递归对齐解码]
              ↑                                                    ↑
         像素级融合                                         每层递归更新

🏗️ 方法详解

FUSION 包含三个核心创新组件 + 一套合成数据集方案。

组件一：Text-Guided Unified Vision Encoding (TGUVE)

目标：在视觉编码阶段将文本信息融入，实现像素级的文本-视觉联合编码。

工作流程

Step 1：文本 embedding 投影到视觉空间 $V_{t x t} = M L P_{t 2 v} (E_{t x t})$ 将问题的文本 embedding $E_{t x t}$ 通过 MLP 映射到视觉特征空间，使两者可以在同一空间交互。

Step 2：联合编码（带分层掩码） $(V_{im g}^{i}, V_{t x t}^{i}) = EncoderLayer (V_{im g}^{i - 1}, V_{t x t}^{i - 1}), i = 1, ..., N$

关键设计：分层掩码

前半段编码层（低层）：屏蔽文本→视觉的注意力，保留低层视觉信息的完整性

后半段编码层（高层）：开放双向注意力，实现高层语义的文本引导融合

→ 低层保形，高层融语义，实现两者兼顾

Step 3：早/晚期特征聚合 $V_{e}^{im g} = \frac{2}{N} \sum_{i = 1}^{N /2} V_{im g}^{i}, V_{l}^{im g} = \frac{2}{N} \sum_{i = N /2 + 1}^{N} V_{im g}^{i}$

Step 4：特征拼接并映射到 LLM 空间 $V_{f}^{im g} = Concat (V_{e}^{im g}, V_{l}^{im g}; dim=channel)$ $E_{im g} = M L P_{v 2 t} (V_{f}^{im g})$

设计哲学：早期特征捕获低层视觉结构，晚期特征捕获文本引导的高层语义，拼接保留二者信息。

组件二：Context-Aware Recursive Alignment Decoding (CARAD)

目标：在 LLM 解码过程中，通过递归更新的 latent token 动态对齐视觉与文本特征。

核心思想

不像传统方法在序列开头一次性输入视觉 token，而是引入上下文感知的 latent token $I_{C}$ ，在解码层之间持续递归地细化视觉-文本对齐。

关键结构

辅助视觉表示 $I_{A}$ ：将原图分成 4 个子图（不含文本条件）单独编码再拼接，作为 K/V 提供丰富的视觉细节。

Context-Aware Query 构建： $I_{Q} [i, j] = M L P (Concat (H_{P}, I_{C} [i, j]))$ 其中 $H_{P}$ 是当前解码到问题末尾时的隐藏状态——即当前文本上下文的语义摘要。

局部窗口注意力更新： $I_{C} [i, j] = softmax (\frac{Q [ i , j ] K [ i , j ] ^{T}}{D}) V [i, j]$ $K [i, j] = W_{K} \cdot Patch (I_{A}, i, j, w), V [i, j] = W_{V} \cdot Patch (I_{A}, i, j, w)$

效率优化：局部窗口注意力

用预定义窗口大小 $w$ 限制注意力计算范围，避免全局注意力的 $O (n^{2})$ 代价，保持计算效率。

递归机制：每个 LLM 解码层之后都插入一个 Interaction Layer， $I_{C}$ 随解码进程不断被更新精炼。

组件三：Dual-Supervised Semantic Mapping Loss (DSSL)

目标：通过双向重建损失约束两个 MLP projector，缓解模态嵌入空间的固有差距。

双向重建损失

视觉→文本方向 $L_{v 2 t}$ ： $L_{v 2 t} = 1 - \frac{E _{t x t} \cdot M L P _{v 2 t} ( V _{f}^{t x t} )}{∣ E _{t x t} ∣ \cdot ∣ M L P _{v 2 t} ( V _{f}^{t x t} ) ∣}$

要求视觉编码器处理过的文本 token，经 $M L P_{v 2 t}$ 映射后能还原出 LLM 的文本表示。

文本→视觉方向 $L_{t 2 v}$ ： $L_{t 2 v} = 1 - \frac{M L P _{t 2 v} ( E _{im g} ) \cdot V _{im g}}{∣ M L P _{t 2 v} ( E _{im g} ) ∣ \cdot ∣ V _{im g} ∣}$

要求视觉 embedding 经 $M L P_{t 2 v}$ 映射后能还原出原始视觉特征。

总损失： $L_{t o t a l} = L_{CE} + λ (L_{v 2 t} + L_{t 2 v})$

设计直觉

两个 MLP 互为”验证者”—— $M L P_{v 2 t}$ 映射视觉→文本， $M L P_{t 2 v}$ 逆向映射，双向余弦相似度约束确保映射可逆、跨模态特征空间对齐一致。

组件四：合成语言驱动 QA 数据集

问题：现有 VQA 数据缺乏专门为文本引导视觉特征优化的高质量数据。

数据合成流程：

高质量图片描述池
       ↓
   LLM 丰富化 → 详细描述
       ↓
扩散模型生成图像  +  LLM 构建多样化 QA 对
       ↓
   多阶段过滤（去歧义、去缺失、去不一致）
       ↓
Stage 1: 5 类合成数据，1.5M 图文对（颜色/计数/空间/文字/场景）
Stage 1.5: 7 类合成 QA，1M 对（多选/对话/推理/文字QA/对比）

三阶段训练策略

阶段	名称	数据	目标
Stage 1	Foundational Semantic Alignment	1.5M 合成图文对	预训练视觉编码器处理视觉+文本联合表示
Stage 1.5	Contextual Multimodal Fusion	多样化 QA + 描述数据	强化多样上下文中的跨模态对齐
Stage 2	Visual Instruction Tuning	视觉任务数据集	微调适配下游视觉问答任务

训练策略关键发现

全参数解冻优于部分冻结：由于 FUSION 框架根本性地改变了视觉编码器和 LLM 的使用模式，两者都需要持续适应新的处理范式，端到端优化所有参数效果最优。

📊 实验结果

主要性能对比

模型	参数	Vision Tokens	综合表现
LLaVA-NeXT	7B	~2880	基线
Cambrian-1	8B	多	较强
Florence-VL	8B	多	较强
FUSION	3B	630	超越 Cambrian-1 8B 和 Florence-VL 8B
FUSION-L	3B	300	仍超越 Cambrian-1 8B
FUSION-X	3B	—	MMBench 3B 以下最高分，超越 Qwen2.5VL 3B

效率优势总结

关键结论

仅用 630 tokens（约为 LLaVA-NeXT 的 22%），3B 模型超过多个 8B 基线

进一步压缩至 300 tokens 性能依然领先 —— 说明深度融合使每个 token 携带更多有效信息

无需动态分辨率技巧，仅凭模态融合方法，就在超过半数基准上超越 LLaVA-NeXT

模态对齐可视化

通过对 LLaVA、LLaVA-NeXT、FUSION 的对齐质量可视化对比：

LLaVA/LLaVA-NeXT：projector 后特征映射混乱，解码注意力分散
FUSION：projector 后特征映射清晰，注意力集中于与问题相关的图像区域

💡 对 Efficient VLM 研究的价值提炼

研究灵感 #1：全程融合 vs 晚期融合

传统”视觉编码 → 映射 → LLM 解码”的串行、单次融合是性能瓶颈的根源。全程融合能让每个 token 携带更多与任务相关的信息，从而以更少 token 达到更好效果。 → 做 efficient VLM 不只是减少 token 数量，更要提升每个 token 的信息密度

研究灵感 #2：文本引导视觉编码是提升 token 质量的关键

让 Query 文本在编码阶段就参与，可以让视觉编码器”知道要看什么”，产出任务相关的高质量特征而非通用特征。这从源头上减少了冗余 token 的产生。 → 可以考虑在 token 压缩方法中引入问题条件化的重要性评分（question-conditioned importance scoring）

研究灵感 #3：分层掩码策略保护低层视觉特征

TGUVE 中在编码器前半段屏蔽文本→视觉注意力，是一个精妙的设计：既保留了低层几何/纹理信息，又在高层实现语义引导。 → 一个可迁移的设计原则：分阶段融合，低层保形高层融语义

研究灵感 #4：递归动态对齐 vs 一次性静态 token

CARAD 的 latent token 随解码进程递归更新，而非像传统方法一样在序列开头固定注入。这让视觉表示可以随着解码的语义累积而动态细化。 → 可探索：动态视觉 token 而非静态视觉 token，在推理过程中按需更新视觉特征

研究灵感 #5：双监督双向 MLP 作为对齐正则化

DSSL 的双向余弦重建损失是一种轻量但有效的对齐正则化方法，不需要额外的对齐预训练数据。 → 可作为即插即用的模态对齐辅助损失，附加到任何 VLM 的 projector 训练中

研究灵感 #6：局部窗口注意力实现高效递归

CARAD 中使用局部窗口注意力而非全局注意力来做 latent token 更新，在保持空间局部性的同时控制计算量。 → 在设计跨层或跨模态注意力时，窗口化注意力是实用的效率-精度权衡手段

研究灵感 #7：全参数解冻的必要性

当引入根本性范式变化时（不是微调而是重塑处理流程），局部解冻效果不佳，全参数优化是必要的。 → 做新架构时要注意：范式变化幅度越大，对端到端训练的需求越强

🔗 相关工作对比

方法	融合方式	问题
LLaVA	晚期融合（MLP Projector）	仅 Projector 层做对齐，特征空间失配
LLaVA-NeXT	晚期融合 + 动态分辨率	Token 过多但融合质量未提升
InstructBLIP	QFormer 文本引导	仅在 Q-Former 层引入文本，不够深入
Cambrian-1	多视觉编码器融合	编码器堆叠，冗余多，无文本引导
Florence-VL	多尺度视觉特征	缺乏系统性的跨模态对齐框架
FUSION	全程双向深度融合	—

⚙️ 实现细节（复现要点）

基座 LLM：Phi-3.5-mini-instruct（轻量版消融）
视觉编码器：SigLIP2
规模：3B（Phi-3.5-mini + SigLIP2）、8B
每个阶段训练步数：8000 steps（轻量配置）
超参数： $λ$ （损失平衡参数），窗口大小 $w$ （CARAD 中的局部注意力范围）
关键配置：全参数解冻（全部组件）

# 大致训练阶段配置
stage1: pretrain_vision_encoder(synth_caption_data_1.5M)   # 基础语义对齐
stage15: train_cross_modal_fusion(diverse_qa_data_1M)       # 上下文多模态融合  
stage2: visual_instruction_tuning(downstream_vqa_data)       # 指令微调

❓ 待深入思考的问题

CARAD 中 latent token 数量 $n \times n$ 如何选取？与最终输入 LLM 的视觉 token 数量关系如何？
前半段编码层屏蔽文本注意力——这个”前半段”比例是否做过消融？不同任务最优比例是否不同？
DSSL 的 $λ$ 超参数如何选取？双向损失各自的权重是否相同更优？
与 token 压缩方法（如 FastV, SparseVLM）结合是否有协同效果？
动态分辨率支持：FUSION-X 是否引入了动态分辨率，如果是，与 FUSION 基础版的差异是什么？
合成数据的 domain gap：diffusion 生成图像与真实图像的分布差距对下游泛化有多大影响？

🔁 与 ERGO 的对比（两篇 Efficient VLM 论文联读）

维度	ERGO	FUSION
核心思路	推理驱动感知（先定位再高清）	全程深度融合（全流程文本引导）
效率来源	减少处理像素数（coarse-to-fine）	提升每个 token 信息密度
训练方式	RL（奖励设计）	监督学习（三阶段训练）
Token 策略	动态裁剪高分辨率区域	静态少量 token + 质量更高
互补性	✅ 可结合：FUSION 编码 + ERGO 定位裁剪	✅ 提升被裁剪区域的 token 质量

组合研究方向

将 FUSION 的文本引导编码方式应用到 ERGO 的 Stage 2（高清裁剪区域处理），进一步压缩 Stage 2 所需的 token 数量，同时用 ERGO 的 RL 效率奖励对 FUSION 的 token budget 做动态约束。

📎 引用

@article{liu2025fusion,
  title={FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding},
  author={Zheng Liu et al.},
  journal={arXiv preprint arXiv:2504.09925},
  year={2025}
}

Starry's Blog

Explorer

FUSION

Tags

核心一句话总结

🧩 问题背景与动机

现有方法的根本缺陷：晚期融合（Late-stage Fusion）

FUSION 的解决思路

🏗️ 方法详解

组件一：Text-Guided Unified Vision Encoding (TGUVE)

工作流程

组件二：Context-Aware Recursive Alignment Decoding (CARAD)

核心思想

关键结构

组件三：Dual-Supervised Semantic Mapping Loss (DSSL)

双向重建损失

组件四：合成语言驱动 QA 数据集

三阶段训练策略

📊 实验结果

主要性能对比

效率优势总结

模态对齐可视化

💡 对 Efficient VLM 研究的价值提炼

🔗 相关工作对比

⚙️ 实现细节（复现要点）

❓ 待深入思考的问题

🔁 与 ERGO 的对比（两篇 Efficient VLM 论文联读）

📎 引用

Graph View

Table of Contents