FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
论文基本信息
- ArXiv:2504.09925
- 作者:Zheng Liu et al.
- 代码:starriver030515/FUSION
- 模型/数据集:starriver030515/FUSION-Model
- 发表时间:2025年4月(arXiv v2: 2025.04.19)
- 规模:FUSION-3B、FUSION-8B
Tags
vlm-architecture cross-modal-fusion text-guided-encoding recursive-decoding vision-language-model efficient-vlm 2025
核心一句话总结
FUSION 提出了贯穿整个处理管线(编码 → 映射 → 解码)的视觉-语言全程深度融合框架,让文本信息在视觉编码阶段就开始主动引导像素级特征提取,仅用 630 个视觉 token,3B 模型便超越 Cambrian-1 8B 和 Florence-VL 8B,压缩到 300 token 后依然保持优势。
🧩 问题背景与动机
现有方法的根本缺陷:晚期融合(Late-stage Fusion)
传统 MLLM 流程:
图像 → [视觉编码器] → 视觉 token → [Projector] → LLM 解码
↑
文本 Query 只在此处才与视觉交互
三大问题:
| 问题 | 具体表现 |
|---|---|
| 模态对齐不足 | 视觉和文本 embedding 空间存在固有差距,缺乏系统对齐 |
| 视觉编码静态化 | 视觉编码不感知任务文本,编码出与当前问题无关的通用特征 |
| 冗余 token | 增加更多图像 token 并不能真正改善跨模态理解,反而引入冗余 |
论文核心洞察
模态对齐可视化分析显示:LLaVA 和 LLaVA-NeXT 在 projector 之后均未能实现正确的特征映射,解码阶段注意力分散。根源在于缺乏双向的、全程的视觉-语言交互。
FUSION 的解决思路
让文本信息从视觉编码阶段就开始参与,在每个处理阶段都实现动态、自适应的模态融合:
FUSION 流程:
文本 Query ─┐
↓
图像 → [文本引导视觉编码] → 视觉 token → [双监督映射] → [递归对齐解码]
↑ ↑
像素级融合 每层递归更新
🏗️ 方法详解
FUSION 包含三个核心创新组件 + 一套合成数据集方案。
组件一:Text-Guided Unified Vision Encoding (TGUVE)
目标:在视觉编码阶段将文本信息融入,实现像素级的文本-视觉联合编码。
工作流程
Step 1:文本 embedding 投影到视觉空间 将问题的文本 embedding 通过 MLP 映射到视觉特征空间,使两者可以在同一空间交互。
Step 2:联合编码(带分层掩码)
关键设计:分层掩码
- 前半段编码层(低层):屏蔽文本→视觉的注意力,保留低层视觉信息的完整性
- 后半段编码层(高层):开放双向注意力,实现高层语义的文本引导融合
→ 低层保形,高层融语义,实现两者兼顾
Step 3:早/晚期特征聚合
Step 4:特征拼接并映射到 LLM 空间
设计哲学:早期特征捕获低层视觉结构,晚期特征捕获文本引导的高层语义,拼接保留二者信息。
组件二:Context-Aware Recursive Alignment Decoding (CARAD)
目标:在 LLM 解码过程中,通过递归更新的 latent token 动态对齐视觉与文本特征。
核心思想
不像传统方法在序列开头一次性输入视觉 token,而是引入上下文感知的 latent token ,在解码层之间持续递归地细化视觉-文本对齐。
关键结构
辅助视觉表示 :将原图分成 4 个子图(不含文本条件)单独编码再拼接,作为 K/V 提供丰富的视觉细节。
Context-Aware Query 构建: 其中 是当前解码到问题末尾时的隐藏状态——即当前文本上下文的语义摘要。
局部窗口注意力更新:
效率优化:局部窗口注意力
用预定义窗口大小 限制注意力计算范围,避免全局注意力的 代价,保持计算效率。
递归机制:每个 LLM 解码层之后都插入一个 Interaction Layer, 随解码进程不断被更新精炼。
组件三:Dual-Supervised Semantic Mapping Loss (DSSL)
目标:通过双向重建损失约束两个 MLP projector,缓解模态嵌入空间的固有差距。
双向重建损失
视觉→文本方向 :
要求视觉编码器处理过的文本 token,经 映射后能还原出 LLM 的文本表示。
文本→视觉方向 :
要求视觉 embedding 经 映射后能还原出原始视觉特征。
总损失:
设计直觉
两个 MLP 互为”验证者”—— 映射视觉→文本, 逆向映射,双向余弦相似度约束确保映射可逆、跨模态特征空间对齐一致。
组件四:合成语言驱动 QA 数据集
问题:现有 VQA 数据缺乏专门为文本引导视觉特征优化的高质量数据。
数据合成流程:
高质量图片描述池
↓
LLM 丰富化 → 详细描述
↓
扩散模型生成图像 + LLM 构建多样化 QA 对
↓
多阶段过滤(去歧义、去缺失、去不一致)
↓
Stage 1: 5 类合成数据,1.5M 图文对(颜色/计数/空间/文字/场景)
Stage 1.5: 7 类合成 QA,1M 对(多选/对话/推理/文字QA/对比)
三阶段训练策略
| 阶段 | 名称 | 数据 | 目标 |
|---|---|---|---|
| Stage 1 | Foundational Semantic Alignment | 1.5M 合成图文对 | 预训练视觉编码器处理视觉+文本联合表示 |
| Stage 1.5 | Contextual Multimodal Fusion | 多样化 QA + 描述数据 | 强化多样上下文中的跨模态对齐 |
| Stage 2 | Visual Instruction Tuning | 视觉任务数据集 | 微调适配下游视觉问答任务 |
训练策略关键发现
全参数解冻优于部分冻结:由于 FUSION 框架根本性地改变了视觉编码器和 LLM 的使用模式,两者都需要持续适应新的处理范式,端到端优化所有参数效果最优。
📊 实验结果
主要性能对比
| 模型 | 参数 | Vision Tokens | 综合表现 |
|---|---|---|---|
| LLaVA-NeXT | 7B | ~2880 | 基线 |
| Cambrian-1 | 8B | 多 | 较强 |
| Florence-VL | 8B | 多 | 较强 |
| FUSION | 3B | 630 | 超越 Cambrian-1 8B 和 Florence-VL 8B |
| FUSION-L | 3B | 300 | 仍超越 Cambrian-1 8B |
| FUSION-X | 3B | — | MMBench 3B 以下最高分,超越 Qwen2.5VL 3B |
效率优势总结
关键结论
- 仅用 630 tokens(约为 LLaVA-NeXT 的 22%),3B 模型超过多个 8B 基线
- 进一步压缩至 300 tokens 性能依然领先 —— 说明深度融合使每个 token 携带更多有效信息
- 无需动态分辨率技巧,仅凭模态融合方法,就在超过半数基准上超越 LLaVA-NeXT
模态对齐可视化
通过对 LLaVA、LLaVA-NeXT、FUSION 的对齐质量可视化对比:
- LLaVA/LLaVA-NeXT:projector 后特征映射混乱,解码注意力分散
- FUSION:projector 后特征映射清晰,注意力集中于与问题相关的图像区域
💡 对 Efficient VLM 研究的价值提炼
研究灵感 #1:全程融合 vs 晚期融合
传统”视觉编码 → 映射 → LLM 解码”的串行、单次融合是性能瓶颈的根源。全程融合能让每个 token 携带更多与任务相关的信息,从而以更少 token 达到更好效果。 → 做 efficient VLM 不只是减少 token 数量,更要提升每个 token 的信息密度
研究灵感 #2:文本引导视觉编码是提升 token 质量的关键
让 Query 文本在编码阶段就参与,可以让视觉编码器”知道要看什么”,产出任务相关的高质量特征而非通用特征。这从源头上减少了冗余 token 的产生。 → 可以考虑在 token 压缩方法中引入问题条件化的重要性评分(question-conditioned importance scoring)
研究灵感 #3:分层掩码策略保护低层视觉特征
TGUVE 中在编码器前半段屏蔽文本→视觉注意力,是一个精妙的设计:既保留了低层几何/纹理信息,又在高层实现语义引导。 → 一个可迁移的设计原则:分阶段融合,低层保形高层融语义
研究灵感 #4:递归动态对齐 vs 一次性静态 token
CARAD 的 latent token 随解码进程递归更新,而非像传统方法一样在序列开头固定注入。这让视觉表示可以随着解码的语义累积而动态细化。 → 可探索:动态视觉 token 而非静态视觉 token,在推理过程中按需更新视觉特征
研究灵感 #5:双监督双向 MLP 作为对齐正则化
DSSL 的双向余弦重建损失是一种轻量但有效的对齐正则化方法,不需要额外的对齐预训练数据。 → 可作为即插即用的模态对齐辅助损失,附加到任何 VLM 的 projector 训练中
研究灵感 #6:局部窗口注意力实现高效递归
CARAD 中使用局部窗口注意力而非全局注意力来做 latent token 更新,在保持空间局部性的同时控制计算量。 → 在设计跨层或跨模态注意力时,窗口化注意力是实用的效率-精度权衡手段
研究灵感 #7:全参数解冻的必要性
当引入根本性范式变化时(不是微调而是重塑处理流程),局部解冻效果不佳,全参数优化是必要的。 → 做新架构时要注意:范式变化幅度越大,对端到端训练的需求越强
🔗 相关工作对比
| 方法 | 融合方式 | 问题 |
|---|---|---|
| LLaVA | 晚期融合(MLP Projector) | 仅 Projector 层做对齐,特征空间失配 |
| LLaVA-NeXT | 晚期融合 + 动态分辨率 | Token 过多但融合质量未提升 |
| InstructBLIP | QFormer 文本引导 | 仅在 Q-Former 层引入文本,不够深入 |
| Cambrian-1 | 多视觉编码器融合 | 编码器堆叠,冗余多,无文本引导 |
| Florence-VL | 多尺度视觉特征 | 缺乏系统性的跨模态对齐框架 |
| FUSION | 全程双向深度融合 | — |
⚙️ 实现细节(复现要点)
- 基座 LLM:Phi-3.5-mini-instruct(轻量版消融)
- 视觉编码器:SigLIP2
- 规模:3B(Phi-3.5-mini + SigLIP2)、8B
- 每个阶段训练步数:8000 steps(轻量配置)
- 超参数:(损失平衡参数),窗口大小 (CARAD 中的局部注意力范围)
- 关键配置:全参数解冻(全部组件)
# 大致训练阶段配置
stage1: pretrain_vision_encoder(synth_caption_data_1.5M) # 基础语义对齐
stage15: train_cross_modal_fusion(diverse_qa_data_1M) # 上下文多模态融合
stage2: visual_instruction_tuning(downstream_vqa_data) # 指令微调❓ 待深入思考的问题
- CARAD 中 latent token 数量 如何选取?与最终输入 LLM 的视觉 token 数量关系如何?
- 前半段编码层屏蔽文本注意力——这个”前半段”比例是否做过消融?不同任务最优比例是否不同?
- DSSL 的 超参数如何选取?双向损失各自的权重是否相同更优?
- 与 token 压缩方法(如 FastV, SparseVLM)结合是否有协同效果?
- 动态分辨率支持:FUSION-X 是否引入了动态分辨率,如果是,与 FUSION 基础版的差异是什么?
- 合成数据的 domain gap:diffusion 生成图像与真实图像的分布差距对下游泛化有多大影响?
🔁 与 ERGO 的对比(两篇 Efficient VLM 论文联读)
| 维度 | ERGO | FUSION |
|---|---|---|
| 核心思路 | 推理驱动感知(先定位再高清) | 全程深度融合(全流程文本引导) |
| 效率来源 | 减少处理像素数(coarse-to-fine) | 提升每个 token 信息密度 |
| 训练方式 | RL(奖励设计) | 监督学习(三阶段训练) |
| Token 策略 | 动态裁剪高分辨率区域 | 静态少量 token + 质量更高 |
| 互补性 | ✅ 可结合:FUSION 编码 + ERGO 定位裁剪 | ✅ 提升被裁剪区域的 token 质量 |
组合研究方向
将 FUSION 的文本引导编码方式应用到 ERGO 的 Stage 2(高清裁剪区域处理),进一步压缩 Stage 2 所需的 token 数量,同时用 ERGO 的 RL 效率奖励对 FUSION 的 token budget 做动态约束。
📎 引用
@article{liu2025fusion,
title={FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding},
author={Zheng Liu et al.},
journal={arXiv preprint arXiv:2504.09925},
year={2025}
}