视觉语言模型（VLM）五年调研报告（2021 — 2026.03）

摘要：本报告系统梳理了 2021 年至 2026 年 3 月间，视觉语言模型（Vision-Language Model, VLM）领域的顶会论文与大厂模型系列，覆盖 CVPR、NeurIPS、ICML、ICLR、ECCV、ACL 等顶级会议，以及 OpenAI、Google DeepMind、Anthropic、Meta、Alibaba、DeepSeek 等头部机构的产品线。

2021年：CLIP 引爆对比预训练时代

CLIP（ICML 2021）

论文信息

全称：Learning Transferable Visual Models From Natural Language Supervision

作者：Alec Radford, Jong Wook Kim 等（OpenAI）

链接：arXiv:2103.00020

核心贡献：

提出用 4 亿图文对进行对比学习预训练
训练两个编码器（图像 ViT / 文本 Transformer）对齐表征
开创”自然语言监督”零样本迁移范式，在 30 个视觉任务上超越监督基线

影响

几乎所有后续 VLM 都以 CLIP 视觉编码器为骨干，是该领域最具影响力的工作之一

ALIGN（ICML 2021）

论文信息

全称：Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

作者：Chao Jia, Yinfei Yang 等（Google）

链接：arXiv:2102.05918

核心贡献：

使用 18 亿嘈杂图文对训练，超越 CLIP 规模
证明数据量能弥补噪声，强调规模定律在对比预训练中的有效性
EfficientNet + BERT 双塔架构

ViLT（ICML 2021）

论文信息

全称：Vision-and-Language Transformer Without Convolution or Region Supervision

作者：Wonjae Kim, Bokyung Son（Kakao）

链接：arXiv:2102.03334

核心贡献：

抛弃目标检测区域特征，视觉处理与文本处理统一在 Transformer 中
速度比以往 VLP 模型快数十倍，同时保持有竞争力的性能

ALBEF（NeurIPS 2021）

论文信息

全称：Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation

作者：Junnan Li, Ramprasaath Selvaraju 等（Salesforce）

链接：arXiv:2107.07651

核心贡献：

在融合前先通过 ITC（图文对比）对齐单模态特征
引入动量蒸馏（MoD）处理网络噪声数据
奠定”理解+生成”统一框架的基础

MERLOT（NeurIPS 2021）

论文信息

全称：Multimodal Neural Script Knowledge Models

作者：Rowan Zellers 等（University of Washington + AI2）

链接：arXiv:2106.02636

核心贡献：从视频中学习时序多模态常识知识，支持视觉推理

Florence（arXiv 2021，Microsoft）

论文信息

全称：Florence: A New Foundation Model for Computer Vision

作者：Yuan等（Microsoft）

链接：arXiv:2111.11432

核心贡献：提出大一统视觉基础模型，支持 image-text、image-label、image-box 等多任务，CoSwin 视觉编码器 + BERT 文本编码器

2022年：多模态架构百花齐放

Flamingo（NeurIPS 2022）

论文信息

全称：Flamingo: A Visual Language Model for Few-Shot Learning

作者：Jean-Baptiste Alayrac, Jeff Donahue 等（DeepMind）

链接：arXiv:2204.14198

核心贡献：

用 Perceiver Resampler 将视觉 Token 压缩后通过 Gated Cross-Attention 注入预训练 LLM
在不微调 LLM 的前提下实现图文交错的少样本多模态理解
首次展示多图交错输入能力，是现代 LVLM 架构的重要原型

BLIP（ICML 2022）

论文信息

全称：Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

作者：Junnan Li, Dongxu Li 等（Salesforce）

链接：arXiv:2201.12086

核心贡献：

提出多模态混合编解码器（MED）：同时支持 ITC、ITM 和 LM 三个目标
提出 CapFilt：用 Captioner 生成合成标注、用 Filter 过滤噪声，循环提升数据质量
实现理解与生成的统一

SimVLM（ICLR 2022）

论文信息

全称：Simple Visual Language Model Pretraining with Weak Supervision

作者：Zirui Wang, Jianwei Bao 等（Google）

链接：arXiv:2108.10904

核心贡献：

仅用前缀语言模型目标（PrefixLM），以最少监督信号预训练
单一目标函数覆盖理解和生成，大规模弱监督下效果优异

CoCa（arXiv 2022，Google）

论文信息

全称：Contrastive Captioners Are Image-Text Foundation Models

作者：Jiahui Yu 等（Google）

链接：arXiv:2205.01917

核心贡献：

对比损失（ITC）+ 字幕生成损失（LM）双目标联合训练
单一模型同时支持编码型和生成型下游任务

FLAVA（CVPR 2022）

论文信息

全称：A Foundational Language And Vision Alignment Model

作者：Amanpreet Singh 等（Meta AI）

链接：arXiv:2112.04482

核心贡献：统一图像-文本-多模态三种模态的预训练目标，对比、MLM、MIM、多模态融合目标同时优化

OFA（ICML 2022）

论文信息

全称：Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

作者：Peng Wang 等（Alibaba DAMO）

链接：arXiv:2202.03052

核心贡献：

将所有视觉-语言任务统一成 Seq2Seq 格式（包括图像生成、目标检测、VQA）
任务统一架构，无需额外任务头

BEiT-3（arXiv 2022，Microsoft）

论文信息

全称：Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

作者：Wenhui Wang 等（Microsoft）

链接：arXiv:2208.10442

核心贡献：

将图像 Patch 视为一种”外语”，统一训练图像/文本/多模态三个模态的 Masked Modeling
一个模型多任务均达 SOTA

X-VLM（ICML 2022）

论文信息

全称：Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

作者：Yan Zeng 等（ByteDance）

链接：arXiv:2111.08276

核心贡献：多粒度视觉-语言对齐（区域级、图像级、对象级）

LiT（CVPR 2022）

论文信息

全称：LiT: Zero-Shot Transfer with Locked-Image Text Tuning

作者：Xiaohua Zhai 等（Google）

链接：arXiv:2111.07991

核心贡献：冻结图像编码器，只微调文本编码器，可接入任意预训练视觉模型

PaLI（ICLR 2023，Google）

论文信息

全称：A Jointly-Scaled Multilingual Language-Image Model

作者：Xi Chen 等（Google）

链接：arXiv:2209.06794

核心贡献：图像-文本联合缩放的多语言模型，540B 参数，覆盖 100+ 语言

2023年：指令微调与大模型融合爆发

LLaVA（NeurIPS 2023 Oral）

论文信息

全称：Visual Instruction Tuning

作者：Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee（Wisconsin + Microsoft）

链接：arXiv:2304.08485

核心贡献：

首次用纯文字 GPT-4 生成多模态指令跟随数据（LLaVA-Instruct-150K）
CLIP ViT-L + LLaMA/Vicuna，通过线性投影层连接，两阶段训练
开创”视觉指令微调”范式，成为后续几乎所有开源 VLM 的直接基线

影响力

NeurIPS 2023 Oral，开源 VLM 最重要的基础工作之一

InstructBLIP（NeurIPS 2023）

论文信息

全称：Towards General-Purpose Vision-Language Models with Instruction Tuning

作者：Wenliang Dai 等（Salesforce）

链接：arXiv:2305.06500

核心贡献：

在 BLIP-2 基础上进行指令微调，引入 Instruction-aware Q-Former
26 个下游数据集统一指令格式，泛化能力强

BLIP-2（ICML 2023）

论文信息

全称：Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

作者：Junnan Li 等（Salesforce）

链接：arXiv:2301.12597

核心贡献：

Q-Former 作为视觉-语言桥接模块：32 个可学习查询 Token 从冻结视觉编码器中提取信息
冻结图像编码器 + 冻结 LLM（OPT/FlanT5），只训练 Q-Former
参数高效，开创”轻量级视觉-语言桥”范式

MiniGPT-4（ICLR 2024，2023年4月发布）

论文信息

全称：Enhancing Vision-Language Understanding with Advanced Large Language Models

作者：Deyao Zhu 等（KAUST）

链接：arXiv:2304.10592

核心贡献：

用一层线性层连接 BLIP-2 的视觉编码器与 Vicuna LLM
两阶段对话微调，展示 GPT-4 级多模态对话能力
极简架构引发广泛关注

Kosmos-1（arXiv 2023，Microsoft）

论文信息

全称：Language Is Not All You Need: Aligning Perception with Language Models

作者：Shaohan Huang 等（Microsoft）

链接：arXiv:2302.14045

核心贡献：大型多模态语言模型，处理图文交错输入，支持上下文学习（ICL）

Kosmos-2（ICLR 2024，2023年6月，Microsoft）

论文信息

全称：Grounding Multimodal Large Language Models to the World

作者：Zhiliang Peng 等（Microsoft）

链接：arXiv:2306.14824

核心贡献：扩展 Kosmos-1，增加 Grounding（目标定位）能力，图文绑定

Qwen-VL（arXiv 2023，Alibaba）

论文信息

全称：Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

作者：Jinze Bai 等（Alibaba）

链接：arXiv:2308.12966

核心贡献：

Qwen LLM + ViT 视觉编码器 + Position-aware Vision-Language Adapter
支持细粒度理解、多语言、多图输入，中英文双语 OCR 能力突出
三阶段训练：预训练 → 多任务预训练 → 指令微调

CogVLM（arXiv 2023，Zhipu AI + 清华）

论文信息

全称：CogVLM: Visual Expert for Pretrained Language Models

作者：Weihan Wang 等（Zhipu AI + 清华）

链接：arXiv:2311.03079

核心贡献：

在 LLM 每一层添加 Visual Expert（独立 QKV + FFN），深度融合视觉特征
不冻结 LLM 参数，实现真正的深度视觉-语言融合
支持视觉 Grounding（CogVLM-Grounding）

LLaVA-1.5 / 改进的 LLaVA（arXiv 2023，Wisconsin）

论文信息

全称：Improved Baselines with Visual Instruction Tuning

作者：Haotian Liu 等（Wisconsin + Microsoft）

链接：arXiv:2310.03744

核心贡献：

将线性投影层替换为两层 MLP，使用 CLIP-ViT-L-336px 高分辨率版本
混合 VQA 学术数据，仅用少量数据刷新众多基准
证明”简单改进+高质量数据”的路线比复杂架构更高效

mPLUG-Owl（arXiv 2023，Alibaba DAMO）

论文信息

全称：mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

作者：Qinghao Ye 等（Alibaba DAMO）

链接：arXiv:2304.14178

核心贡献：引入 H-Former 对视觉特征进行层次化压缩后注入 LLM，有效降低视觉 Token 数量

InternLM-XComposer（arXiv 2023，上海 AI Lab）

论文信息

全称：InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

作者：Pan Zhang 等（上海 AI Lab）

链接：arXiv:2309.15112

核心贡献：多模态对话 + 长文图文创作，结合 InternLM 基础模型

GPT-4V（2023年9月，OpenAI）

产品信息

发布时间：2023 年 9 月集成进 ChatGPT

官方页面：OpenAI GPT-4V

系统卡片：System Card

核心能力：

支持高分辨率图像输入，复杂推理、OCR、图表理解能力突出
多图上下文处理，定义了商业 VLM 能力上界
架构未公开，推测为 GPT-4 加图像 Tokenizer

Gemini 1.0（2023年12月，Google DeepMind）

产品信息

版本：Ultra、Pro、Nano

技术报告：Gemini Technical Report

核心贡献：

从零开始进行多模态原生训练（Text + Image + Video + Audio + Code）
非”拼接”架构，真正意义上的多模态预训练基础模型
Gemini Ultra 在 MMMU 等多项基准超越 GPT-4V

2024年：高分辨率、视频理解与开源追赶

InternVL（CVPR 2024 Oral）

论文信息

全称：Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

作者：Zhe Chen 等（上海 AI Lab + OpenGVLab）

链接：arXiv:2312.14238

核心贡献：

InternViT-6B：迄今最大的视觉基础模型之一（60 亿参数）
渐进式对齐策略：先对齐视觉编码器，再构建 VLM
跨模态检索、多模态对话、视觉 Grounding 全面领先开源模型

荣誉

CVPR 2024 Oral，开源视觉语言基础模型的重要里程碑

InternVL-1.5（arXiv 2024，上海 AI Lab）

论文信息

全称：How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

作者：Zhe Chen 等（上海 AI Lab）

链接：arXiv:2404.16821

核心贡献：

动态高分辨率（DHR）策略：任意长宽比图像切块 + 缩略图，保留全局信息
448×448 像素 Tile，支持 4K+ 分辨率图像输入
InternVL2 系列（1B~108B）成为最广泛使用的开源 MLLM 之一

LLaVA-NeXT / LLaVA-1.6（arXiv 2024，Wisconsin）

论文信息

全称：LLaVA-NeXT: Improved reasoning, OCR, and world knowledge

作者：Haotian Liu 等（Wisconsin + ByteDance）

链接：arXiv:2403.06977

核心贡献：

动态高分辨率输入（384→672×672 等多种分辨率）
更强的推理、OCR、世界知识能力
支持 Mistral、Mixtral、LLaMA-3 等多种 LLM 后端

LLaVA-OneVision（arXiv 2024，Wisconsin + ByteDance）

论文信息

全称：LLaVA-OneVision: Easy Visual Task Transfer

作者：Bo Li 等（Wisconsin + ByteDance）

链接：arXiv:2408.03326

核心贡献：统一图像、多图、视频三种场景的视觉理解，一个模型全覆盖

Qwen2-VL（arXiv 2024，Alibaba）

论文信息

全称：Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

作者：Peng Wang 等（Alibaba）

链接：arXiv:2409.12191

核心贡献：

朴素动态分辨率（Naive Dynamic Resolution）：不同分辨率图像产生不同数量 Token
M-RoPE（多模态旋转位置编码）：统一图文视频的位置信息
缩放规律研究：2B/8B/72B，Qwen2-VL-72B 性能与 GPT-4o、Claude 3.5 Sonnet 媲美

DeepSeek-VL（arXiv 2024，DeepSeek）

论文信息

全称：DeepSeek-VL: Towards Real-World Vision-Language Understanding

作者：Haoyu Lu 等（DeepSeek）

发布时间：2024 年 3 月

链接：arXiv:2403.05525

核心贡献：

混合视觉编码器：SigLIP（语义）+ SAM-B（细节/高频），支持 1024×1024 分辨率
语言优先的训练策略，确保多模态训练不损害语言能力
参数规模：1.3B 和 7B

DeepSeek-VL2（arXiv 2024，DeepSeek）

论文信息

全称：DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

作者：Zhiyu Wu 等（DeepSeek）

发布时间：2024 年 12 月

链接：arXiv:2412.10302

核心贡献：

语言侧升级为 DeepSeekMoE + Multi-head Latent Attention，KV Cache 压缩
动态 Tiling 视觉编码，三种尺寸（Tiny/Small/Full）激活参数 1.0B~4.5B
OCRBench 得分 834，超越 GPT-4o（736）

MiniCPM-V 系列（arXiv 2024，OpenBMB + 清华）

论文信息

全称：MiniCPM-V: A GPT-4V Level MLLM on Your Phone

作者：Yuan Yao 等（OpenBMB + 清华）

链接：arXiv:2408.01800

核心贡献：

面向端侧设备的高效 VLM，8B 模型在 11 个公开基准超越 GPT-4V/Gemini Pro/Claude 3
任意长宽比高分辨率，低幻觉率，30+ 语言支持
可在手机上本地运行

Phi-3-Vision / Phi-3.5-Vision（arXiv 2024，Microsoft）

论文信息

全称：Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

作者：Marah Abdin 等（Microsoft）

链接：arXiv:2404.14219

核心贡献：

小型高效 VLM（4.2B 参数），专注边缘设备部署
混合高分辨率处理，支持多图输入
训练数据质量驱动而非规模驱动

Molmo & PixMo（arXiv 2024，Allen AI）

论文信息

全称：Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

作者：Matt Deitke 等（Allen AI）

链接：arXiv:2409.17146

核心贡献：

完全开放权重 + 训练数据（PixMo 数据集）
点击与描述（Pointing）能力突出
在多个基准与商业模型持平

Pixtral 12B（arXiv 2024，Mistral AI）

论文信息

全称：Pixtral 12B

作者：Pravesh Agrawal 等（Mistral AI）

链接：arXiv:2410.07073

核心贡献：Mistral 的多模态模型，轻量高效，原生支持任意分辨率图像

NVLM（arXiv 2024，NVIDIA）

论文信息

全称：NVLM: Open Frontier-Class Multimodal LLMs

作者：Wenliang Dai 等（NVIDIA）

链接：arXiv:2409.11402

核心贡献：

提出三种架构：NVLM-D（Decoder-only，LLaVA 风格）、NVLM-X（Cross-Attention，Flamingo 风格）、NVLM-H（混合）
采用 DHR 高分辨率技术，OCR 和文档理解能力突出

Janus（arXiv 2024，DeepSeek）

论文信息

全称：Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

作者：Chengyue Wu 等（DeepSeek）

链接：arXiv:2410.13848

核心贡献：

统一多模态理解与生成（文生图 + 图理解）在单一自回归框架
解耦视觉编码：理解和生成路径独立编码，避免任务干扰

Claude 3 系列（2024年3月，Anthropic）

产品信息

版本：Haiku、Sonnet、Opus

模型卡片：Anthropic Model Card

核心能力：视觉理解能力大幅提升，图表分析、文档解读超越前代

Claude 3.5 系列（2024年6月起，Anthropic）

产品信息

版本：Claude 3.5 Sonnet、Claude 3.5 Haiku

发布博客：Anthropic Blog

核心能力：视觉推理达到新高度，多模态 Agent 能力（Computer Use）首次商用发布

GPT-4o（2024年5月，OpenAI）

产品信息

官方介绍：OpenAI GPT-4o

技术报告：GPT-4o System Card

核心能力：

统一文本、图像、语音的原生多模态架构
图像理解、视频帧分析、OCR 全面升级
速度和效率大幅提升，Real-time 语音能力

Gemini 1.5 系列（2024年2月，Google DeepMind）

产品信息

版本：Gemini 1.5 Pro、Gemini 1.5 Flash

技术报告：arXiv:2403.05530

核心贡献：

超长上下文（1M token）支持超长视频分析
MoE 架构，极致效率
视频理解：可分析 1 小时以上的视频

Llama 3.2 Vision（2024年9月，Meta）

产品信息

版本：11B、90B

官方博客：Meta Llama 3.2

核心贡献：Meta 首个开源多模态模型，视觉理解能力接近商业水平

2025年初至 2026.03：推理能力与多模态 Agent

Qwen2.5-VL（2025年1月，Alibaba）

论文信息

全称：Qwen2.5-VL Technical Report

作者：Shuai Bai 等（Alibaba）

链接：arXiv:2502.13923

核心贡献：

动态分辨率处理的进一步强化，支持超大分辨率
视频理解、GUI 操作、文档分析多方位提升
规模从 3B 到 72B，72B 版本在多项基准与 GPT-4o 竞争
QvQ-72B-Preview：实验性视觉推理模型，具备长链思维（CoT）推理能力

InternVL3（arXiv 2025，上海 AI Lab）

论文信息

全称：InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

作者：Jinguo Zhu 等（上海 AI Lab）

链接：arXiv:2504.10479

核心贡献：

原生多模态预训练（NMP）：不再冻结视觉编码器，联合预训练
Variable Visual Position Encoding（V2PE）：更精细的视觉位置编码
Mixed Preference Optimization（MPO）：多模态偏好优化
InternVL3-78B 在 MMMU 基准达 72.2，开源模型最高分

Kimi-VL（2025年初，Moonshot AI）

论文信息

全称：Kimi-VL Technical Report

作者：Kimi Team（Moonshot AI）

链接：arXiv:2504.07491

核心贡献：

MoonViT + MoE 解码器（16B 总参数，仅 2.8B 激活）
Kimi-VL-A3B-Thinking：长链思维多模态推理模型
支持超长视频、PDF、截图等多种输入形式

Janus-Pro（2025年1月，DeepSeek）

论文信息

全称：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

作者：Xiaokang Chen 等（DeepSeek）

链接：arXiv:2501.17811

核心贡献：

统一多模态理解与生成（文生图 + 图理解）在单一自回归框架
解耦视觉编码：理解和生成路径独立编码，避免任务干扰
文生图性能超越 DALL-E 3 和 Stable Diffusion

Gemini 2.0 / 2.5（2025年2月起，Google DeepMind）

产品信息

版本：Gemini 2.0 Flash、Gemini 2.5 Pro（带 Deep Think 模式）

官方介绍：Google DeepMind Gemini 2.5

核心贡献：

Thinking Architecture：深度推理前先逐步分析
100 万+ token 上下文窗口（2.5 Pro），即将支持 200 万 token
在 Humanity’s Last Exam、AIME 2025、GPQA 等多推理基准持续领跑
支持文本/图像/视频/音频全模态输入

Llama 4（2025年4月，Meta）

产品信息

版本：Scout（17B A3B）、Maverick（17B A128B）、Behemoth（2T 未发布）

官方博客：Meta Llama 4

核心贡献：

原生多模态（图文原生联合训练），MoE 架构
Scout 上下文窗口 10M token
开源多模态能力达到新高度

Phi-4 Multimodal（2025年，Microsoft）

论文信息

链接：arXiv:2503.01743

核心贡献：极小尺寸（约 5B），强调边缘部署和隐私保护，支持文本+图像+语音

UI-TARS（2025年，ByteDance）

论文信息

全称：UI-TARS: Pioneering Automated GUI Interaction with Native Agents

链接：arXiv:2501.12326

核心贡献：专注 GUI Agent，支持浏览器/电脑/手机操作，多模态推理驱动 UI 操控

大厂模型系列汇总

OpenAI

模型	时间	关键特性	链接
GPT-4V	2023.09	首个广泛公开的 GPT 视觉版本；支持图像输入分析	System Card
GPT-4o	2024.05	原生多模态（文/图/音）统一架构，实时交互	官方介绍
GPT-4o mini	2024.07	轻量高效版；低成本，同时保留文本+视觉能力	OpenAI
OpenAI o1（支持图像输入）	2024.09	推理模型；API 模型页明确支持 Image input only	发布页
GPT-4.5	2025.02	更强通用知识、创意与协作感；研究预览版	OpenAI
o3 / o4-mini	2025.04	更强多模态推理；可结合工具、视觉与图像生成	OpenAI
gpt-oss	2025.08	开放权重推理模型（20B / 120B）；Apache 2.0	OpenAI
Sora 2	2025.09	旗舰视频+音频生成；更强物理一致性、同步音画、可控性	OpenAI
GPT-5.2 Instant / Thinking / Pro	2025.12	长上下文、文档/表格/代码/图像理解与 agent 工作流增强	OpenAI
GPT-5.4 Thinking / Pro	2026.03	最新 GPT 主力；更强 reasoning、视觉/文档理解、原生 computer use、1M context（API）	OpenAI

Google DeepMind |

模型	时间	关键特性	链接
Flamingo	2022	跨模态少样本；Perceiver Resampler 桥接视觉与语言	arXiv:2204.14198
PaLI / PaLI-X	2022 / 2023	联合缩放多语言视觉语言模型	arXiv:2209.06794
Gemini 1.0	2023.12	原生多模态预训练；统一文本、图像、音频、视频	arXiv:2312.11805
Gemini 1.5 Pro / Flash	2024.02	1M token 上下文；长视频、长文档理解	arXiv:2403.05530
Gemini 2.0 Flash	2025.04（模型卡更新）	低延迟多模态模型；Gemini 2 代核心产品线之一	Model Cards
Gemini 2.5 Pro	2025.06（模型卡更新）	强推理、多模态、长上下文；配合 Deep Think	Gemini Pro
Gemini 3 Flash	2025.12	Gemini 3 系列快速版；更快 reasoning 与多模态理解	Google Blog
Gemini 3 Pro	2025.11	Gemini 3 高性能主力版；更强 reasoning、agentic 能力	Gemini Pro
Gemini 3.1 Pro	2026.02	面向复杂任务与 agentic workflows 的最新升级版	Google Blog
Veo 3.1	2026.01	视频生成更新；更强一致性、竖屏、1080p / 4K	Google Blog
Gemini 3 Pro Image（Nano Banana Pro）	2025.11	基于 Gemini 3 Pro 的图像生成/编辑；文本渲染与控制性更强	Google Blog

Anthropic

模型	时间	关键特性	链接
Claude 3 Haiku / Sonnet / Opus	2024.03	视觉理解、图表/文档分析正式进入 Claude 3 系列	Anthropic
Claude 3.5 Sonnet v1	2024.06	视觉推理显著增强；更强编码与文档理解	Anthropic
Claude 3.5 Sonnet v2	2024.10	与新 Computer Use 同步推进；更强多模态 agent 能力	Anthropic
Claude 3.5 Haiku	2024.10	更轻量、更快；保留视觉输入能力	Anthropic
Claude 3.7 Sonnet	2025.02	混合推理；extended thinking + 视觉输入	Anthropic API Release Notes
Claude Sonnet 4.5	2025.09	4.x 主力；coding / agents / computer use 大幅增强	Anthropic
Claude Haiku 4.5	2025.10	轻量快速；仍属于 Claude 4.5 多模态家族	System Cards
Claude Opus 4.5	2025.11	高端混合推理模型；更强 coding 与 agents	Transparency Hub
Claude Sonnet 4.6	2026.02	最新 Sonnet；1M context beta，computer use / coding / planning 全面增强	Anthropic
Claude Opus 4.6	2026.02	当前最强 Claude；混合推理、1M context、企业级 agent 能力	Anthropic

模型	时间	关键特性	链接
Segment Anything (SAM)	2023.04	视觉基础模型；零样本分割	arXiv:2304.02643
ImageBind	2023.05	六模态统一嵌入空间	arXiv:2305.05665
Imagine with Meta AI	2023.12	Meta AI 图像生成功能；独立 web 体验与水印机制推进	Meta
Llama 3.2 Vision 11B / 90B	2024.09	首个 Meta 原生多模态开放权重 VLM	Meta AI
Llama 4 Scout / Maverick	2025.04	原生多模态 MoE；超长上下文	Meta AI

Microsoft

模型	时间	关键特性	链接
Florence	2021	大一统视觉基础模型	arXiv:2111.11432
BEiT-3	2022	图像作为外语；统一 Masked Modeling	arXiv:2208.10442
Kosmos-1	2023.02	大型多模态语言模型；图文交错 ICL	arXiv:2302.14045
Kosmos-2	2023.06	增加 Grounding 能力	arXiv:2306.14824
Phi-3-Vision	2024.04	4.2B 高效 VLM；边缘部署友好	arXiv:2404.14219
Florence-2	2024	统一视觉理解与定位基础模型	arXiv:2311.06242
Phi-4 Multimodal	2025.03	文/图/音统一；小参数高能力	arXiv:2503.01743

Alibaba（阿里）

模型	时间	关键特性	链接
OFA	2022	Seq2Seq 统一多任务框架	arXiv:2202.03052
Qwen-VL	2023.08	双语 OCR、Grounding、多图输入	arXiv:2308.12966
Qwen2-VL 2B / 8B / 72B	2024.09	动态分辨率、M-RoPE；强化图像/视频理解	arXiv:2409.12191
Qwen2.5-VL 3B / 7B / 72B	2025.02	视频理解、GUI、文档理解全面增强	arXiv:2502.13923
Qwen2.5-Omni	2025.03	端到端 omni 模型；统一文/图/音/视频	Qwen
Qwen-Image	2025.08	20B MMDiT 图像基础模型；原生文本渲染、精细编辑	Qwen
Qwen3-VL	2025.09	新一代 VLM；更强布局/时空建模与视频理解	Transformers Docs
Qwen3-VL-Thinking	2025.09	Qwen3-VL 的 Thinking 变体	Transformers Docs
Qwen3-Max	2026.01（当前稳定版）	长上下文；thinking / non-thinking 双模式	Alibaba Cloud
Qwen3-Omni-Flash（API）	2025.12	多模态 omni API 模型；支持 realtime 场景	Alibaba Cloud

XAI

模型	时间	关键特性	链接
Grok 3	2025.02	reasoning agents beta；含 Grok 3 (Think) / Grok 3 mini (Think)	xAI
Grok 4.1	2025.11	更强可用性、风格一致性、帮助性与推理能力	xAI
Grok 4.1 Thinking（更准确说法：4.1 的 reasoning 模式）	2025.11	推理模式；更适合复杂任务，但更像模式而非独立基础模型	xAI
Aurora	2024.12	xAI 图像生成器；最早可稳妥确认的官方提及在 2024-12-12	xAI

DeepSeek（深度求索）

模型	时间	关键特性	链接
DeepSeek-VL 1.3B / 7B	2024.03	混合视觉编码；语言优先训练	arXiv:2403.05525
DeepSeek-VL2	2024.12	MoE 架构；动态 Tiling；OCR / 文档能力增强	arXiv:2412.10302
Janus	2024.10	统一理解与生成的自回归框架	arXiv:2410.13848
Janus-Pro	2025.01	文生图能力增强；解耦视觉编码	arXiv:2501.17811
DeepSeek-V3.2（non-thinking / thinking）	2025.12	reasoning-first；tool-use 中集成 thinking；App / Web / API / 开源同步	DeepSeek API Docs
DeepSeek-V3.2-Speciale	2025.12	更强极限推理；API-only 临时开放；无 tool calls	DeepSeek API Docs

上海 AI Lab / OpenGVLab（中国）

模型	时间	关键特性	链接
InternLM-XComposer	2023	长文图文创作，互动写作	arXiv:2309.15112
InternVL 1.0	2023.12	InternViT-6B，通用视觉基础	arXiv:2312.14238
InternVL 1.5	2024.04	DHR 高分辨率，全面追平商业模型	arXiv:2404.16821
InternVL3 8B~78B	2025.04	原生多模态预训练，开源 MMMU SOTA	arXiv:2504.10479

其他重要机构

机构	模型	时间	链接
Salesforce	BLIP	2022	arXiv:2201.12086
Salesforce	BLIP-2	2023	arXiv:2301.12597
Salesforce	InstructBLIP	2023	arXiv:2305.06500
Allen AI	Molmo & PixMo	2024.09	arXiv:2409.17146
Mistral AI	Pixtral 12B	2024.09	arXiv:2410.07073
ByteDance	UI-TARS	2025	arXiv:2501.12326
Moonshot AI	Kimi-VL	2025.01	arXiv:2504.07491
OpenBMB/清华	MiniCPM-V	2024	arXiv:2408.01800

核心评测基准

基准	发布时间	评测内容	参考链接
VQAv2	2019	视觉问答（通用）	arXiv:1612.00837
TextVQA	2019	OCR+问答	arXiv:1904.08920
GQA	2019	组合推理 VQA	arXiv:1902.09506
NoCaps	2019	开放域图像描述	arXiv:1812.08658
MMBench	2023	综合多维度多模态评测	arXiv:2307.06281
MMMU	2023	大学级多学科多图题	arXiv:2311.16502
MathVista	2023	数学视觉推理	arXiv:2310.02255
MMStar	2024	去污染多模态评测	arXiv:2403.20330
OCRBench	2023	OCR 综合评测（1000分）	arXiv:2305.07895
DocVQA	2020	文档视觉问答	arXiv:2007.00398
ChartQA	2022	图表问答	arXiv:2203.10244
Video-MME	2024	长视频多模态理解	arXiv:2405.21075
HallusionBench	2024	幻觉诊断	arXiv:2310.14566
POPE	2023	目标幻觉评测	arXiv:2305.10355

技术演进脉络

视觉编码器演进

CNN Region Features（2019以前）
    ↓
CLIP ViT（2021）—— 对比预训练的通用视觉编码器
    ↓
EVA / InternViT-6B（2022~2023）—— 更大更强的视觉基础模型
    ↓
SigLIP（2023，Google）—— 更高效的对比预训练
    ↓
动态高分辨率（DHR / Any-Resolution）—— InternVL1.5、LLaVA-NeXT（2024）
    ↓
原生多模态联合预训练 —— Gemini 2.0、InternVL3（2024~2025）

视觉-语言桥接架构演进

跨模态注意力融合（OSCAR、ViLBERT，2020）
    ↓
对比双塔（CLIP / ALIGN，2021）
    ↓
统一 Transformer（ViLT，2021）
    ↓
轻量桥接模块 Q-Former（BLIP-2，2023）
    ↓
MLP 线性投影（LLaVA，2023）——简单而有效
    ↓
Perceiver Resampler（Flamingo，2022）/ Visual Expert（CogVLM，2023）
    ↓
原生统一端到端（Gemini、GPT-4o，2024）

训练范式演进

对比预训练（2021）
    ↓
图文预训练 + 任务微调（2022）
    ↓
指令微调（Instruction Tuning）（2023）
    ↓
RLHF / DPO 对齐（2023~2024）
    ↓
强化学习推理（GRPO / MPO）（2024~2025）
    ↓
测试时扩展（Test-Time Scaling / CoT）（2025）

能力边界扩展

图像描述 / 图文检索（2021~2022）
    ↓
视觉问答 / 多图对话（2022~2023）
    ↓
OCR / 文档理解 / 图表分析（2023~2024）
    ↓
视频理解 / 长视频分析（2024）
    ↓
GUI Agent / Computer Use（2024~2025）
    ↓
多模态数学推理 / 科学推理（2025）
    ↓
端侧高效部署（2024~2025）

总结

五年核心趋势

规模定律全面验证：从 CLIP 的 4 亿对到 Gemini 的万亿级数据，规模依然是性能的核心驱动力，但”数据质量 × 架构效率 × 算法创新”的重要性日益凸显。
LLM 融合取代独立 VLM：2023 年后几乎所有主流 VLM 都以强大 LLM（LLaMA、Qwen、Vicuna 等）为语言核心，VLM 研究重心从”如何预训练图文模型”转向”如何高效对接视觉与语言”。
开源追赶商业闭源：2023 年 GPT-4V 发布时，开源模型与之差距巨大；至 2025 年初，Qwen2.5-VL-72B、InternVL3-78B 等开源模型已在多数基准与 GPT-4o 持平甚至超越。
高分辨率感知成标配：从固定 224×224 到任意分辨率动态切块（DHR），高分辨率输入是 2024 年最重要的技术进步之一，直接决定 OCR、文档、细节识别能力。
推理能力引入视觉域：2024 年末至 2025 年，以 QwQ-72B、Kimi-VL-Thinking 为代表，将 LLM 推理链（CoT）、强化学习（GRPO）引入视觉推理，多模态数学和科学问题能力大幅提升。
多模态 Agent 快速崛起：Computer Use（Anthropic）、GUI-Agent（ByteDance UI-TARS）等让 VLM 从”看图说话”进化为”看图行动”，VLA（视觉语言动作模型）成为机器人/自动化的新前沿。
端侧与高效部署需求爆发：MiniCPM-V、Phi-4 Multimodal、DeepSeek-VL2-Tiny 等面向边缘设备的高效 VLM 快速增长，推动 VLM 从云端向本地迁移。

未来研究方向（截至 2026.03 展望）

多模态原生预训练：进一步突破图像+视频+音频+3D 数据的联合原生训练
视觉推理能力增强：Test-Time Compute 扩展、思维链视觉推理
长视频理解：千帧以上视频的高效感知与推理
幻觉与可信度：大幅降低视觉幻觉，提升事实一致性
多模态智能体：真实世界中的计算机操控、机器人操控等
多语言与文化多样性：中英文外更多语种的多模态理解
超高效轻量模型：1B 以下参数仍具备强大视觉理解能力

Starry's Blog

Explorer

VLM论文&模型近五年调研报告

视觉语言模型（VLM）五年调研报告（2021 — 2026.03）

目录

2021年：CLIP 引爆对比预训练时代

CLIP（ICML 2021）

ALIGN（ICML 2021）

ViLT（ICML 2021）

ALBEF（NeurIPS 2021）

MERLOT（NeurIPS 2021）

Florence（arXiv 2021，Microsoft）

2022年：多模态架构百花齐放

Flamingo（NeurIPS 2022）

BLIP（ICML 2022）

SimVLM（ICLR 2022）

CoCa（arXiv 2022，Google）

FLAVA（CVPR 2022）

OFA（ICML 2022）

BEiT-3（arXiv 2022，Microsoft）

X-VLM（ICML 2022）

LiT（CVPR 2022）

PaLI（ICLR 2023，Google）

2023年：指令微调与大模型融合爆发

LLaVA（NeurIPS 2023 Oral）

InstructBLIP（NeurIPS 2023）

BLIP-2（ICML 2023）

MiniGPT-4（ICLR 2024，2023年4月发布）

Kosmos-1（arXiv 2023，Microsoft）

Kosmos-2（ICLR 2024，2023年6月，Microsoft）

Qwen-VL（arXiv 2023，Alibaba）

CogVLM（arXiv 2023，Zhipu AI + 清华）

LLaVA-1.5 / 改进的 LLaVA（arXiv 2023，Wisconsin）

mPLUG-Owl（arXiv 2023，Alibaba DAMO）

InternLM-XComposer（arXiv 2023，上海 AI Lab）

GPT-4V（2023年9月，OpenAI）

Gemini 1.0（2023年12月，Google DeepMind）

2024年：高分辨率、视频理解与开源追赶

InternVL（CVPR 2024 Oral）

InternVL-1.5（arXiv 2024，上海 AI Lab）

LLaVA-NeXT / LLaVA-1.6（arXiv 2024，Wisconsin）

LLaVA-OneVision（arXiv 2024，Wisconsin + ByteDance）

Qwen2-VL（arXiv 2024，Alibaba）

DeepSeek-VL（arXiv 2024，DeepSeek）

DeepSeek-VL2（arXiv 2024，DeepSeek）

MiniCPM-V 系列（arXiv 2024，OpenBMB + 清华）

Phi-3-Vision / Phi-3.5-Vision（arXiv 2024，Microsoft）

Molmo & PixMo（arXiv 2024，Allen AI）

Pixtral 12B（arXiv 2024，Mistral AI）

NVLM（arXiv 2024，NVIDIA）

Janus（arXiv 2024，DeepSeek）

Claude 3 系列（2024年3月，Anthropic）

Claude 3.5 系列（2024年6月起，Anthropic）

GPT-4o（2024年5月，OpenAI）

Gemini 1.5 系列（2024年2月，Google DeepMind）

Llama 3.2 Vision（2024年9月，Meta）

2025年初至 2026.03：推理能力与多模态 Agent

Qwen2.5-VL（2025年1月，Alibaba）

InternVL3（arXiv 2025，上海 AI Lab）

Kimi-VL（2025年初，Moonshot AI）

Janus-Pro（2025年1月，DeepSeek）

Gemini 2.0 / 2.5（2025年2月起，Google DeepMind）

Llama 4（2025年4月，Meta）

Phi-4 Multimodal（2025年，Microsoft）

UI-TARS（2025年，ByteDance）

大厂模型系列汇总

OpenAI

Google DeepMind |

Anthropic

Meta

Microsoft

Alibaba（阿里）

XAI

DeepSeek（深度求索）

上海 AI Lab / OpenGVLab（中国）

其他重要机构

核心评测基准

技术演进脉络

视觉编码器演进

视觉-语言桥接架构演进