视觉语言模型(VLM)五年调研报告(2021 — 2026.03)
摘要:本报告系统梳理了 2021 年至 2026 年 3 月间,视觉语言模型(Vision-Language Model, VLM)领域的顶会论文与大厂模型系列,覆盖 CVPR、NeurIPS、ICML、ICLR、ECCV、ACL 等顶级会议,以及 OpenAI、Google DeepMind、Anthropic、Meta、Alibaba、DeepSeek 等头部机构的产品线。
目录
- 2021年:CLIP 引爆对比预训练时代
- 2022年:多模态架构百花齐放
- 2023年:指令微调与大模型融合爆发
- 2024年:高分辨率、视频理解与开源追赶
- 2025年初至 2026.03:推理能力与多模态 Agent
- 大厂模型系列汇总
- 核心评测基准
- 技术演进脉络
- 总结
2021年:CLIP 引爆对比预训练时代
CLIP(ICML 2021)
论文信息
- 全称:Learning Transferable Visual Models From Natural Language Supervision
- 作者:Alec Radford, Jong Wook Kim 等(OpenAI)
- 链接:arXiv:2103.00020
核心贡献:
- 提出用 4 亿图文对进行对比学习预训练
- 训练两个编码器(图像 ViT / 文本 Transformer)对齐表征
- 开创”自然语言监督”零样本迁移范式,在 30 个视觉任务上超越监督基线
影响
几乎所有后续 VLM 都以 CLIP 视觉编码器为骨干,是该领域最具影响力的工作之一
ALIGN(ICML 2021)
论文信息
- 全称:Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
- 作者:Chao Jia, Yinfei Yang 等(Google)
- 链接:arXiv:2102.05918
核心贡献:
- 使用 18 亿嘈杂图文对训练,超越 CLIP 规模
- 证明数据量能弥补噪声,强调规模定律在对比预训练中的有效性
- EfficientNet + BERT 双塔架构
ViLT(ICML 2021)
论文信息
- 全称:Vision-and-Language Transformer Without Convolution or Region Supervision
- 作者:Wonjae Kim, Bokyung Son(Kakao)
- 链接:arXiv:2102.03334
核心贡献:
- 抛弃目标检测区域特征,视觉处理与文本处理统一在 Transformer 中
- 速度比以往 VLP 模型快数十倍,同时保持有竞争力的性能
ALBEF(NeurIPS 2021)
论文信息
- 全称:Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation
- 作者:Junnan Li, Ramprasaath Selvaraju 等(Salesforce)
- 链接:arXiv:2107.07651
核心贡献:
- 在融合前先通过 ITC(图文对比)对齐单模态特征
- 引入动量蒸馏(MoD)处理网络噪声数据
- 奠定”理解+生成”统一框架的基础
MERLOT(NeurIPS 2021)
论文信息
- 全称:Multimodal Neural Script Knowledge Models
- 作者:Rowan Zellers 等(University of Washington + AI2)
- 链接:arXiv:2106.02636
核心贡献:从视频中学习时序多模态常识知识,支持视觉推理
Florence(arXiv 2021,Microsoft)
论文信息
- 全称:Florence: A New Foundation Model for Computer Vision
- 作者:Yuan等(Microsoft)
- 链接:arXiv:2111.11432
核心贡献:提出大一统视觉基础模型,支持 image-text、image-label、image-box 等多任务,CoSwin 视觉编码器 + BERT 文本编码器
2022年:多模态架构百花齐放
Flamingo(NeurIPS 2022)
论文信息
- 全称:Flamingo: A Visual Language Model for Few-Shot Learning
- 作者:Jean-Baptiste Alayrac, Jeff Donahue 等(DeepMind)
- 链接:arXiv:2204.14198
核心贡献:
- 用 Perceiver Resampler 将视觉 Token 压缩后通过 Gated Cross-Attention 注入预训练 LLM
- 在不微调 LLM 的前提下实现图文交错的少样本多模态理解
- 首次展示多图交错输入能力,是现代 LVLM 架构的重要原型
BLIP(ICML 2022)
论文信息
- 全称:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 作者:Junnan Li, Dongxu Li 等(Salesforce)
- 链接:arXiv:2201.12086
核心贡献:
- 提出多模态混合编解码器(MED):同时支持 ITC、ITM 和 LM 三个目标
- 提出 CapFilt:用 Captioner 生成合成标注、用 Filter 过滤噪声,循环提升数据质量
- 实现理解与生成的统一
SimVLM(ICLR 2022)
论文信息
- 全称:Simple Visual Language Model Pretraining with Weak Supervision
- 作者:Zirui Wang, Jianwei Bao 等(Google)
- 链接:arXiv:2108.10904
核心贡献:
- 仅用前缀语言模型目标(PrefixLM),以最少监督信号预训练
- 单一目标函数覆盖理解和生成,大规模弱监督下效果优异
CoCa(arXiv 2022,Google)
论文信息
- 全称:Contrastive Captioners Are Image-Text Foundation Models
- 作者:Jiahui Yu 等(Google)
- 链接:arXiv:2205.01917
核心贡献:
- 对比损失(ITC)+ 字幕生成损失(LM)双目标联合训练
- 单一模型同时支持编码型和生成型下游任务
FLAVA(CVPR 2022)
论文信息
- 全称:A Foundational Language And Vision Alignment Model
- 作者:Amanpreet Singh 等(Meta AI)
- 链接:arXiv:2112.04482
核心贡献:统一图像-文本-多模态三种模态的预训练目标,对比、MLM、MIM、多模态融合目标同时优化
OFA(ICML 2022)
论文信息
- 全称:Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
- 作者:Peng Wang 等(Alibaba DAMO)
- 链接:arXiv:2202.03052
核心贡献:
- 将所有视觉-语言任务统一成 Seq2Seq 格式(包括图像生成、目标检测、VQA)
- 任务统一架构,无需额外任务头
BEiT-3(arXiv 2022,Microsoft)
论文信息
- 全称:Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
- 作者:Wenhui Wang 等(Microsoft)
- 链接:arXiv:2208.10442
核心贡献:
- 将图像 Patch 视为一种”外语”,统一训练图像/文本/多模态三个模态的 Masked Modeling
- 一个模型多任务均达 SOTA
X-VLM(ICML 2022)
论文信息
- 全称:Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
- 作者:Yan Zeng 等(ByteDance)
- 链接:arXiv:2111.08276
核心贡献:多粒度视觉-语言对齐(区域级、图像级、对象级)
LiT(CVPR 2022)
论文信息
- 全称:LiT: Zero-Shot Transfer with Locked-Image Text Tuning
- 作者:Xiaohua Zhai 等(Google)
- 链接:arXiv:2111.07991
核心贡献:冻结图像编码器,只微调文本编码器,可接入任意预训练视觉模型
PaLI(ICLR 2023,Google)
论文信息
- 全称:A Jointly-Scaled Multilingual Language-Image Model
- 作者:Xi Chen 等(Google)
- 链接:arXiv:2209.06794
核心贡献:图像-文本联合缩放的多语言模型,540B 参数,覆盖 100+ 语言
2023年:指令微调与大模型融合爆发
LLaVA(NeurIPS 2023 Oral)
论文信息
- 全称:Visual Instruction Tuning
- 作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee(Wisconsin + Microsoft)
- 链接:arXiv:2304.08485
核心贡献:
- 首次用纯文字 GPT-4 生成多模态指令跟随数据(LLaVA-Instruct-150K)
- CLIP ViT-L + LLaMA/Vicuna,通过线性投影层连接,两阶段训练
- 开创”视觉指令微调”范式,成为后续几乎所有开源 VLM 的直接基线
影响力
NeurIPS 2023 Oral,开源 VLM 最重要的基础工作之一
InstructBLIP(NeurIPS 2023)
论文信息
- 全称:Towards General-Purpose Vision-Language Models with Instruction Tuning
- 作者:Wenliang Dai 等(Salesforce)
- 链接:arXiv:2305.06500
核心贡献:
- 在 BLIP-2 基础上进行指令微调,引入 Instruction-aware Q-Former
- 26 个下游数据集统一指令格式,泛化能力强
BLIP-2(ICML 2023)
论文信息
- 全称:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 作者:Junnan Li 等(Salesforce)
- 链接:arXiv:2301.12597
核心贡献:
- Q-Former 作为视觉-语言桥接模块:32 个可学习查询 Token 从冻结视觉编码器中提取信息
- 冻结图像编码器 + 冻结 LLM(OPT/FlanT5),只训练 Q-Former
- 参数高效,开创”轻量级视觉-语言桥”范式
MiniGPT-4(ICLR 2024,2023年4月发布)
论文信息
- 全称:Enhancing Vision-Language Understanding with Advanced Large Language Models
- 作者:Deyao Zhu 等(KAUST)
- 链接:arXiv:2304.10592
核心贡献:
- 用一层线性层连接 BLIP-2 的视觉编码器与 Vicuna LLM
- 两阶段对话微调,展示 GPT-4 级多模态对话能力
- 极简架构引发广泛关注
Kosmos-1(arXiv 2023,Microsoft)
论文信息
- 全称:Language Is Not All You Need: Aligning Perception with Language Models
- 作者:Shaohan Huang 等(Microsoft)
- 链接:arXiv:2302.14045
核心贡献:大型多模态语言模型,处理图文交错输入,支持上下文学习(ICL)
Kosmos-2(ICLR 2024,2023年6月,Microsoft)
论文信息
- 全称:Grounding Multimodal Large Language Models to the World
- 作者:Zhiliang Peng 等(Microsoft)
- 链接:arXiv:2306.14824
核心贡献:扩展 Kosmos-1,增加 Grounding(目标定位)能力,图文绑定
Qwen-VL(arXiv 2023,Alibaba)
论文信息
- 全称:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 作者:Jinze Bai 等(Alibaba)
- 链接:arXiv:2308.12966
核心贡献:
- Qwen LLM + ViT 视觉编码器 + Position-aware Vision-Language Adapter
- 支持细粒度理解、多语言、多图输入,中英文双语 OCR 能力突出
- 三阶段训练:预训练 → 多任务预训练 → 指令微调
CogVLM(arXiv 2023,Zhipu AI + 清华)
论文信息
- 全称:CogVLM: Visual Expert for Pretrained Language Models
- 作者:Weihan Wang 等(Zhipu AI + 清华)
- 链接:arXiv:2311.03079
核心贡献:
- 在 LLM 每一层添加 Visual Expert(独立 QKV + FFN),深度融合视觉特征
- 不冻结 LLM 参数,实现真正的深度视觉-语言融合
- 支持视觉 Grounding(CogVLM-Grounding)
LLaVA-1.5 / 改进的 LLaVA(arXiv 2023,Wisconsin)
论文信息
- 全称:Improved Baselines with Visual Instruction Tuning
- 作者:Haotian Liu 等(Wisconsin + Microsoft)
- 链接:arXiv:2310.03744
核心贡献:
- 将线性投影层替换为两层 MLP,使用 CLIP-ViT-L-336px 高分辨率版本
- 混合 VQA 学术数据,仅用少量数据刷新众多基准
- 证明”简单改进+高质量数据”的路线比复杂架构更高效
mPLUG-Owl(arXiv 2023,Alibaba DAMO)
论文信息
- 全称:mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
- 作者:Qinghao Ye 等(Alibaba DAMO)
- 链接:arXiv:2304.14178
核心贡献:引入 H-Former 对视觉特征进行层次化压缩后注入 LLM,有效降低视觉 Token 数量
InternLM-XComposer(arXiv 2023,上海 AI Lab)
论文信息
- 全称:InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition
- 作者:Pan Zhang 等(上海 AI Lab)
- 链接:arXiv:2309.15112
核心贡献:多模态对话 + 长文图文创作,结合 InternLM 基础模型
GPT-4V(2023年9月,OpenAI)
产品信息
- 发布时间:2023 年 9 月集成进 ChatGPT
- 官方页面:OpenAI GPT-4V
- 系统卡片:System Card
核心能力:
- 支持高分辨率图像输入,复杂推理、OCR、图表理解能力突出
- 多图上下文处理,定义了商业 VLM 能力上界
- 架构未公开,推测为 GPT-4 加图像 Tokenizer
Gemini 1.0(2023年12月,Google DeepMind)
产品信息
- 版本:Ultra、Pro、Nano
- 技术报告:Gemini Technical Report
核心贡献:
- 从零开始进行多模态原生训练(Text + Image + Video + Audio + Code)
- 非”拼接”架构,真正意义上的多模态预训练基础模型
- Gemini Ultra 在 MMMU 等多项基准超越 GPT-4V
2024年:高分辨率、视频理解与开源追赶
InternVL(CVPR 2024 Oral)
论文信息
- 全称:Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 作者:Zhe Chen 等(上海 AI Lab + OpenGVLab)
- 链接:arXiv:2312.14238
核心贡献:
- InternViT-6B:迄今最大的视觉基础模型之一(60 亿参数)
- 渐进式对齐策略:先对齐视觉编码器,再构建 VLM
- 跨模态检索、多模态对话、视觉 Grounding 全面领先开源模型
荣誉
CVPR 2024 Oral,开源视觉语言基础模型的重要里程碑
InternVL-1.5(arXiv 2024,上海 AI Lab)
论文信息
- 全称:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
- 作者:Zhe Chen 等(上海 AI Lab)
- 链接:arXiv:2404.16821
核心贡献:
- 动态高分辨率(DHR)策略:任意长宽比图像切块 + 缩略图,保留全局信息
- 448×448 像素 Tile,支持 4K+ 分辨率图像输入
- InternVL2 系列(1B~108B)成为最广泛使用的开源 MLLM 之一
LLaVA-NeXT / LLaVA-1.6(arXiv 2024,Wisconsin)
论文信息
- 全称:LLaVA-NeXT: Improved reasoning, OCR, and world knowledge
- 作者:Haotian Liu 等(Wisconsin + ByteDance)
- 链接:arXiv:2403.06977
核心贡献:
- 动态高分辨率输入(384→672×672 等多种分辨率)
- 更强的推理、OCR、世界知识能力
- 支持 Mistral、Mixtral、LLaMA-3 等多种 LLM 后端
LLaVA-OneVision(arXiv 2024,Wisconsin + ByteDance)
论文信息
- 全称:LLaVA-OneVision: Easy Visual Task Transfer
- 作者:Bo Li 等(Wisconsin + ByteDance)
- 链接:arXiv:2408.03326
核心贡献:统一图像、多图、视频三种场景的视觉理解,一个模型全覆盖
Qwen2-VL(arXiv 2024,Alibaba)
论文信息
- 全称:Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
- 作者:Peng Wang 等(Alibaba)
- 链接:arXiv:2409.12191
核心贡献:
- 朴素动态分辨率(Naive Dynamic Resolution):不同分辨率图像产生不同数量 Token
- M-RoPE(多模态旋转位置编码):统一图文视频的位置信息
- 缩放规律研究:2B/8B/72B,Qwen2-VL-72B 性能与 GPT-4o、Claude 3.5 Sonnet 媲美
DeepSeek-VL(arXiv 2024,DeepSeek)
论文信息
- 全称:DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 作者:Haoyu Lu 等(DeepSeek)
- 发布时间:2024 年 3 月
- 链接:arXiv:2403.05525
核心贡献:
- 混合视觉编码器:SigLIP(语义)+ SAM-B(细节/高频),支持 1024×1024 分辨率
- 语言优先的训练策略,确保多模态训练不损害语言能力
- 参数规模:1.3B 和 7B
DeepSeek-VL2(arXiv 2024,DeepSeek)
论文信息
- 全称:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
- 作者:Zhiyu Wu 等(DeepSeek)
- 发布时间:2024 年 12 月
- 链接:arXiv:2412.10302
核心贡献:
- 语言侧升级为 DeepSeekMoE + Multi-head Latent Attention,KV Cache 压缩
- 动态 Tiling 视觉编码,三种尺寸(Tiny/Small/Full)激活参数 1.0B~4.5B
- OCRBench 得分 834,超越 GPT-4o(736)
MiniCPM-V 系列(arXiv 2024,OpenBMB + 清华)
论文信息
- 全称:MiniCPM-V: A GPT-4V Level MLLM on Your Phone
- 作者:Yuan Yao 等(OpenBMB + 清华)
- 链接:arXiv:2408.01800
核心贡献:
- 面向端侧设备的高效 VLM,8B 模型在 11 个公开基准超越 GPT-4V/Gemini Pro/Claude 3
- 任意长宽比高分辨率,低幻觉率,30+ 语言支持
- 可在手机上本地运行
Phi-3-Vision / Phi-3.5-Vision(arXiv 2024,Microsoft)
论文信息
- 全称:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
- 作者:Marah Abdin 等(Microsoft)
- 链接:arXiv:2404.14219
核心贡献:
- 小型高效 VLM(4.2B 参数),专注边缘设备部署
- 混合高分辨率处理,支持多图输入
- 训练数据质量驱动而非规模驱动
Molmo & PixMo(arXiv 2024,Allen AI)
论文信息
- 全称:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
- 作者:Matt Deitke 等(Allen AI)
- 链接:arXiv:2409.17146
核心贡献:
- 完全开放权重 + 训练数据(PixMo 数据集)
- 点击与描述(Pointing)能力突出
- 在多个基准与商业模型持平
Pixtral 12B(arXiv 2024,Mistral AI)
论文信息
- 全称:Pixtral 12B
- 作者:Pravesh Agrawal 等(Mistral AI)
- 链接:arXiv:2410.07073
核心贡献:Mistral 的多模态模型,轻量高效,原生支持任意分辨率图像
NVLM(arXiv 2024,NVIDIA)
论文信息
- 全称:NVLM: Open Frontier-Class Multimodal LLMs
- 作者:Wenliang Dai 等(NVIDIA)
- 链接:arXiv:2409.11402
核心贡献:
- 提出三种架构:NVLM-D(Decoder-only,LLaVA 风格)、NVLM-X(Cross-Attention,Flamingo 风格)、NVLM-H(混合)
- 采用 DHR 高分辨率技术,OCR 和文档理解能力突出
Janus(arXiv 2024,DeepSeek)
论文信息
- 全称:Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
- 作者:Chengyue Wu 等(DeepSeek)
- 链接:arXiv:2410.13848
核心贡献:
- 统一多模态理解与生成(文生图 + 图理解)在单一自回归框架
- 解耦视觉编码:理解和生成路径独立编码,避免任务干扰
Claude 3 系列(2024年3月,Anthropic)
产品信息
- 版本:Haiku、Sonnet、Opus
- 模型卡片:Anthropic Model Card
核心能力:视觉理解能力大幅提升,图表分析、文档解读超越前代
Claude 3.5 系列(2024年6月起,Anthropic)
产品信息
- 版本:Claude 3.5 Sonnet、Claude 3.5 Haiku
- 发布博客:Anthropic Blog
核心能力:视觉推理达到新高度,多模态 Agent 能力(Computer Use)首次商用发布
GPT-4o(2024年5月,OpenAI)
产品信息
- 官方介绍:OpenAI GPT-4o
- 技术报告:GPT-4o System Card
核心能力:
- 统一文本、图像、语音的原生多模态架构
- 图像理解、视频帧分析、OCR 全面升级
- 速度和效率大幅提升,Real-time 语音能力
Gemini 1.5 系列(2024年2月,Google DeepMind)
产品信息
- 版本:Gemini 1.5 Pro、Gemini 1.5 Flash
- 技术报告:arXiv:2403.05530
核心贡献:
- 超长上下文(1M token)支持超长视频分析
- MoE 架构,极致效率
- 视频理解:可分析 1 小时以上的视频
Llama 3.2 Vision(2024年9月,Meta)
产品信息
- 版本:11B、90B
- 官方博客:Meta Llama 3.2
核心贡献:Meta 首个开源多模态模型,视觉理解能力接近商业水平
2025年初至 2026.03:推理能力与多模态 Agent
Qwen2.5-VL(2025年1月,Alibaba)
论文信息
- 全称:Qwen2.5-VL Technical Report
- 作者:Shuai Bai 等(Alibaba)
- 链接:arXiv:2502.13923
核心贡献:
- 动态分辨率处理的进一步强化,支持超大分辨率
- 视频理解、GUI 操作、文档分析多方位提升
- 规模从 3B 到 72B,72B 版本在多项基准与 GPT-4o 竞争
- QvQ-72B-Preview:实验性视觉推理模型,具备长链思维(CoT)推理能力
InternVL3(arXiv 2025,上海 AI Lab)
论文信息
- 全称:InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
- 作者:Jinguo Zhu 等(上海 AI Lab)
- 链接:arXiv:2504.10479
核心贡献:
- 原生多模态预训练(NMP):不再冻结视觉编码器,联合预训练
- Variable Visual Position Encoding(V2PE):更精细的视觉位置编码
- Mixed Preference Optimization(MPO):多模态偏好优化
- InternVL3-78B 在 MMMU 基准达 72.2,开源模型最高分
Kimi-VL(2025年初,Moonshot AI)
论文信息
- 全称:Kimi-VL Technical Report
- 作者:Kimi Team(Moonshot AI)
- 链接:arXiv:2504.07491
核心贡献:
- MoonViT + MoE 解码器(16B 总参数,仅 2.8B 激活)
- Kimi-VL-A3B-Thinking:长链思维多模态推理模型
- 支持超长视频、PDF、截图等多种输入形式
Janus-Pro(2025年1月,DeepSeek)
论文信息
- 全称:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
- 作者:Xiaokang Chen 等(DeepSeek)
- 链接:arXiv:2501.17811
核心贡献:
- 统一多模态理解与生成(文生图 + 图理解)在单一自回归框架
- 解耦视觉编码:理解和生成路径独立编码,避免任务干扰
- 文生图性能超越 DALL-E 3 和 Stable Diffusion
Gemini 2.0 / 2.5(2025年2月起,Google DeepMind)
产品信息
- 版本:Gemini 2.0 Flash、Gemini 2.5 Pro(带 Deep Think 模式)
- 官方介绍:Google DeepMind Gemini 2.5
核心贡献:
- Thinking Architecture:深度推理前先逐步分析
- 100 万+ token 上下文窗口(2.5 Pro),即将支持 200 万 token
- 在 Humanity’s Last Exam、AIME 2025、GPQA 等多推理基准持续领跑
- 支持文本/图像/视频/音频全模态输入
Llama 4(2025年4月,Meta)
产品信息
- 版本:Scout(17B A3B)、Maverick(17B A128B)、Behemoth(2T 未发布)
- 官方博客:Meta Llama 4
核心贡献:
- 原生多模态(图文原生联合训练),MoE 架构
- Scout 上下文窗口 10M token
- 开源多模态能力达到新高度
Phi-4 Multimodal(2025年,Microsoft)
论文信息
核心贡献:极小尺寸(约 5B),强调边缘部署和隐私保护,支持文本+图像+语音
UI-TARS(2025年,ByteDance)
论文信息
- 全称:UI-TARS: Pioneering Automated GUI Interaction with Native Agents
- 链接:arXiv:2501.12326
核心贡献:专注 GUI Agent,支持浏览器/电脑/手机操作,多模态推理驱动 UI 操控
大厂模型系列汇总
OpenAI
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| GPT-4V | 2023.09 | 首个广泛公开的 GPT 视觉版本;支持图像输入分析 | System Card |
| GPT-4o | 2024.05 | 原生多模态(文/图/音)统一架构,实时交互 | 官方介绍 |
| GPT-4o mini | 2024.07 | 轻量高效版;低成本,同时保留文本+视觉能力 | OpenAI |
| OpenAI o1(支持图像输入) | 2024.09 | 推理模型;API 模型页明确支持 Image input only | 发布页 |
| GPT-4.5 | 2025.02 | 更强通用知识、创意与协作感;研究预览版 | OpenAI |
| o3 / o4-mini | 2025.04 | 更强多模态推理;可结合工具、视觉与图像生成 | OpenAI |
| gpt-oss | 2025.08 | 开放权重推理模型(20B / 120B);Apache 2.0 | OpenAI |
| Sora 2 | 2025.09 | 旗舰视频+音频生成;更强物理一致性、同步音画、可控性 | OpenAI |
| GPT-5.2 Instant / Thinking / Pro | 2025.12 | 长上下文、文档/表格/代码/图像理解与 agent 工作流增强 | OpenAI |
| GPT-5.4 Thinking / Pro | 2026.03 | 最新 GPT 主力;更强 reasoning、视觉/文档理解、原生 computer use、1M context(API) | OpenAI |
Google DeepMind |
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| Flamingo | 2022 | 跨模态少样本;Perceiver Resampler 桥接视觉与语言 | arXiv:2204.14198 |
| PaLI / PaLI-X | 2022 / 2023 | 联合缩放多语言视觉语言模型 | arXiv:2209.06794 |
| Gemini 1.0 | 2023.12 | 原生多模态预训练;统一文本、图像、音频、视频 | arXiv:2312.11805 |
| Gemini 1.5 Pro / Flash | 2024.02 | 1M token 上下文;长视频、长文档理解 | arXiv:2403.05530 |
| Gemini 2.0 Flash | 2025.04(模型卡更新) | 低延迟多模态模型;Gemini 2 代核心产品线之一 | Model Cards |
| Gemini 2.5 Pro | 2025.06(模型卡更新) | 强推理、多模态、长上下文;配合 Deep Think | Gemini Pro |
| Gemini 3 Flash | 2025.12 | Gemini 3 系列快速版;更快 reasoning 与多模态理解 | Google Blog |
| Gemini 3 Pro | 2025.11 | Gemini 3 高性能主力版;更强 reasoning、agentic 能力 | Gemini Pro |
| Gemini 3.1 Pro | 2026.02 | 面向复杂任务与 agentic workflows 的最新升级版 | Google Blog |
| Veo 3.1 | 2026.01 | 视频生成更新;更强一致性、竖屏、1080p / 4K | Google Blog |
| Gemini 3 Pro Image(Nano Banana Pro) | 2025.11 | 基于 Gemini 3 Pro 的图像生成/编辑;文本渲染与控制性更强 | Google Blog |
Anthropic
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| Claude 3 Haiku / Sonnet / Opus | 2024.03 | 视觉理解、图表/文档分析正式进入 Claude 3 系列 | Anthropic |
| Claude 3.5 Sonnet v1 | 2024.06 | 视觉推理显著增强;更强编码与文档理解 | Anthropic |
| Claude 3.5 Sonnet v2 | 2024.10 | 与新 Computer Use 同步推进;更强多模态 agent 能力 | Anthropic |
| Claude 3.5 Haiku | 2024.10 | 更轻量、更快;保留视觉输入能力 | Anthropic |
| Claude 3.7 Sonnet | 2025.02 | 混合推理;extended thinking + 视觉输入 | Anthropic API Release Notes |
| Claude Sonnet 4.5 | 2025.09 | 4.x 主力;coding / agents / computer use 大幅增强 | Anthropic |
| Claude Haiku 4.5 | 2025.10 | 轻量快速;仍属于 Claude 4.5 多模态家族 | System Cards |
| Claude Opus 4.5 | 2025.11 | 高端混合推理模型;更强 coding 与 agents | Transparency Hub |
| Claude Sonnet 4.6 | 2026.02 | 最新 Sonnet;1M context beta,computer use / coding / planning 全面增强 | Anthropic |
| Claude Opus 4.6 | 2026.02 | 当前最强 Claude;混合推理、1M context、企业级 agent 能力 | Anthropic |
Meta
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| Segment Anything (SAM) | 2023.04 | 视觉基础模型;零样本分割 | arXiv:2304.02643 |
| ImageBind | 2023.05 | 六模态统一嵌入空间 | arXiv:2305.05665 |
| Imagine with Meta AI | 2023.12 | Meta AI 图像生成功能;独立 web 体验与水印机制推进 | Meta |
| Llama 3.2 Vision 11B / 90B | 2024.09 | 首个 Meta 原生多模态开放权重 VLM | Meta AI |
| Llama 4 Scout / Maverick | 2025.04 | 原生多模态 MoE;超长上下文 | Meta AI |
Microsoft
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| Florence | 2021 | 大一统视觉基础模型 | arXiv:2111.11432 |
| BEiT-3 | 2022 | 图像作为外语;统一 Masked Modeling | arXiv:2208.10442 |
| Kosmos-1 | 2023.02 | 大型多模态语言模型;图文交错 ICL | arXiv:2302.14045 |
| Kosmos-2 | 2023.06 | 增加 Grounding 能力 | arXiv:2306.14824 |
| Phi-3-Vision | 2024.04 | 4.2B 高效 VLM;边缘部署友好 | arXiv:2404.14219 |
| Florence-2 | 2024 | 统一视觉理解与定位基础模型 | arXiv:2311.06242 |
| Phi-4 Multimodal | 2025.03 | 文/图/音统一;小参数高能力 | arXiv:2503.01743 |
Alibaba(阿里)
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| OFA | 2022 | Seq2Seq 统一多任务框架 | arXiv:2202.03052 |
| Qwen-VL | 2023.08 | 双语 OCR、Grounding、多图输入 | arXiv:2308.12966 |
| Qwen2-VL 2B / 8B / 72B | 2024.09 | 动态分辨率、M-RoPE;强化图像/视频理解 | arXiv:2409.12191 |
| Qwen2.5-VL 3B / 7B / 72B | 2025.02 | 视频理解、GUI、文档理解全面增强 | arXiv:2502.13923 |
| Qwen2.5-Omni | 2025.03 | 端到端 omni 模型;统一文/图/音/视频 | Qwen |
| Qwen-Image | 2025.08 | 20B MMDiT 图像基础模型;原生文本渲染、精细编辑 | Qwen |
| Qwen3-VL | 2025.09 | 新一代 VLM;更强布局/时空建模与视频理解 | Transformers Docs |
| Qwen3-VL-Thinking | 2025.09 | Qwen3-VL 的 Thinking 变体 | Transformers Docs |
| Qwen3-Max | 2026.01(当前稳定版) | 长上下文;thinking / non-thinking 双模式 | Alibaba Cloud |
| Qwen3-Omni-Flash(API) | 2025.12 | 多模态 omni API 模型;支持 realtime 场景 | Alibaba Cloud |
XAI
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| Grok 3 | 2025.02 | reasoning agents beta;含 Grok 3 (Think) / Grok 3 mini (Think) | xAI |
| Grok 4.1 | 2025.11 | 更强可用性、风格一致性、帮助性与推理能力 | xAI |
| Grok 4.1 Thinking(更准确说法:4.1 的 reasoning 模式) | 2025.11 | 推理模式;更适合复杂任务,但更像模式而非独立基础模型 | xAI |
| Aurora | 2024.12 | xAI 图像生成器;最早可稳妥确认的官方提及在 2024-12-12 | xAI |
DeepSeek(深度求索)
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| DeepSeek-VL 1.3B / 7B | 2024.03 | 混合视觉编码;语言优先训练 | arXiv:2403.05525 |
| DeepSeek-VL2 | 2024.12 | MoE 架构;动态 Tiling;OCR / 文档能力增强 | arXiv:2412.10302 |
| Janus | 2024.10 | 统一理解与生成的自回归框架 | arXiv:2410.13848 |
| Janus-Pro | 2025.01 | 文生图能力增强;解耦视觉编码 | arXiv:2501.17811 |
| DeepSeek-V3.2(non-thinking / thinking) | 2025.12 | reasoning-first;tool-use 中集成 thinking;App / Web / API / 开源同步 | DeepSeek API Docs |
| DeepSeek-V3.2-Speciale | 2025.12 | 更强极限推理;API-only 临时开放;无 tool calls | DeepSeek API Docs |
上海 AI Lab / OpenGVLab(中国)
| 模型 | 时间 | 关键特性 | 链接 |
|---|---|---|---|
| InternLM-XComposer | 2023 | 长文图文创作,互动写作 | arXiv:2309.15112 |
| InternVL 1.0 | 2023.12 | InternViT-6B,通用视觉基础 | arXiv:2312.14238 |
| InternVL 1.5 | 2024.04 | DHR 高分辨率,全面追平商业模型 | arXiv:2404.16821 |
| InternVL3 8B~78B | 2025.04 | 原生多模态预训练,开源 MMMU SOTA | arXiv:2504.10479 |
其他重要机构
| 机构 | 模型 | 时间 | 链接 |
|---|---|---|---|
| Salesforce | BLIP | 2022 | arXiv:2201.12086 |
| Salesforce | BLIP-2 | 2023 | arXiv:2301.12597 |
| Salesforce | InstructBLIP | 2023 | arXiv:2305.06500 |
| Allen AI | Molmo & PixMo | 2024.09 | arXiv:2409.17146 |
| Mistral AI | Pixtral 12B | 2024.09 | arXiv:2410.07073 |
| ByteDance | UI-TARS | 2025 | arXiv:2501.12326 |
| Moonshot AI | Kimi-VL | 2025.01 | arXiv:2504.07491 |
| OpenBMB/清华 | MiniCPM-V | 2024 | arXiv:2408.01800 |
核心评测基准
| 基准 | 发布时间 | 评测内容 | 参考链接 |
|---|---|---|---|
| VQAv2 | 2019 | 视觉问答(通用) | arXiv:1612.00837 |
| TextVQA | 2019 | OCR+问答 | arXiv:1904.08920 |
| GQA | 2019 | 组合推理 VQA | arXiv:1902.09506 |
| NoCaps | 2019 | 开放域图像描述 | arXiv:1812.08658 |
| MMBench | 2023 | 综合多维度多模态评测 | arXiv:2307.06281 |
| MMMU | 2023 | 大学级多学科多图题 | arXiv:2311.16502 |
| MathVista | 2023 | 数学视觉推理 | arXiv:2310.02255 |
| MMStar | 2024 | 去污染多模态评测 | arXiv:2403.20330 |
| OCRBench | 2023 | OCR 综合评测(1000分) | arXiv:2305.07895 |
| DocVQA | 2020 | 文档视觉问答 | arXiv:2007.00398 |
| ChartQA | 2022 | 图表问答 | arXiv:2203.10244 |
| Video-MME | 2024 | 长视频多模态理解 | arXiv:2405.21075 |
| HallusionBench | 2024 | 幻觉诊断 | arXiv:2310.14566 |
| POPE | 2023 | 目标幻觉评测 | arXiv:2305.10355 |
技术演进脉络
视觉编码器演进
CNN Region Features(2019以前)
↓
CLIP ViT(2021)—— 对比预训练的通用视觉编码器
↓
EVA / InternViT-6B(2022~2023)—— 更大更强的视觉基础模型
↓
SigLIP(2023,Google)—— 更高效的对比预训练
↓
动态高分辨率(DHR / Any-Resolution)—— InternVL1.5、LLaVA-NeXT(2024)
↓
原生多模态联合预训练 —— Gemini 2.0、InternVL3(2024~2025)
视觉-语言桥接架构演进
跨模态注意力融合(OSCAR、ViLBERT,2020)
↓
对比双塔(CLIP / ALIGN,2021)
↓
统一 Transformer(ViLT,2021)
↓
轻量桥接模块 Q-Former(BLIP-2,2023)
↓
MLP 线性投影(LLaVA,2023)——简单而有效
↓
Perceiver Resampler(Flamingo,2022)/ Visual Expert(CogVLM,2023)
↓
原生统一端到端(Gemini、GPT-4o,2024)
训练范式演进
对比预训练(2021)
↓
图文预训练 + 任务微调(2022)
↓
指令微调(Instruction Tuning)(2023)
↓
RLHF / DPO 对齐(2023~2024)
↓
强化学习推理(GRPO / MPO)(2024~2025)
↓
测试时扩展(Test-Time Scaling / CoT)(2025)
能力边界扩展
图像描述 / 图文检索(2021~2022)
↓
视觉问答 / 多图对话(2022~2023)
↓
OCR / 文档理解 / 图表分析(2023~2024)
↓
视频理解 / 长视频分析(2024)
↓
GUI Agent / Computer Use(2024~2025)
↓
多模态数学推理 / 科学推理(2025)
↓
端侧高效部署(2024~2025)
总结
五年核心趋势
-
规模定律全面验证:从 CLIP 的 4 亿对到 Gemini 的万亿级数据,规模依然是性能的核心驱动力,但”数据质量 × 架构效率 × 算法创新”的重要性日益凸显。
-
LLM 融合取代独立 VLM:2023 年后几乎所有主流 VLM 都以强大 LLM(LLaMA、Qwen、Vicuna 等)为语言核心,VLM 研究重心从”如何预训练图文模型”转向”如何高效对接视觉与语言”。
-
开源追赶商业闭源:2023 年 GPT-4V 发布时,开源模型与之差距巨大;至 2025 年初,Qwen2.5-VL-72B、InternVL3-78B 等开源模型已在多数基准与 GPT-4o 持平甚至超越。
-
高分辨率感知成标配:从固定 224×224 到任意分辨率动态切块(DHR),高分辨率输入是 2024 年最重要的技术进步之一,直接决定 OCR、文档、细节识别能力。
-
推理能力引入视觉域:2024 年末至 2025 年,以 QwQ-72B、Kimi-VL-Thinking 为代表,将 LLM 推理链(CoT)、强化学习(GRPO)引入视觉推理,多模态数学和科学问题能力大幅提升。
-
多模态 Agent 快速崛起:Computer Use(Anthropic)、GUI-Agent(ByteDance UI-TARS)等让 VLM 从”看图说话”进化为”看图行动”,VLA(视觉语言动作模型)成为机器人/自动化的新前沿。
-
端侧与高效部署需求爆发:MiniCPM-V、Phi-4 Multimodal、DeepSeek-VL2-Tiny 等面向边缘设备的高效 VLM 快速增长,推动 VLM 从云端向本地迁移。
未来研究方向(截至 2026.03 展望)
- 多模态原生预训练:进一步突破图像+视频+音频+3D 数据的联合原生训练
- 视觉推理能力增强:Test-Time Compute 扩展、思维链视觉推理
- 长视频理解:千帧以上视频的高效感知与推理
- 幻觉与可信度:大幅降低视觉幻觉,提升事实一致性
- 多模态智能体:真实世界中的计算机操控、机器人操控等
- 多语言与文化多样性:中英文外更多语种的多模态理解
- 超高效轻量模型:1B 以下参数仍具备强大视觉理解能力