视觉语言模型(VLM)五年调研报告(2021 — 2026.03)

摘要:本报告系统梳理了 2021 年至 2026 年 3 月间,视觉语言模型(Vision-Language Model, VLM)领域的顶会论文与大厂模型系列,覆盖 CVPR、NeurIPS、ICML、ICLR、ECCV、ACL 等顶级会议,以及 OpenAI、Google DeepMind、Anthropic、Meta、Alibaba、DeepSeek 等头部机构的产品线。


目录


2021年:CLIP 引爆对比预训练时代

CLIP(ICML 2021)

论文信息

  • 全称:Learning Transferable Visual Models From Natural Language Supervision
  • 作者:Alec Radford, Jong Wook Kim 等(OpenAI)
  • 链接arXiv:2103.00020

核心贡献

  • 提出用 4 亿图文对进行对比学习预训练
  • 训练两个编码器(图像 ViT / 文本 Transformer)对齐表征
  • 开创”自然语言监督”零样本迁移范式,在 30 个视觉任务上超越监督基线

影响

几乎所有后续 VLM 都以 CLIP 视觉编码器为骨干,是该领域最具影响力的工作之一


ALIGN(ICML 2021)

论文信息

  • 全称:Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
  • 作者:Chao Jia, Yinfei Yang 等(Google)
  • 链接arXiv:2102.05918

核心贡献

  • 使用 18 亿嘈杂图文对训练,超越 CLIP 规模
  • 证明数据量能弥补噪声,强调规模定律在对比预训练中的有效性
  • EfficientNet + BERT 双塔架构

ViLT(ICML 2021)

论文信息

  • 全称:Vision-and-Language Transformer Without Convolution or Region Supervision
  • 作者:Wonjae Kim, Bokyung Son(Kakao)
  • 链接arXiv:2102.03334

核心贡献

  • 抛弃目标检测区域特征,视觉处理与文本处理统一在 Transformer 中
  • 速度比以往 VLP 模型快数十倍,同时保持有竞争力的性能

ALBEF(NeurIPS 2021)

论文信息

  • 全称:Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation
  • 作者:Junnan Li, Ramprasaath Selvaraju 等(Salesforce)
  • 链接arXiv:2107.07651

核心贡献

  • 在融合前先通过 ITC(图文对比)对齐单模态特征
  • 引入动量蒸馏(MoD)处理网络噪声数据
  • 奠定”理解+生成”统一框架的基础

MERLOT(NeurIPS 2021)

论文信息

  • 全称:Multimodal Neural Script Knowledge Models
  • 作者:Rowan Zellers 等(University of Washington + AI2)
  • 链接arXiv:2106.02636

核心贡献:从视频中学习时序多模态常识知识,支持视觉推理


Florence(arXiv 2021,Microsoft)

论文信息

  • 全称:Florence: A New Foundation Model for Computer Vision
  • 作者:Yuan等(Microsoft)
  • 链接arXiv:2111.11432

核心贡献:提出大一统视觉基础模型,支持 image-text、image-label、image-box 等多任务,CoSwin 视觉编码器 + BERT 文本编码器


2022年:多模态架构百花齐放

Flamingo(NeurIPS 2022)

论文信息

  • 全称:Flamingo: A Visual Language Model for Few-Shot Learning
  • 作者:Jean-Baptiste Alayrac, Jeff Donahue 等(DeepMind)
  • 链接arXiv:2204.14198

核心贡献

  • 用 Perceiver Resampler 将视觉 Token 压缩后通过 Gated Cross-Attention 注入预训练 LLM
  • 在不微调 LLM 的前提下实现图文交错的少样本多模态理解
  • 首次展示多图交错输入能力,是现代 LVLM 架构的重要原型

BLIP(ICML 2022)

论文信息

  • 全称:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  • 作者:Junnan Li, Dongxu Li 等(Salesforce)
  • 链接arXiv:2201.12086

核心贡献

  • 提出多模态混合编解码器(MED):同时支持 ITC、ITM 和 LM 三个目标
  • 提出 CapFilt:用 Captioner 生成合成标注、用 Filter 过滤噪声,循环提升数据质量
  • 实现理解与生成的统一

SimVLM(ICLR 2022)

论文信息

  • 全称:Simple Visual Language Model Pretraining with Weak Supervision
  • 作者:Zirui Wang, Jianwei Bao 等(Google)
  • 链接arXiv:2108.10904

核心贡献

  • 仅用前缀语言模型目标(PrefixLM),以最少监督信号预训练
  • 单一目标函数覆盖理解和生成,大规模弱监督下效果优异

CoCa(arXiv 2022,Google)

论文信息

  • 全称:Contrastive Captioners Are Image-Text Foundation Models
  • 作者:Jiahui Yu 等(Google)
  • 链接arXiv:2205.01917

核心贡献

  • 对比损失(ITC)+ 字幕生成损失(LM)双目标联合训练
  • 单一模型同时支持编码型和生成型下游任务

FLAVA(CVPR 2022)

论文信息

  • 全称:A Foundational Language And Vision Alignment Model
  • 作者:Amanpreet Singh 等(Meta AI)
  • 链接arXiv:2112.04482

核心贡献:统一图像-文本-多模态三种模态的预训练目标,对比、MLM、MIM、多模态融合目标同时优化


OFA(ICML 2022)

论文信息

  • 全称:Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
  • 作者:Peng Wang 等(Alibaba DAMO)
  • 链接arXiv:2202.03052

核心贡献

  • 将所有视觉-语言任务统一成 Seq2Seq 格式(包括图像生成、目标检测、VQA)
  • 任务统一架构,无需额外任务头

BEiT-3(arXiv 2022,Microsoft)

论文信息

  • 全称:Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks
  • 作者:Wenhui Wang 等(Microsoft)
  • 链接arXiv:2208.10442

核心贡献

  • 将图像 Patch 视为一种”外语”,统一训练图像/文本/多模态三个模态的 Masked Modeling
  • 一个模型多任务均达 SOTA

X-VLM(ICML 2022)

论文信息

  • 全称:Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
  • 作者:Yan Zeng 等(ByteDance)
  • 链接arXiv:2111.08276

核心贡献:多粒度视觉-语言对齐(区域级、图像级、对象级)


LiT(CVPR 2022)

论文信息

  • 全称:LiT: Zero-Shot Transfer with Locked-Image Text Tuning
  • 作者:Xiaohua Zhai 等(Google)
  • 链接arXiv:2111.07991

核心贡献:冻结图像编码器,只微调文本编码器,可接入任意预训练视觉模型


PaLI(ICLR 2023,Google)

论文信息

  • 全称:A Jointly-Scaled Multilingual Language-Image Model
  • 作者:Xi Chen 等(Google)
  • 链接arXiv:2209.06794

核心贡献:图像-文本联合缩放的多语言模型,540B 参数,覆盖 100+ 语言


2023年:指令微调与大模型融合爆发

LLaVA(NeurIPS 2023 Oral)

论文信息

  • 全称:Visual Instruction Tuning
  • 作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee(Wisconsin + Microsoft)
  • 链接arXiv:2304.08485

核心贡献

  • 首次用纯文字 GPT-4 生成多模态指令跟随数据(LLaVA-Instruct-150K)
  • CLIP ViT-L + LLaMA/Vicuna,通过线性投影层连接,两阶段训练
  • 开创”视觉指令微调”范式,成为后续几乎所有开源 VLM 的直接基线

影响力

NeurIPS 2023 Oral,开源 VLM 最重要的基础工作之一


InstructBLIP(NeurIPS 2023)

论文信息

  • 全称:Towards General-Purpose Vision-Language Models with Instruction Tuning
  • 作者:Wenliang Dai 等(Salesforce)
  • 链接arXiv:2305.06500

核心贡献

  • 在 BLIP-2 基础上进行指令微调,引入 Instruction-aware Q-Former
  • 26 个下游数据集统一指令格式,泛化能力强

BLIP-2(ICML 2023)

论文信息

  • 全称:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  • 作者:Junnan Li 等(Salesforce)
  • 链接arXiv:2301.12597

核心贡献

  • Q-Former 作为视觉-语言桥接模块:32 个可学习查询 Token 从冻结视觉编码器中提取信息
  • 冻结图像编码器 + 冻结 LLM(OPT/FlanT5),只训练 Q-Former
  • 参数高效,开创”轻量级视觉-语言桥”范式

MiniGPT-4(ICLR 2024,2023年4月发布)

论文信息

  • 全称:Enhancing Vision-Language Understanding with Advanced Large Language Models
  • 作者:Deyao Zhu 等(KAUST)
  • 链接arXiv:2304.10592

核心贡献

  • 用一层线性层连接 BLIP-2 的视觉编码器与 Vicuna LLM
  • 两阶段对话微调,展示 GPT-4 级多模态对话能力
  • 极简架构引发广泛关注

Kosmos-1(arXiv 2023,Microsoft)

论文信息

  • 全称:Language Is Not All You Need: Aligning Perception with Language Models
  • 作者:Shaohan Huang 等(Microsoft)
  • 链接arXiv:2302.14045

核心贡献:大型多模态语言模型,处理图文交错输入,支持上下文学习(ICL)


Kosmos-2(ICLR 2024,2023年6月,Microsoft)

论文信息

  • 全称:Grounding Multimodal Large Language Models to the World
  • 作者:Zhiliang Peng 等(Microsoft)
  • 链接arXiv:2306.14824

核心贡献:扩展 Kosmos-1,增加 Grounding(目标定位)能力,图文绑定


Qwen-VL(arXiv 2023,Alibaba)

论文信息

  • 全称:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  • 作者:Jinze Bai 等(Alibaba)
  • 链接arXiv:2308.12966

核心贡献

  • Qwen LLM + ViT 视觉编码器 + Position-aware Vision-Language Adapter
  • 支持细粒度理解、多语言、多图输入,中英文双语 OCR 能力突出
  • 三阶段训练:预训练 → 多任务预训练 → 指令微调

CogVLM(arXiv 2023,Zhipu AI + 清华)

论文信息

  • 全称:CogVLM: Visual Expert for Pretrained Language Models
  • 作者:Weihan Wang 等(Zhipu AI + 清华)
  • 链接arXiv:2311.03079

核心贡献

  • 在 LLM 每一层添加 Visual Expert(独立 QKV + FFN),深度融合视觉特征
  • 不冻结 LLM 参数,实现真正的深度视觉-语言融合
  • 支持视觉 Grounding(CogVLM-Grounding)

LLaVA-1.5 / 改进的 LLaVA(arXiv 2023,Wisconsin)

论文信息

  • 全称:Improved Baselines with Visual Instruction Tuning
  • 作者:Haotian Liu 等(Wisconsin + Microsoft)
  • 链接arXiv:2310.03744

核心贡献

  • 将线性投影层替换为两层 MLP,使用 CLIP-ViT-L-336px 高分辨率版本
  • 混合 VQA 学术数据,仅用少量数据刷新众多基准
  • 证明”简单改进+高质量数据”的路线比复杂架构更高效

mPLUG-Owl(arXiv 2023,Alibaba DAMO)

论文信息

  • 全称:mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
  • 作者:Qinghao Ye 等(Alibaba DAMO)
  • 链接arXiv:2304.14178

核心贡献:引入 H-Former 对视觉特征进行层次化压缩后注入 LLM,有效降低视觉 Token 数量


InternLM-XComposer(arXiv 2023,上海 AI Lab)

论文信息

  • 全称:InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition
  • 作者:Pan Zhang 等(上海 AI Lab)
  • 链接arXiv:2309.15112

核心贡献:多模态对话 + 长文图文创作,结合 InternLM 基础模型


GPT-4V(2023年9月,OpenAI)

产品信息

核心能力

  • 支持高分辨率图像输入,复杂推理、OCR、图表理解能力突出
  • 多图上下文处理,定义了商业 VLM 能力上界
  • 架构未公开,推测为 GPT-4 加图像 Tokenizer

Gemini 1.0(2023年12月,Google DeepMind)

产品信息

核心贡献

  • 从零开始进行多模态原生训练(Text + Image + Video + Audio + Code)
  • 非”拼接”架构,真正意义上的多模态预训练基础模型
  • Gemini Ultra 在 MMMU 等多项基准超越 GPT-4V

2024年:高分辨率、视频理解与开源追赶

InternVL(CVPR 2024 Oral)

论文信息

  • 全称:Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  • 作者:Zhe Chen 等(上海 AI Lab + OpenGVLab)
  • 链接arXiv:2312.14238

核心贡献

  • InternViT-6B:迄今最大的视觉基础模型之一(60 亿参数)
  • 渐进式对齐策略:先对齐视觉编码器,再构建 VLM
  • 跨模态检索、多模态对话、视觉 Grounding 全面领先开源模型

荣誉

CVPR 2024 Oral,开源视觉语言基础模型的重要里程碑


InternVL-1.5(arXiv 2024,上海 AI Lab)

论文信息

  • 全称:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
  • 作者:Zhe Chen 等(上海 AI Lab)
  • 链接arXiv:2404.16821

核心贡献

  • 动态高分辨率(DHR)策略:任意长宽比图像切块 + 缩略图,保留全局信息
  • 448×448 像素 Tile,支持 4K+ 分辨率图像输入
  • InternVL2 系列(1B~108B)成为最广泛使用的开源 MLLM 之一

LLaVA-NeXT / LLaVA-1.6(arXiv 2024,Wisconsin)

论文信息

  • 全称:LLaVA-NeXT: Improved reasoning, OCR, and world knowledge
  • 作者:Haotian Liu 等(Wisconsin + ByteDance)
  • 链接arXiv:2403.06977

核心贡献

  • 动态高分辨率输入(384→672×672 等多种分辨率)
  • 更强的推理、OCR、世界知识能力
  • 支持 Mistral、Mixtral、LLaMA-3 等多种 LLM 后端

LLaVA-OneVision(arXiv 2024,Wisconsin + ByteDance)

论文信息

  • 全称:LLaVA-OneVision: Easy Visual Task Transfer
  • 作者:Bo Li 等(Wisconsin + ByteDance)
  • 链接arXiv:2408.03326

核心贡献:统一图像、多图、视频三种场景的视觉理解,一个模型全覆盖


Qwen2-VL(arXiv 2024,Alibaba)

论文信息

  • 全称:Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
  • 作者:Peng Wang 等(Alibaba)
  • 链接arXiv:2409.12191

核心贡献

  • 朴素动态分辨率(Naive Dynamic Resolution):不同分辨率图像产生不同数量 Token
  • M-RoPE(多模态旋转位置编码):统一图文视频的位置信息
  • 缩放规律研究:2B/8B/72B,Qwen2-VL-72B 性能与 GPT-4o、Claude 3.5 Sonnet 媲美

DeepSeek-VL(arXiv 2024,DeepSeek)

论文信息

  • 全称:DeepSeek-VL: Towards Real-World Vision-Language Understanding
  • 作者:Haoyu Lu 等(DeepSeek)
  • 发布时间:2024 年 3 月
  • 链接arXiv:2403.05525

核心贡献

  • 混合视觉编码器:SigLIP(语义)+ SAM-B(细节/高频),支持 1024×1024 分辨率
  • 语言优先的训练策略,确保多模态训练不损害语言能力
  • 参数规模:1.3B 和 7B

DeepSeek-VL2(arXiv 2024,DeepSeek)

论文信息

  • 全称:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
  • 作者:Zhiyu Wu 等(DeepSeek)
  • 发布时间:2024 年 12 月
  • 链接arXiv:2412.10302

核心贡献

  • 语言侧升级为 DeepSeekMoE + Multi-head Latent Attention,KV Cache 压缩
  • 动态 Tiling 视觉编码,三种尺寸(Tiny/Small/Full)激活参数 1.0B~4.5B
  • OCRBench 得分 834,超越 GPT-4o(736)

MiniCPM-V 系列(arXiv 2024,OpenBMB + 清华)

论文信息

  • 全称:MiniCPM-V: A GPT-4V Level MLLM on Your Phone
  • 作者:Yuan Yao 等(OpenBMB + 清华)
  • 链接arXiv:2408.01800

核心贡献

  • 面向端侧设备的高效 VLM,8B 模型在 11 个公开基准超越 GPT-4V/Gemini Pro/Claude 3
  • 任意长宽比高分辨率,低幻觉率,30+ 语言支持
  • 可在手机上本地运行

Phi-3-Vision / Phi-3.5-Vision(arXiv 2024,Microsoft)

论文信息

  • 全称:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
  • 作者:Marah Abdin 等(Microsoft)
  • 链接arXiv:2404.14219

核心贡献

  • 小型高效 VLM(4.2B 参数),专注边缘设备部署
  • 混合高分辨率处理,支持多图输入
  • 训练数据质量驱动而非规模驱动

Molmo & PixMo(arXiv 2024,Allen AI)

论文信息

  • 全称:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
  • 作者:Matt Deitke 等(Allen AI)
  • 链接arXiv:2409.17146

核心贡献

  • 完全开放权重 + 训练数据(PixMo 数据集)
  • 点击与描述(Pointing)能力突出
  • 在多个基准与商业模型持平

Pixtral 12B(arXiv 2024,Mistral AI)

论文信息

  • 全称:Pixtral 12B
  • 作者:Pravesh Agrawal 等(Mistral AI)
  • 链接arXiv:2410.07073

核心贡献:Mistral 的多模态模型,轻量高效,原生支持任意分辨率图像


NVLM(arXiv 2024,NVIDIA)

论文信息

  • 全称:NVLM: Open Frontier-Class Multimodal LLMs
  • 作者:Wenliang Dai 等(NVIDIA)
  • 链接arXiv:2409.11402

核心贡献

  • 提出三种架构:NVLM-D(Decoder-only,LLaVA 风格)、NVLM-X(Cross-Attention,Flamingo 风格)、NVLM-H(混合)
  • 采用 DHR 高分辨率技术,OCR 和文档理解能力突出

Janus(arXiv 2024,DeepSeek)

论文信息

  • 全称:Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
  • 作者:Chengyue Wu 等(DeepSeek)
  • 链接arXiv:2410.13848

核心贡献

  • 统一多模态理解与生成(文生图 + 图理解)在单一自回归框架
  • 解耦视觉编码:理解和生成路径独立编码,避免任务干扰

Claude 3 系列(2024年3月,Anthropic)

产品信息

核心能力:视觉理解能力大幅提升,图表分析、文档解读超越前代


Claude 3.5 系列(2024年6月起,Anthropic)

产品信息

  • 版本:Claude 3.5 Sonnet、Claude 3.5 Haiku
  • 发布博客Anthropic Blog

核心能力:视觉推理达到新高度,多模态 Agent 能力(Computer Use)首次商用发布


GPT-4o(2024年5月,OpenAI)

产品信息

核心能力

  • 统一文本、图像、语音的原生多模态架构
  • 图像理解、视频帧分析、OCR 全面升级
  • 速度和效率大幅提升,Real-time 语音能力

Gemini 1.5 系列(2024年2月,Google DeepMind)

产品信息

核心贡献

  • 超长上下文(1M token)支持超长视频分析
  • MoE 架构,极致效率
  • 视频理解:可分析 1 小时以上的视频

Llama 3.2 Vision(2024年9月,Meta)

产品信息

核心贡献:Meta 首个开源多模态模型,视觉理解能力接近商业水平


2025年初至 2026.03:推理能力与多模态 Agent

Qwen2.5-VL(2025年1月,Alibaba)

论文信息

  • 全称:Qwen2.5-VL Technical Report
  • 作者:Shuai Bai 等(Alibaba)
  • 链接arXiv:2502.13923

核心贡献

  • 动态分辨率处理的进一步强化,支持超大分辨率
  • 视频理解、GUI 操作、文档分析多方位提升
  • 规模从 3B 到 72B,72B 版本在多项基准与 GPT-4o 竞争
  • QvQ-72B-Preview:实验性视觉推理模型,具备长链思维(CoT)推理能力

InternVL3(arXiv 2025,上海 AI Lab)

论文信息

  • 全称:InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
  • 作者:Jinguo Zhu 等(上海 AI Lab)
  • 链接arXiv:2504.10479

核心贡献

  • 原生多模态预训练(NMP):不再冻结视觉编码器,联合预训练
  • Variable Visual Position Encoding(V2PE):更精细的视觉位置编码
  • Mixed Preference Optimization(MPO):多模态偏好优化
  • InternVL3-78B 在 MMMU 基准达 72.2,开源模型最高分

Kimi-VL(2025年初,Moonshot AI)

论文信息

  • 全称:Kimi-VL Technical Report
  • 作者:Kimi Team(Moonshot AI)
  • 链接arXiv:2504.07491

核心贡献

  • MoonViT + MoE 解码器(16B 总参数,仅 2.8B 激活)
  • Kimi-VL-A3B-Thinking:长链思维多模态推理模型
  • 支持超长视频、PDF、截图等多种输入形式

Janus-Pro(2025年1月,DeepSeek)

论文信息

  • 全称:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
  • 作者:Xiaokang Chen 等(DeepSeek)
  • 链接arXiv:2501.17811

核心贡献

  • 统一多模态理解与生成(文生图 + 图理解)在单一自回归框架
  • 解耦视觉编码:理解和生成路径独立编码,避免任务干扰
  • 文生图性能超越 DALL-E 3 和 Stable Diffusion

Gemini 2.0 / 2.5(2025年2月起,Google DeepMind)

产品信息

核心贡献

  • Thinking Architecture:深度推理前先逐步分析
  • 100 万+ token 上下文窗口(2.5 Pro),即将支持 200 万 token
  • 在 Humanity’s Last Exam、AIME 2025、GPQA 等多推理基准持续领跑
  • 支持文本/图像/视频/音频全模态输入

Llama 4(2025年4月,Meta)

产品信息

  • 版本:Scout(17B A3B)、Maverick(17B A128B)、Behemoth(2T 未发布)
  • 官方博客Meta Llama 4

核心贡献

  • 原生多模态(图文原生联合训练),MoE 架构
  • Scout 上下文窗口 10M token
  • 开源多模态能力达到新高度

Phi-4 Multimodal(2025年,Microsoft)

论文信息

核心贡献:极小尺寸(约 5B),强调边缘部署和隐私保护,支持文本+图像+语音


UI-TARS(2025年,ByteDance)

论文信息

  • 全称:UI-TARS: Pioneering Automated GUI Interaction with Native Agents
  • 链接arXiv:2501.12326

核心贡献:专注 GUI Agent,支持浏览器/电脑/手机操作,多模态推理驱动 UI 操控


大厂模型系列汇总

OpenAI

模型时间关键特性链接
GPT-4V2023.09首个广泛公开的 GPT 视觉版本;支持图像输入分析System Card
GPT-4o2024.05原生多模态(文/图/音)统一架构,实时交互官方介绍
GPT-4o mini2024.07轻量高效版;低成本,同时保留文本+视觉能力OpenAI
OpenAI o1(支持图像输入)2024.09推理模型;API 模型页明确支持 Image input only发布页
GPT-4.52025.02更强通用知识、创意与协作感;研究预览版OpenAI
o3 / o4-mini2025.04更强多模态推理;可结合工具、视觉与图像生成OpenAI
gpt-oss2025.08开放权重推理模型(20B / 120B);Apache 2.0OpenAI
Sora 22025.09旗舰视频+音频生成;更强物理一致性、同步音画、可控性OpenAI
GPT-5.2 Instant / Thinking / Pro2025.12长上下文、文档/表格/代码/图像理解与 agent 工作流增强OpenAI
GPT-5.4 Thinking / Pro2026.03最新 GPT 主力;更强 reasoning、视觉/文档理解、原生 computer use、1M context(API)OpenAI

Google DeepMind |

模型时间关键特性链接
Flamingo2022跨模态少样本;Perceiver Resampler 桥接视觉与语言arXiv:2204.14198
PaLI / PaLI-X2022 / 2023联合缩放多语言视觉语言模型arXiv:2209.06794
Gemini 1.02023.12原生多模态预训练;统一文本、图像、音频、视频arXiv:2312.11805
Gemini 1.5 Pro / Flash2024.021M token 上下文;长视频、长文档理解arXiv:2403.05530
Gemini 2.0 Flash2025.04(模型卡更新)低延迟多模态模型;Gemini 2 代核心产品线之一Model Cards
Gemini 2.5 Pro2025.06(模型卡更新)强推理、多模态、长上下文;配合 Deep ThinkGemini Pro
Gemini 3 Flash2025.12Gemini 3 系列快速版;更快 reasoning 与多模态理解Google Blog
Gemini 3 Pro2025.11Gemini 3 高性能主力版;更强 reasoning、agentic 能力Gemini Pro
Gemini 3.1 Pro2026.02面向复杂任务与 agentic workflows 的最新升级版Google Blog
Veo 3.12026.01视频生成更新;更强一致性、竖屏、1080p / 4KGoogle Blog
Gemini 3 Pro Image(Nano Banana Pro)2025.11基于 Gemini 3 Pro 的图像生成/编辑;文本渲染与控制性更强Google Blog

Anthropic

模型时间关键特性链接
Claude 3 Haiku / Sonnet / Opus2024.03视觉理解、图表/文档分析正式进入 Claude 3 系列Anthropic
Claude 3.5 Sonnet v12024.06视觉推理显著增强;更强编码与文档理解Anthropic
Claude 3.5 Sonnet v22024.10与新 Computer Use 同步推进;更强多模态 agent 能力Anthropic
Claude 3.5 Haiku2024.10更轻量、更快;保留视觉输入能力Anthropic
Claude 3.7 Sonnet2025.02混合推理;extended thinking + 视觉输入Anthropic API Release Notes
Claude Sonnet 4.52025.094.x 主力;coding / agents / computer use 大幅增强Anthropic
Claude Haiku 4.52025.10轻量快速;仍属于 Claude 4.5 多模态家族System Cards
Claude Opus 4.52025.11高端混合推理模型;更强 coding 与 agentsTransparency Hub
Claude Sonnet 4.62026.02最新 Sonnet;1M context beta,computer use / coding / planning 全面增强Anthropic
Claude Opus 4.62026.02当前最强 Claude;混合推理、1M context、企业级 agent 能力Anthropic

Meta

模型时间关键特性链接
Segment Anything (SAM)2023.04视觉基础模型;零样本分割arXiv:2304.02643
ImageBind2023.05六模态统一嵌入空间arXiv:2305.05665
Imagine with Meta AI2023.12Meta AI 图像生成功能;独立 web 体验与水印机制推进Meta
Llama 3.2 Vision 11B / 90B2024.09首个 Meta 原生多模态开放权重 VLMMeta AI
Llama 4 Scout / Maverick2025.04原生多模态 MoE;超长上下文Meta AI

Microsoft

模型时间关键特性链接
Florence2021大一统视觉基础模型arXiv:2111.11432
BEiT-32022图像作为外语;统一 Masked ModelingarXiv:2208.10442
Kosmos-12023.02大型多模态语言模型;图文交错 ICLarXiv:2302.14045
Kosmos-22023.06增加 Grounding 能力arXiv:2306.14824
Phi-3-Vision2024.044.2B 高效 VLM;边缘部署友好arXiv:2404.14219
Florence-22024统一视觉理解与定位基础模型arXiv:2311.06242
Phi-4 Multimodal2025.03文/图/音统一;小参数高能力arXiv:2503.01743

Alibaba(阿里)

模型时间关键特性链接
OFA2022Seq2Seq 统一多任务框架arXiv:2202.03052
Qwen-VL2023.08双语 OCR、Grounding、多图输入arXiv:2308.12966
Qwen2-VL 2B / 8B / 72B2024.09动态分辨率、M-RoPE;强化图像/视频理解arXiv:2409.12191
Qwen2.5-VL 3B / 7B / 72B2025.02视频理解、GUI、文档理解全面增强arXiv:2502.13923
Qwen2.5-Omni2025.03端到端 omni 模型;统一文/图/音/视频Qwen
Qwen-Image2025.0820B MMDiT 图像基础模型;原生文本渲染、精细编辑Qwen
Qwen3-VL2025.09新一代 VLM;更强布局/时空建模与视频理解Transformers Docs
Qwen3-VL-Thinking2025.09Qwen3-VL 的 Thinking 变体Transformers Docs
Qwen3-Max2026.01(当前稳定版)长上下文;thinking / non-thinking 双模式Alibaba Cloud
Qwen3-Omni-Flash(API)2025.12多模态 omni API 模型;支持 realtime 场景Alibaba Cloud

XAI

模型时间关键特性链接
Grok 32025.02reasoning agents beta;含 Grok 3 (Think) / Grok 3 mini (Think)xAI
Grok 4.12025.11更强可用性、风格一致性、帮助性与推理能力xAI
Grok 4.1 Thinking(更准确说法:4.1 的 reasoning 模式)2025.11推理模式;更适合复杂任务,但更像模式而非独立基础模型xAI
Aurora2024.12xAI 图像生成器;最早可稳妥确认的官方提及在 2024-12-12xAI

DeepSeek(深度求索)

模型时间关键特性链接
DeepSeek-VL 1.3B / 7B2024.03混合视觉编码;语言优先训练arXiv:2403.05525
DeepSeek-VL22024.12MoE 架构;动态 Tiling;OCR / 文档能力增强arXiv:2412.10302
Janus2024.10统一理解与生成的自回归框架arXiv:2410.13848
Janus-Pro2025.01文生图能力增强;解耦视觉编码arXiv:2501.17811
DeepSeek-V3.2(non-thinking / thinking)2025.12reasoning-first;tool-use 中集成 thinking;App / Web / API / 开源同步DeepSeek API Docs
DeepSeek-V3.2-Speciale2025.12更强极限推理;API-only 临时开放;无 tool callsDeepSeek API Docs

上海 AI Lab / OpenGVLab(中国)

模型时间关键特性链接
InternLM-XComposer2023长文图文创作,互动写作arXiv:2309.15112
InternVL 1.02023.12InternViT-6B,通用视觉基础arXiv:2312.14238
InternVL 1.52024.04DHR 高分辨率,全面追平商业模型arXiv:2404.16821
InternVL3 8B~78B2025.04原生多模态预训练,开源 MMMU SOTAarXiv:2504.10479

其他重要机构

机构模型时间链接
SalesforceBLIP2022arXiv:2201.12086
SalesforceBLIP-22023arXiv:2301.12597
SalesforceInstructBLIP2023arXiv:2305.06500
Allen AIMolmo & PixMo2024.09arXiv:2409.17146
Mistral AIPixtral 12B2024.09arXiv:2410.07073
ByteDanceUI-TARS2025arXiv:2501.12326
Moonshot AIKimi-VL2025.01arXiv:2504.07491
OpenBMB/清华MiniCPM-V2024arXiv:2408.01800

核心评测基准

基准发布时间评测内容参考链接
VQAv22019视觉问答(通用)arXiv:1612.00837
TextVQA2019OCR+问答arXiv:1904.08920
GQA2019组合推理 VQAarXiv:1902.09506
NoCaps2019开放域图像描述arXiv:1812.08658
MMBench2023综合多维度多模态评测arXiv:2307.06281
MMMU2023大学级多学科多图题arXiv:2311.16502
MathVista2023数学视觉推理arXiv:2310.02255
MMStar2024去污染多模态评测arXiv:2403.20330
OCRBench2023OCR 综合评测(1000分)arXiv:2305.07895
DocVQA2020文档视觉问答arXiv:2007.00398
ChartQA2022图表问答arXiv:2203.10244
Video-MME2024长视频多模态理解arXiv:2405.21075
HallusionBench2024幻觉诊断arXiv:2310.14566
POPE2023目标幻觉评测arXiv:2305.10355

技术演进脉络

视觉编码器演进

CNN Region Features(2019以前)
    ↓
CLIP ViT(2021)—— 对比预训练的通用视觉编码器
    ↓
EVA / InternViT-6B(2022~2023)—— 更大更强的视觉基础模型
    ↓
SigLIP(2023,Google)—— 更高效的对比预训练
    ↓
动态高分辨率(DHR / Any-Resolution)—— InternVL1.5、LLaVA-NeXT(2024)
    ↓
原生多模态联合预训练 —— Gemini 2.0、InternVL3(2024~2025)

视觉-语言桥接架构演进

跨模态注意力融合(OSCAR、ViLBERT,2020)
    ↓
对比双塔(CLIP / ALIGN,2021)
    ↓
统一 Transformer(ViLT,2021)
    ↓
轻量桥接模块 Q-Former(BLIP-2,2023)
    ↓
MLP 线性投影(LLaVA,2023)——简单而有效
    ↓
Perceiver Resampler(Flamingo,2022)/ Visual Expert(CogVLM,2023)
    ↓
原生统一端到端(Gemini、GPT-4o,2024)

训练范式演进

对比预训练(2021)
    ↓
图文预训练 + 任务微调(2022)
    ↓
指令微调(Instruction Tuning)(2023)
    ↓
RLHF / DPO 对齐(2023~2024)
    ↓
强化学习推理(GRPO / MPO)(2024~2025)
    ↓
测试时扩展(Test-Time Scaling / CoT)(2025)

能力边界扩展

图像描述 / 图文检索(2021~2022)
    ↓
视觉问答 / 多图对话(2022~2023)
    ↓
OCR / 文档理解 / 图表分析(2023~2024)
    ↓
视频理解 / 长视频分析(2024)
    ↓
GUI Agent / Computer Use(2024~2025)
    ↓
多模态数学推理 / 科学推理(2025)
    ↓
端侧高效部署(2024~2025)

总结

五年核心趋势

  1. 规模定律全面验证:从 CLIP 的 4 亿对到 Gemini 的万亿级数据,规模依然是性能的核心驱动力,但”数据质量 × 架构效率 × 算法创新”的重要性日益凸显。

  2. LLM 融合取代独立 VLM:2023 年后几乎所有主流 VLM 都以强大 LLM(LLaMA、Qwen、Vicuna 等)为语言核心,VLM 研究重心从”如何预训练图文模型”转向”如何高效对接视觉与语言”。

  3. 开源追赶商业闭源:2023 年 GPT-4V 发布时,开源模型与之差距巨大;至 2025 年初,Qwen2.5-VL-72B、InternVL3-78B 等开源模型已在多数基准与 GPT-4o 持平甚至超越。

  4. 高分辨率感知成标配:从固定 224×224 到任意分辨率动态切块(DHR),高分辨率输入是 2024 年最重要的技术进步之一,直接决定 OCR、文档、细节识别能力。

  5. 推理能力引入视觉域:2024 年末至 2025 年,以 QwQ-72B、Kimi-VL-Thinking 为代表,将 LLM 推理链(CoT)、强化学习(GRPO)引入视觉推理,多模态数学和科学问题能力大幅提升。

  6. 多模态 Agent 快速崛起:Computer Use(Anthropic)、GUI-Agent(ByteDance UI-TARS)等让 VLM 从”看图说话”进化为”看图行动”,VLA(视觉语言动作模型)成为机器人/自动化的新前沿。

  7. 端侧与高效部署需求爆发:MiniCPM-V、Phi-4 Multimodal、DeepSeek-VL2-Tiny 等面向边缘设备的高效 VLM 快速增长,推动 VLM 从云端向本地迁移。

未来研究方向(截至 2026.03 展望)

  • 多模态原生预训练:进一步突破图像+视频+音频+3D 数据的联合原生训练
  • 视觉推理能力增强:Test-Time Compute 扩展、思维链视觉推理
  • 长视频理解:千帧以上视频的高效感知与推理
  • 幻觉与可信度:大幅降低视觉幻觉,提升事实一致性
  • 多模态智能体:真实世界中的计算机操控、机器人操控等
  • 多语言与文化多样性:中英文外更多语种的多模态理解
  • 超高效轻量模型:1B 以下参数仍具备强大视觉理解能力