Multimodal large language models — 多模态大语言模型

多模态大语言模型（英文：Multimodal Large Language Models, MLLMs）是一类人工智能模型，能够处理和生成多种模态的信息，包括文本、图像、音频和视频^[1]。与仅处理文本的单模态语言模型不同，MLLM 集成来自不同来源的信息，以解决复杂的理解和内容生成任务。

MLLM 的核心概念是为不同模态创建统一的向量表示（embedding）。这使得模型能够在例如图像与其文本描述之间建立语义联系^[2]。为现代 MLLM 奠定基础的关键突破是使用对比学习（contrastive learning）来对齐共享特征空间中的视觉和文本表示，正如在 CLIP 模型中实现的那样^[3]。

发展历史

早期阶段 (2013–2020)

多模态 AI 的概念基础于 2013 年奠定，当时斯坦福大学的研究人员展示了利用词向量表示进行零样本学习（zero-shot learning）的可能性^[4]。2016年，FAIR (Meta AI) 团队展示了使用自然语言描述来训练计算机视觉模型的有效性，在没有直接训练的情况下，在 ImageNet 上达到了 11.5% 的准确率^[5]。

CLIP 时代 (2021)

革命性的时刻是 OpenAI 公司于 2021 年 1 月发布了 CLIP（Contrastive Language-Image Pre-training）模型。该模型在 4 亿个图像-文本对上进行训练，展示了在没有针对特定任务进行专门训练的情况下对图像进行分类的能力。CLIP 成为了许多后续 MLLM 的基础^[6]。

规模化与创新 (2022–2024)

在 CLIP 成功之后，出现了许多关键模型：

Flamingo (DeepMind, 2022) — 一个 800 亿参数的模型，展示了出色的小样本学习（few-shot learning）能力。
BLIP (Salesforce, 2022) — 一种用于理解和生成的统一架构。
GPT-4V (OpenAI, 2023) — 首个如此规模的商业化多模态模型。
LLaVA (Microsoft, 2023) — GPT-4V 的一个流行的开源替代品。
Gemini (Google, 2023) — 一种原生多模态架构，从一开始就为处理不同类型的数据而设计。
GPT-4o (OpenAI, 2024) — 一个能够以低延迟实时处理文本、音频和视频的模型^[1]。
Claude 3.5 Sonnet (Anthropic, 2024) — 一个在视觉信息分析能力上有所增强的模型。

架构方法

Dual-Encoder architecture - 双编码器架构

该架构为每种模态使用独立的编码器，将数据投影到共享的表示空间中。一个典型的例子是 CLIP，其中视觉 Transformer 处理图像，而文本 Transformer 处理语言数据。其优点是模块化和计算效率高，缺点是跨模态交互有限^[7]。

Encoder-decoder architecture - 编码器-解码器架构

单个编码器处理多模态输入，而解码器生成文本输出。Flamingo 模型使用 Perceiver Resampler 机制来处理可变长度的视觉输入，并采用跨模态注意力层。这种方法提供了丰富的跨模态交互，但需要大量的计算资源^[8]。

Alignment architecture - 对齐架构

这种方法使用冻结的预训练编码器，通过一个小的可训练对齐模块连接起来。例如，BLIP-2 使用 Q-Former (Querying Transformer) 作为一个轻量级连接模块，连接冻结的视觉编码器和语言模型，从而需要训练的参数要少得多^[9]。

主要模型

GPT-4V / GPT-4o (OpenAI)

据估计，GPT-4 系列模型（采用混合专家架构）拥有多达 1.8 万亿 个参数。于 2024 年 5 月发布的 GPT-4o 模型支持实时处理文本、图像、音频和视频。在 MMMU 基准测试中，它达到了 69.1% 的准确率^[10]。

Gemini (Google)

一种原生多模态架构，从零开始在文本、图像、音频和视频数据上进行训练。Gemini 1.5 Pro 支持高达 1000 万个 token 的上下文窗口，并在 32 个流行基准测试中的 30 个上超越了 GPT-4^[11]。

Claude 3 (Anthropic)

该模型家族（Haiku、Sonnet、Opus）的上下文窗口高达 200,000 个 token。Claude 3 Opus 在 MMMU 基准测试中取得了 58.5% 的成绩。为提高模型的安全性，采用了 Constitutional AI 的方法^[12]。

LLaVA (开源模型)

它结合了 CLIP 视觉编码器和 Vicuna 语言模型。提供了 70 亿、130 亿和 340 亿参数的版本。在合成任务上，该模型的相对性能达到了 GPT-4 的 85.1%^[13]。

应用领域

视觉问答 (VQA): 允许用户就视觉内容提问。
文档分析: 现代 MLLM 每分钟能够处理多达 2000 页文档。
医学影像: 诸如 Med-PaLM M (Google) 等模型可用于分析医学图像和临床数据。
机器人技术: 像 RT-2 (Google DeepMind) 这样的模型使机器人能够理解视觉环境并执行自然语言指令。

当前的局限性

幻觉: 生成内容中的幻觉水平估计在 27–46% 之间。模型可能会描述不存在的物体或错误地解释视觉信息^[14]。
高计算要求: MLLM 的训练和使用需要庞大的计算基础设施。
数据偏见: 训练数据中人口群体、语言和文化的代表性不足会导致系统性错误。

链接

参考文献

Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020.
Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
Li, J. et al. (2022). BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086.
Li, J. et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597.
Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485.
Driess, K. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arXiv:2311.16502.
Tsimpoukelli, M. et al. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884.
Singhal, K. et al. (2023). Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
Yin, S. et al. (2023). A Survey on Multimodal Large Language Models. arXiv:2306.13549.

注释

↑ ^1.0 ^1.1 “A Comprehensive Guide to Multimodal LLMs”. Encord Blog. [1]
↑ “A Survey on Multimodal Large Language Models”. ACM Computing Surveys. [2]
↑ Radford, A., et al. “Learning Transferable Visual Models From Natural Language Supervision”. arXiv:2103.00020. [3]
↑ DeOldify, J. “Zero-Shot Learning by Predicting Attributes”. arXiv:1312.5650. [4]
↑ “Learning from captions: A milestone in visual language understanding”. OpenAI Blog. [5]
↑ “Understanding CLIP”. Stanford CS231n. [6]
↑ “Multimodal LLMs: The Complete Guide”. Viso.ai. [7]
↑ “The Architectures of Multimodal Language Models”. Determined AI. [8]
↑ “Understanding BLIP-2: The New Vision-Language Model”. Clarifai Blog. [9]
↑ “MMMU: A New Benchmark for Multimodal LLMs”. Encord Blog. [10]
↑ “Google Gemini: A Deep Dive”. DaveAI Blog. [11]
↑ “Introducing the Claude 3 Family”. Anthropic. [12]
↑ Liu, H., et al. “Visual Instruction Tuning”. arXiv:2304.08485. [13]
↑ “Hallucinations in Multimodal Large Language Models”. arXiv:2308.08726. [14]

[encord_intro-1] 1.0 ^1.1 “A Comprehensive Guide to Multimodal LLMs”. Encord Blog. [1]

[acm_survey-2] “A Survey on Multimodal Large Language Models”. ACM Computing Surveys. [2]

[radford2021-3] Radford, A., et al. “Learning Transferable Visual Models From Natural Language Supervision”. arXiv:2103.00020. [3]

[deoldify2013-4] DeOldify, J. “Zero-Shot Learning by Predicting Attributes”. arXiv:1312.5650. [4]

[openai_fair_2016-5] “Learning from captions: A milestone in visual language understanding”. OpenAI Blog. [5]

[stanford_cs_clip-6] “Understanding CLIP”. Stanford CS231n. [6]

[viso_ai_mllm-7] “Multimodal LLMs: The Complete Guide”. Viso.ai. [7]

[determined_ai_arch-8] “The Architectures of Multimodal Language Models”. Determined AI. [8]

[clarifai_blip2-9] “Understanding BLIP-2: The New Vision-Language Model”. Clarifai Blog. [9]

[encord_mmmu_perf-10] “MMMU: A New Benchmark for Multimodal LLMs”. Encord Blog. [10]

[daveai_gemini-11] “Google Gemini: A Deep Dive”. DaveAI Blog. [11]

[anthropic_claude3-12] “Introducing the Claude 3 Family”. Anthropic. [12]

[llava_paper-13] Liu, H., et al. “Visual Instruction Tuning”. arXiv:2304.08485. [13]

[arxiv_hallucinations-14] “Hallucinations in Multimodal Large Language Models”. arXiv:2308.08726. [14]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Multimodal large language models — 多模态大语言模型

Contents

发展历史

早期阶段 (2013–2020)

CLIP 时代 (2021)

规模化与创新 (2022–2024)

架构方法

Dual-Encoder architecture - 双编码器架构

Encoder-decoder architecture - 编码器-解码器架构

Alignment architecture - 对齐架构

主要模型

GPT-4V / GPT-4o (OpenAI)

Gemini (Google)

Claude 3 (Anthropic)

LLaVA (开源模型)

应用领域

当前的局限性

链接

参考文献

注释

Navigation menu

Multimodal large language models — 多模态大语言模型

发展历史

早期阶段 (2013–2020)

CLIP 时代 (2021)

规模化与创新 (2022–2024)

架构方法

Dual-Encoder architecture - 双编码器架构

Encoder-decoder architecture - 编码器-解码器架构

Alignment architecture - 对齐架构

主要模型

GPT-4V / GPT-4o (OpenAI)

Gemini (Google)

Claude 3 (Anthropic)

LLaVA (开源模型)

应用领域

当前的局限性

链接

参考文献

注释

Navigation menu

Search