Multimodal large language models — マルチモーダルLLM
マルチモーダル大規模言語モデル(英語: Multimodal Large Language Models, MLLMs)は、テキスト、画像、音声、動画など、さまざまなモダリティの情報を処理・生成できる人工知能モデルの一種です[1]。テキストのみを扱うユニモーダルな言語モデルとは異なり、MLLMは複数の情報源からの情報を統合し、コンテンツの理解と生成という複雑なタスクを解決します。
MLLMの基本概念は、異なるモダリティに対して単一のベクトル表現(埋め込み)を生成することにあります。これにより、モデルは例えば画像とそのテキスト記述との間に意味的な関連性を確立できます[2]。現代のMLLMの基礎を築いた重要なブレークスルーは、モデルCLIPで実現されたように、対照学習を用いて視覚的表現とテキスト表現を共通の特徴空間で整列(アライメント)させる手法でした[3]。
発展の歴史
初期(2013年~2020年)
マルチモーダルAIの概念的基礎は2013年に築かれました。スタンフォード大学の研究者らが、単語のベクトル表現を用いてゼロショット学習(zero-shot learning)の可能性を実証したのです[4]。2016年には、FAIR(Meta AI)のチームが、コンピュータービジョンモデルの学習に自然言語記述を用いる有効性を示し、直接的な学習なしでImageNetにおいて11.5%の精度を達成しました[5]。
CLIP Era (2021) - CLIPの時代(2021年)
革命的な出来事となったのは、2021年1月にOpenAIが発表したモデルCLIP(Contrastive Language-Image Pre-training)でした。4億組の画像とテキストのペアで学習されたこのモデルは、特定のタスクに特化した学習なしで画像を分類する能力を実証しました。CLIPは、その後の多くのMLLMの基礎となりました[6]。
スケールアップと技術革新(2022年~2024年)
CLIPの成功後、多くの主要なモデルが登場しました。
- Flamingo(DeepMind、2022年) — 800億パラメータのモデルで、少数ショット学習において卓越した能力を示しました。
- BLIP(Salesforce、2022年) — 理解と生成のための統一アーキテクチャ。
- GPT-4V(OpenAI、2023年) — この規模で初の商用マルチモーダルモデル。
- LLaVA(Microsoft、2023年) — GPT-4Vに代わる人気のオープンソースモデル。
- Gemini(Google、2023年) — 当初から多様なデータタイプを扱うように設計されたネイティブなマルチモーダルアーキテクチャ。
- GPT-4o(OpenAI、2024年) — テキスト、音声、動画を低遅延でリアルタイムに処理できるモデル[1]。
- Claude 3.5 Sonnet(Anthropic、2024年) — 視覚情報分析能力が向上したモデル。
アーキテクチャのアプローチ
Dual-Encoder Architecture - デュアルエンコーダアーキテクチャ
各モダリティに個別のエンコーダを使用し、データを共通の表現空間に射影します。代表例はCLIPで、ビジョントランスフォーマーが画像を、テキストトランスフォーマーが言語データを処理します。利点はモジュール性と計算効率の高さですが、欠点はクロスモーダルな相互作用が限定的であることです[7]。
Encoder-Decoder Architecture - エンコーダ・デコーダアーキテクチャ
単一のエンコーダがマルチモーダルな入力を処理し、デコーダがテキスト出力を生成します。Flamingoモデルは、可変長の視覚入力を処理するためにPerceiver Resamplerメカニズムとクロスモーダルなアテンション層を利用します。このアプローチは豊かなモダリティ間の相互作用を提供しますが、多大な計算リソースを必要とします[8]。
Alignment Architecture - アライメントアーキテクチャ
このアプローチでは、凍結された事前学習済みエンコーダを、学習可能な小さなアライメントモジュールを介して接続します。例えば、BLIP-2は、凍結されたビジョンエンコーダと言語モデルの間の軽量な橋渡し役としてQ-Former(Querying Transformer)を使用し、学習対象のパラメータ数を大幅に削減しています[9]。
主なモデル
GPT-4V / GPT-4o (OpenAI)
GPT-4モデルファミリーは、専門家混合(MoE)アーキテクチャにおいて、推定で最大1.8兆個のパラメータを持つとされています。2024年5月にリリースされたGPT-4oモデルは、テキスト、画像、音声、動画のリアルタイム処理をサポートしています。MMMUベンチマークでは69.1%の精度を達成しました[10]。
Gemini (Google)
テキスト、画像、音声、動画を用いてゼロから学習されたネイティブなマルチモーダルアーキテクチャです。Gemini 1.5 Proは最大1000万トークンのコンテキストウィンドウをサポートし、32の主要なベンチマークのうち30でGPT-4を上回っています[11]。
Claude 3 (Anthropic)
最大20万トークンのコンテキストウィンドウを持つモデルファミリー(Haiku、Sonnet、Opus)です。Claude 3 OpusはMMMUベンチマークで58.5%のスコアを記録しています。モデルの安全性を高めるためにConstitutional AIのアプローチが用いられています[12]。
LLaVA (Open Model) - LLaVA (オープンソースモデル)
CLIPビジョンエンコーダとVicuna言語モデルを組み合わせています。70億、130億、340億パラメータのバリエーションが利用可能です。このモデルは、合成タスクにおいてGPT-4の相対性能の85.1%を達成しています[13]。
応用分野
- 視覚的質問応答 (VQA): ユーザーが視覚コンテンツについて質問することを可能にします。
- 文書分析: 最新のMLLMは、1分間に最大2000ページを処理できます。
- 医療画像診断: Med-PaLM M(Google)などのモデルは、医療画像や臨床データを分析します。
- ロボティクス: RT-2(Google DeepMind)のようなモデルは、ロボットが視覚環境を理解し、自然言語のコマンドを実行することを可能にします。
現在の課題
- ハルシネーション: 生成されるコンテンツにおけるハルシネーションの発生率は27~46%と推定されています。モデルは存在しない物体を記述したり、視覚情報を誤って解釈したりすることがあります[14]。
- 高い計算要件: MLLMの学習と利用には、大規模な計算インフラが必要です。
- データのバイアス: 学習データにおける人口統計学的グループ、言語、文化の表現が不十分であるため、体系的なエラーが生じます。
関連リンク
- A Comprehensive Guide to Multimodal LLMs (Encord Blog)
- Multimodal LLMs: The Complete Guide (Viso.ai)
参考文献
- Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020.
- Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
- Li, J. et al. (2022). BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086.
- Li, J. et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597.
- Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485.
- Driess, K. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
- Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
- Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arXiv:2311.16502.
- Tsimpoukelli, M. et al. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884.
- Singhal, K. et al. (2023). Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
- Yin, S. et al. (2023). A Survey on Multimodal Large Language Models. arXiv:2306.13549.
脚注
- ↑ 1.0 1.1 “A Comprehensive Guide to Multimodal LLMs”. Encord Blog. [1]
- ↑ “A Survey on Multimodal Large Language Models”. ACM Computing Surveys. [2]
- ↑ Radford, A., et al. “Learning Transferable Visual Models From Natural Language Supervision”. arXiv:2103.00020. [3]
- ↑ DeOldify, J. “Zero-Shot Learning by Predicting Attributes”. arXiv:1312.5650. [4]
- ↑ “Learning from captions: A milestone in visual language understanding”. OpenAI Blog. [5]
- ↑ “Understanding CLIP”. Stanford CS231n. [6]
- ↑ “Multimodal LLMs: The Complete Guide”. Viso.ai. [7]
- ↑ “The Architectures of Multimodal Language Models”. Determined AI. [8]
- ↑ “Understanding BLIP-2: The New Vision-Language Model”. Clarifai Blog. [9]
- ↑ “MMMU: A New Benchmark for Multimodal LLMs”. Encord Blog. [10]
- ↑ “Google Gemini: A Deep Dive”. DaveAI Blog. [11]
- ↑ “Introducing the Claude 3 Family”. Anthropic. [12]
- ↑ Liu, H., et al. “Visual Instruction Tuning”. arXiv:2304.08485. [13]
- ↑ “Hallucinations in Multimodal Large Language Models”. arXiv:2308.08726. [14]