LLM multimodaux

Les grands modèles de langage multimodaux (en anglais Multimodal Large Language Models, MLLM) sont une classe de modèles d'intelligence artificielle capables de traiter et de générer des informations dans diverses modalités, notamment le texte, les images, l'audio et la vidéo^[1]. Contrairement aux modèles de langage unimodaux qui fonctionnent exclusivement avec du texte, les MLLM intègrent des informations provenant de différentes sources pour résoudre des tâches complexes de compréhension et de génération de contenu.

Le concept fondamental des MLLM réside dans la création d'une représentation vectorielle unifiée (embedding) pour différentes modalités. Cela permet au modèle d'établir des liens sémantiques entre, par exemple, une image et sa description textuelle^[2]. L'avancée majeure qui a jeté les bases des MLLM modernes a été l'utilisation de l'apprentissage contrastif pour aligner les représentations visuelles et textuelles dans un espace de caractéristiques commun, comme cela a été mis en œuvre dans le modèle CLIP^[3].

Historique du développement

Débuts (2013–2020)

Les fondements conceptuels de l'IA multimodale ont été posés en 2013, lorsque des chercheurs de Stanford ont démontré la possibilité de l'apprentissage zero-shot (zero-shot learning) en utilisant des représentations vectorielles de mots^[4]. En 2016, l'équipe de FAIR (Meta AI) a montré l'efficacité de l'utilisation de descriptions en langage naturel pour entraîner des modèles de vision par ordinateur, atteignant une précision de 11,5 % sur ImageNet sans entraînement direct^[5].

L'ère de CLIP (2021)

Le lancement du modèle CLIP (Contrastive Language-Image Pre-training) par OpenAI en janvier 2021 a marqué un tournant révolutionnaire. Le modèle, entraîné sur 400 millions de paires image-texte, a démontré sa capacité à classifier des images sans entraînement spécialisé sur des tâches spécifiques. CLIP est devenu la base de nombreux MLLM ultérieurs^[6].

Mise à l'échelle et innovations (2022–2024)

Après le succès de CLIP, de nombreux modèles clés ont vu le jour :

Flamingo (DeepMind, 2022) — un modèle de 80 milliards de paramètres qui a démontré des capacités exceptionnelles d'apprentissage avec peu d'exemples (few-shot learning).
BLIP (Salesforce, 2022) — une architecture unifiée pour la compréhension et la génération.
GPT-4V (OpenAI, 2023) — le premier modèle multimodal commercial de cette envergure.
LLaVA (Microsoft, 2023) — une alternative open source populaire à GPT-4V.
Gemini (Google, 2023) — une architecture nativement multimodale, conçue dès le départ pour fonctionner avec différents types de données.
GPT-4o (OpenAI, 2024) — un modèle capable de traiter le texte, l'audio et la vidéo en temps réel avec une faible latence^[1].
Claude 3.5 Sonnet (Anthropic, 2024) — un modèle doté de capacités améliorées pour l'analyse d'informations visuelles.

Approches architecturales

Architecture à double encodeur (Dual-Encoder)

Cette approche utilise des encodeurs distincts pour chaque modalité, qui projettent les données dans un espace de représentation commun. Un exemple marquant est CLIP, où un transformeur visuel traite les images et un transformeur textuel traite les données linguistiques. Les avantages sont la modularité et l'efficacité computationnelle, tandis que l'inconvénient est une interaction intermodale limitée^[7].

Architecture encodeur-décodeur

Un encodeur unique traite l'entrée multimodale, tandis qu'un décodeur génère la sortie textuelle. Le modèle Flamingo utilise un mécanisme de Perceiver Resampler pour traiter les entrées visuelles de longueur variable et des couches d'attention intermodale. Cette approche permet une riche interaction intermodale, mais elle est gourmande en ressources de calcul^[8].

Architecture d'alignement (Alignment)

Cette approche utilise des encodeurs pré-entraînés et gelés, connectés par un petit module d'alignement entraînable. Par exemple, BLIP-2 utilise un Q-Former (Querying Transformer) comme un connecteur léger entre un encodeur visuel gelé et un modèle de langage, ce qui réduit considérablement le nombre de paramètres à entraîner^[9].

Modèles principaux

GPT-4V / GPT-4o (OpenAI)

La famille de modèles GPT-4 est estimée à 1,8 billion de paramètres (dans une architecture de mélange d'experts). Le modèle GPT-4o, lancé en mai 2024, prend en charge le traitement en temps réel du texte, des images, de l'audio et de la vidéo. Sur le benchmark MMMU, il atteint une précision de 69,1 %^[10].

Gemini (Google)

Une architecture nativement multimodale, entraînée dès le départ sur du texte, des images, de l'audio et de la vidéo. Gemini 1.5 Pro prend en charge une fenêtre de contexte allant jusqu'à 10 millions de tokens et surpasse GPT-4 sur 30 des 32 benchmarks populaires^[11].

Claude 3 (Anthropic)

Une famille de modèles (Haiku, Sonnet, Opus) avec une fenêtre de contexte allant jusqu'à 200 000 tokens. Claude 3 Opus atteint 58,5 % sur le benchmark MMMU. Pour améliorer la sécurité du modèle, l'approche de l'Constitutional AI est utilisée^[12].

LLaVA (modèle open source)

Combine l'encodeur visuel de CLIP avec le modèle de langage Vicuna. Des variantes avec 7, 13 et 34 milliards de paramètres sont disponibles. Le modèle atteint 85,1 % de la performance relative de GPT-4 sur des tâches synthétiques^[13].

Domaines d'application

Questions-réponses visuelles (VQA) : Permettent aux utilisateurs de poser des questions sur du contenu visuel.
Analyse de documents : Les MLLM modernes peuvent traiter jusqu'à 2000 pages par minute.
Imagerie médicale : Des modèles comme Med-PaLM M (Google) analysent des images médicales et des données cliniques.
Robotique : Des modèles comme RT-2 (Google DeepMind) permettent aux robots de comprendre leur environnement visuel et d'exécuter des commandes en langage naturel.

Limites actuelles

Hallucinations : Le taux d'hallucination dans le contenu généré est estimé entre 27 et 46 %. Les modèles peuvent décrire des objets inexistants ou interpréter de manière erronée des informations visuelles^[14].
Exigences de calcul élevées : L'entraînement et l'utilisation des MLLM nécessitent une infrastructure de calcul considérable.
Biais dans les données : Une représentation insuffisante de certains groupes démographiques, langues et cultures dans les données d'entraînement conduit à des erreurs systématiques.

Liens

Bibliographie

Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020.
Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
Li, J. et al. (2022). BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086.
Li, J. et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597.
Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485.
Driess, K. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arXiv:2311.16502.
Tsimpoukelli, M. et al. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884.
Singhal, K. et al. (2023). Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
Yin, S. et al. (2023). A Survey on Multimodal Large Language Models. arXiv:2306.13549.

Références

↑ ^1.0 ^1.1 «A Comprehensive Guide to Multimodal LLMs». Encord Blog. [1]
↑ «A Survey on Multimodal Large Language Models». ACM Computing Surveys. [2]
↑ Radford, A., et al. «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. [3]
↑ DeOldify, J. «Zero-Shot Learning by Predicting Attributes». arXiv:1312.5650. [4]
↑ «Learning from captions: A milestone in visual language understanding». OpenAI Blog. [5]
↑ «Understanding CLIP». Stanford CS231n. [6]
↑ «Multimodal LLMs: The Complete Guide». Viso.ai. [7]
↑ «The Architectures of Multimodal Language Models». Determined AI. [8]
↑ «Understanding BLIP-2: The New Vision-Language Model». Clarifai Blog. [9]
↑ «MMMU: A New Benchmark for Multimodal LLMs». Encord Blog. [10]
↑ «Google Gemini: A Deep Dive». DaveAI Blog. [11]
↑ «Introducing the Claude 3 Family». Anthropic. [12]
↑ Liu, H., et al. «Visual Instruction Tuning». arXiv:2304.08485. [13]
↑ «Hallucinations in Multimodal Large Language Models». arXiv:2308.08726. [14]

[encord_intro-1] 1.0 ^1.1 «A Comprehensive Guide to Multimodal LLMs». Encord Blog. [1]

[acm_survey-2] «A Survey on Multimodal Large Language Models». ACM Computing Surveys. [2]

[radford2021-3] Radford, A., et al. «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. [3]

[deoldify2013-4] DeOldify, J. «Zero-Shot Learning by Predicting Attributes». arXiv:1312.5650. [4]

[openai_fair_2016-5] «Learning from captions: A milestone in visual language understanding». OpenAI Blog. [5]

[stanford_cs_clip-6] «Understanding CLIP». Stanford CS231n. [6]

[viso_ai_mllm-7] «Multimodal LLMs: The Complete Guide». Viso.ai. [7]

[determined_ai_arch-8] «The Architectures of Multimodal Language Models». Determined AI. [8]

[clarifai_blip2-9] «Understanding BLIP-2: The New Vision-Language Model». Clarifai Blog. [9]

[encord_mmmu_perf-10] «MMMU: A New Benchmark for Multimodal LLMs». Encord Blog. [10]

[daveai_gemini-11] «Google Gemini: A Deep Dive». DaveAI Blog. [11]

[anthropic_claude3-12] «Introducing the Claude 3 Family». Anthropic. [12]

[llava_paper-13] Liu, H., et al. «Visual Instruction Tuning». arXiv:2304.08485. [13]

[arxiv_hallucinations-14] «Hallucinations in Multimodal Large Language Models». arXiv:2308.08726. [14]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

LLM multimodaux

Contents

Historique du développement

Débuts (2013–2020)

L'ère de CLIP (2021)

Mise à l'échelle et innovations (2022–2024)

Approches architecturales

Architecture à double encodeur (Dual-Encoder)

Architecture encodeur-décodeur

Architecture d'alignement (Alignment)

Modèles principaux

GPT-4V / GPT-4o (OpenAI)

Gemini (Google)

Claude 3 (Anthropic)

LLaVA (modèle open source)

Domaines d'application

Limites actuelles

Liens

Bibliographie

Références

Navigation menu

LLM multimodaux

Historique du développement

Débuts (2013–2020)

L'ère de CLIP (2021)

Mise à l'échelle et innovations (2022–2024)

Approches architecturales

Architecture à double encodeur (Dual-Encoder)

Architecture encodeur-décodeur

Architecture d'alignement (Alignment)

Modèles principaux

GPT-4V / GPT-4o (OpenAI)

Gemini (Google)

Claude 3 (Anthropic)

LLaVA (modèle open source)

Domaines d'application

Limites actuelles

Liens

Bibliographie

Références

Navigation menu

Search