Grands modèles de langage de Google

From Systems analysis wiki
Jump to navigation Jump to search

Les grands modèles de langage de Google sont une série de grands modèles de langage (LLM) développés par diverses divisions de Google, notamment Google AI (anciennement Google Brain) et DeepMind. En tant que l'un des pionniers dans le domaine de l'apprentissage profond et de l'architecture Transformer, Google a apporté des contributions fondamentales au développement des LLM modernes. L'histoire du développement de ces modèles retrace le parcours depuis les systèmes spécialisés de compréhension du langage jusqu'aux systèmes multimodaux et agentifs à grande échelle, qui sont à la base de nombreux produits Google et définissent la trajectoire de l'ensemble de l'industrie de l'IA.

Histoire et évolution des modèles de Google

Premières avancées et traduction automatique neuronale (2011-2016)

Les bases du développement des LLM chez Google ont été posées dans le cadre du projet Google Brain (2011), dédié à l'application des réseaux de neurones profonds. L'une des premières percées fut l'algorithme Word2Vec (2013), créé par Tomas Mikolov. Il a permis de représenter les mots sous forme de vecteurs (embeddings) reflétant leur contexte sémantique, ce qui est devenu une méthode fondamentale pour la compréhension du langage par les réseaux de neurones.

L'étape suivante a été la transition vers des modèles de séquences, tels que seq2seq (2014), qui ont servi de base au Google Neural Machine Translation (GNMT) (2016). La migration de Google Traduction vers une architecture neuronale basée sur les LSTM a considérablement amélioré la qualité de la traduction automatique. Parallèlement, la filiale DeepMind, acquise par Google en 2014, a démontré la puissance de l'apprentissage profond avec la victoire du système AlphaGo sur le champion du monde de go, renforçant ainsi la confiance dans le potentiel de l'IA.

La révolution du Transformer et la naissance de BERT (2017-2018)

En 2017, les chercheurs de Google Brain ont présenté l'architecture Transformer dans l'article « Attention Is All You Need ». Cette architecture, basée sur le mécanisme d' auto-attention (self-attention), a permis de traiter les séquences en parallèle plutôt que séquentiellement, ce qui a constitué une révolution dans le domaine du TALN et la base de tous les LLM modernes.

Dans la foulée de ce succès, Google a présenté en 2018 le modèle BERT (Bidirectional Encoder Representations from Transformers). BERT a été le premier modèle profondément bidirectionnel, prenant en compte le contexte d'un mot à la fois à gauche et à droite. Cela lui a permis d'atteindre des résultats records sur de nombreuses tâches de compréhension du langage (GLUE, SQuAD) et d'établir un nouveau standard industriel. BERT a été publié en deux versions (BASE avec 110 millions de paramètres et LARGE avec 340 millions) avec son code et ses poids en open source, ce qui a favorisé sa diffusion massive. Depuis 2019, BERT est utilisé dans la recherche Google pour une meilleure compréhension des requêtes.

La montée en échelle et l'ère des modèles conversationnels (2019-2022)

Après BERT, Google a continué d'expérimenter avec l'échelle et l'architecture :

  • T5 (Text-to-Text Transfer Transformer, 2019) : Un modèle unifié qui traite toute tâche de TALN comme une transformation « texte-vers-texte ». Entraîné sur le gigantesque corpus C4 (Colossal Clean Crawled Corpus), T5 a également été publié en open source en plusieurs tailles (jusqu'à 11 milliards de paramètres).
  • Meena (2020) : Le premier modèle conversationnel spécialisé de Google, avec 2,6 milliards de paramètres, qui a démontré une haute qualité dans la conduite de dialogues ouverts.
  • LaMDA (Language Model for Dialogue Applications, 2021) : Une famille de modèles conversationnels (jusqu'à 137 milliards de paramètres), entraînés sur un immense corpus de dialogues (1,56 billion de mots). LaMDA visait à créer des conversations plus naturelles et significatives et est devenu célèbre auprès du grand public après qu'un ingénieur de Google a affirmé qu'il était « doué de conscience ».
  • Gopher et Chinchilla (DeepMind, 2021-2022) : Parallèlement, DeepMind explorait les lois de mise à l'échelle. Le modèle Gopher (280 milliards de paramètres) a montré comment l'échelle influence la qualité. Le modèle Chinchilla (70 milliards), quant à lui, a démontré que pour une performance optimale, l'important n'est pas le nombre maximal de paramètres, mais le bon équilibre entre la taille du modèle et le volume des données d'entraînement. Cette conclusion est devenue connue sous le nom de « loi de Chinchilla » et a influencé la stratégie d'entraînement des LLM dans toute l'industrie.

L'ère des modèles très grands et multimodaux (2022-aujourd'hui)

  • PaLM (Pathways Language Model, 2022) : Au moment de son annonce, le plus grand modèle dense de Google avec 540 milliards de paramètres, entraîné sur la nouvelle infrastructure distribuée Pathways. PaLM a démontré des capacités de raisonnement logique révolutionnaires, notamment avec la technique du prompting Chain-of-Thought (CoT). Des versions spécialisées ont été créées sur sa base, comme Med-PaLM pour la médecine. En 2023, une version améliorée, PaLM 2 (~340 milliards de paramètres), a été publiée et a servi de base au chatbot Bard mis à jour.
  • Gemini (2023-présent) : Une nouvelle génération de modèles créée par l'équipe unifiée de Google DeepMind. Gemini a été conçu dès le départ comme un système nativement multimodal, capable de traiter du texte, du code, des images, de l'audio et de la vidéo. Il est disponible en plusieurs versions :
    • Gemini Ultra : Le modèle le plus puissant pour les tâches complexes.
    • Gemini Pro : Un modèle polyvalent pour un large éventail de tâches.
    • Gemini Nano : Un modèle compact pour une exécution sur les appareils mobiles.

En 2024-2025, la famille a été étendue avec les versions Gemini 1.5 (avec une fenêtre de contexte allant jusqu'à 1 million de tokens) et Gemini 2.0, dotée de capacités agentives.

Architecture et caractéristiques techniques

Fondations : Encodeurs, décodeurs et hybrides

Google utilise différentes variantes de l'architecture Transformer en fonction de la tâche :

  • Encodeurs (Encoder-only) : Modèles de type BERT. Ils traitent l'intégralité du texte en une seule fois pour créer une riche représentation contextuelle. Idéaux pour les tâches d'analyse et de compréhension de texte (classification, extraction d'entités), mais pas pour la génération.
  • Décodeurs (Decoder-only) : Modèles de type LaMDA et PaLM (similaires à GPT). Ils sont autorégressifs, c'est-à-dire qu'ils prédisent le texte token par token. Ce sont des générateurs naturels, parfaitement adaptés à la complétion de texte, aux dialogues et aux réponses aux questions.
  • Encodeur-décodeur (Encoder-Decoder) : Modèles de type T5 et GNMT. Ils possèdent les deux parties : un encodeur traite la séquence d'entrée et un décodeur génère la séquence de sortie. C'est une architecture universelle pour les tâches de transformation, comme la traduction ou le résumé.

Mise à l'échelle : Paramètres, données et infrastructure

Le succès de Google dans le domaine des LLM est en grande partie dû à trois facteurs :

  1. Échelle des modèles : L'augmentation systématique du nombre de paramètres, passant de millions (BERT) à des centaines de milliards (PaLM, Gemini).
  2. Échelle des données : L'accès à l'un des plus grands corpus de données au monde (index web de Google, YouTube, Google Books), permettant d'entraîner des modèles sur des billions de tokens.
  3. Infrastructure : L'utilisation de puces spécialisées propriétaires — les Tensor Processing Units (TPU) — et du système distribué Pathways, qui permettent d'entraîner de très grands modèles de manière efficace et stable.

Multimodalité et agentivité

Les modèles les plus récents de Google, en particulier Gemini, s'orientent vers une multimodalité profonde et des capacités agentives.

  • La multimodalité native signifie qu'un seul modèle est entraîné dès le départ à comprendre et à combiner différents types de données (texte, images, audio), plutôt que de simplement connecter des modules distincts.
  • L' agentivité (Agentic AI) est la capacité d'un modèle non seulement à répondre à des requêtes, mais aussi à planifier et à exécuter de manière autonome une séquence d'actions pour atteindre un objectif (par exemple, appeler des outils externes comme un moteur de recherche ou une calculatrice).

Tableau récapitulatif des modèles clés

Comparaison des principaux modèles de langage de Google
Modèle Année de sortie Paramètres (estimation) Architecture Caractéristiques clés
BERT 2018 110-340 millions Encodeur Compréhension contextuelle bidirectionnelle, SOTA sur les tâches de TALN.
T5 2019 60 millions – 11 milliards Encodeur-décodeur Approche unifiée « texte-vers-texte » pour toutes les tâches.
LaMDA 2021 137 milliards Décodeur Spécialisation dans les dialogues ouverts et significatifs.
PaLM 2022 540 milliards Décodeur Avancée dans le raisonnement logique (Chain-of-Thought), entraînement à grande échelle.
Chinchilla 2022 70 milliards Décodeur Modèle « compute-optimal » prouvant l'importance de l'équilibre entre données et paramètres.
Gemini 1.0 2023 jusqu'à ~1 billion (Ultra) Multimodal (probablement MoE) Multimodalité native, SOTA sur de nombreux benchmarks (MMLU).
Gemini 1.5 2024 Non divulgué Multimodal (MoE) Fenêtre de contexte jusqu'à 1-2 millions de tokens, haute efficacité.
Gemini 2.0 2024 Non divulgué Multimodal + Outils Capacités agentives intégrées, génération d'images/audio.

Application dans les produits et l'écosystème

Google intègre activement ses LLM dans toute sa gamme de produits :

  • Recherche Google : BERT, MUM et Gemini sont utilisés pour mieux comprendre les requêtes complexes et fournir des réponses directes au format AI Overviews (anciennement SGE).
  • Assistant Google et Bard (maintenant Gemini) : Transition des simples commandes vocales vers des assistants conversationnels complets basés sur LaMDA, PaLM 2 et Gemini.
  • Google Workspace : Les fonctionnalités de Duet AI (maintenant Gemini for Workspace) aident à rédiger des e-mails dans Gmail, à créer des textes dans Docs et à générer des présentations dans Slides.
  • Android : Gemini Nano permet l'exécution de fonctions d'IA localement sur des appareils, comme les Pixel, pour une meilleure confidentialité et rapidité.
  • Google Cloud AI : La plateforme Vertex AI offre aux entreprises un accès aux modèles PaLM et Gemini via des API pour créer leurs propres applications.

Rôle dans l'environnement concurrentiel

Google est l'un des acteurs clés de la « course à l'IA », où ses principaux concurrents sont OpenAI (soutenu par Microsoft) et Meta.

  • Rivalité avec OpenAI : Bien que Google ait été un pionnier dans de nombreuses technologies fondamentales (y compris le Transformer), le lancement de ChatGPT fin 2022 a contraint Google à accélérer la mise sur le marché de ses produits (comme Bard). La concurrence se joue sur la qualité des modèles (Gemini Ultra vs GPT-4), la taille de la fenêtre de contexte et la facilité d'utilisation des API.
  • Contraste avec Meta : Meta a misé sur l' open source (modèles LLaMA), créant une alternative puissante aux modèles fermés de Google et d'OpenAI. En réponse, Google a également commencé à publier des modèles ouverts, comme Gemma, pour soutenir la communauté des développeurs et ne pas céder l'écosystème à Meta.
  • Alliances stratégiques : Google investit dans d'autres acteurs, comme la startup Anthropic (créateurs du modèle Claude), pour diversifier les approches et renforcer ses positions dans la compétition du cloud.

Bibliographie

  • Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR.
  • Thoppilan, R. et al. (2022). LaMDA: Language Models for Dialog Applications. arXiv:2201.08239.
  • Hoffmann, R. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. JMLR.
  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.

Liens

Category:Artificial intelligence