Chinchilla (modèle de langage)

Chinchilla est un grand modèle de langage (LLM) développé par l'équipe de recherche de DeepMind et présenté en mars 2022^[1]. Le modèle contient environ 70 milliards de paramètres et a été entraîné sur un corpus de texte de 1,4 billion de tokens.

La principale caractéristique de Chinchilla est son approche de l'entraînement, computationnellement optimale. Contrairement aux modèles précédents où l'accent était mis sur l'augmentation du nombre de paramètres, Chinchilla a été créé sur la base de l'hypothèse qu'il est nécessaire de mettre à l'échelle proportionnellement à la fois la taille du modèle et le volume des données d'entraînement. Grâce à cette approche, Chinchilla a démontré sa supériorité sur des modèles beaucoup plus grands, tels que Gopher (280 milliards de paramètres) et GPT-3 (175 milliards), sur un large éventail de tâches linguistiques^[2].

Contexte et historique de création

Le développement de Chinchilla est le fruit de recherches sur la mise à l'échelle des LLM menées par DeepMind, basées sur la famille de modèles Gopher^[3]. Le modèle Gopher, présenté en 2021, comptait 280 milliards de paramètres, mais il avait été entraîné sur un corpus relativement modeste de 300 milliards de tokens. À l'époque, l'approche dominante dans le secteur voulait que la performance des modèles augmente principalement avec leur taille (nombre de paramètres), tandis que le volume de données restait relativement constant.

Hypothèse de l'entraînement computationnellement optimal

Les chercheurs de DeepMind ont émis l'hypothèse que de nombreux grands modèles, y compris Gopher, étaient sous-entraînés (undertrained) par rapport à leur taille. Ils n'atteignaient pas la qualité maximale possible pour un budget de calcul donné, car ils manquaient de données pour leur entraînement^[2].

L'essence de l'hypothèse était que, pour une utilisation optimale des ressources de calcul, la taille du modèle et le volume des données d'entraînement devaient être augmentés de manière proportionnelle l'un par rapport à l'autre. En d'autres termes, en doublant le nombre de paramètres d'un modèle, il fallait également doubler approximativement le nombre de tokens d'entraînement^[1]. Cette conclusion s'écartait des recherches précédentes, qui avaient surestimé la valeur de l'augmentation de la taille du modèle, car elles avaient été menées avec un volume de données fixe.

Pour vérifier cette hypothèse, l'équipe de DeepMind a mené de vastes expériences, entraînant plus de 400 modèles de tailles différentes sur des ensembles de données allant de 5 à 500 milliards de tokens. Les résultats ont confirmé que la mise à l'échelle parallèle était la stratégie optimale. Sur la base de ces conclusions, le modèle Chinchilla a été développé comme un test pratique de ce nouveau paradigme^[4].

Architecture et entraînement

Caractéristiques architecturales

Chinchilla appartient à la famille des transformeurs autorégressifs et son architecture est proche de celle des modèles GPT-2/GPT-3^[3]. Il a hérité de nombreuses solutions de Gopher, mais avec des différences clés visant à réduire sa taille tout en conservant la profondeur du réseau :

Paramètres : ~70 milliards de paramètres, répartis sur 80 couches.
Largeur du modèle : Le nombre de têtes d'auto-attention a été réduit à 64 (contre 128 pour Gopher), et la dimension interne des couches à 8192 (contre ~16384 pour Gopher).
Optimiseur : Utilisation de AdamW au lieu d'Adam, ce qui améliore la convergence sur de grands ensembles de données^[3].

Cette architecture a permis à Chinchilla de conserver la même profondeur de réseau que Gopher, mais avec un nombre de paramètres significativement plus faible, ce qui a réduit les besoins en mémoire et en ressources de calcul.

Mise à l'échelle et données d'entraînement

Pour valider l'hypothèse, Chinchilla a été entraîné avec le même budget de calcul que Gopher, mais avec une réallocation des ressources en faveur des données. Le modèle de 70 milliards de paramètres a été entraîné sur un corpus de 1,4 billion de tokens, soit environ 4 fois le volume de données utilisé pour Gopher^[1].

Ce ratio, d'environ 20 tokens pour chaque paramètre, est devenu connu sous le nom de point Chinchilla (Chinchilla Point) et sert de référence pour l'entraînement computationnellement optimal des LLM modernes^[5]. L'expérience a confirmé que Chinchilla, en étant entraîné plus près de cette limite optimale, a pu réaliser son potentiel plus pleinement que les modèles sous-entraînés, bien que plus grands.

Résultats et performance

Sur un large éventail de tests standards, Chinchilla a démontré une supériorité significative sur les modèles précédents. Il a nettement surpassé non seulement Gopher, mais aussi d'autres LLM de pointe de l'époque, y compris GPT-3 d'OpenAI (175 milliards de paramètres) et Megatron-Turing NLG (530 milliards de paramètres)^[1].

Le résultat le plus révélateur a été obtenu sur le benchmark complet MMLU (Measuring Massive Multitask Language Understanding), qui évalue les connaissances et le raisonnement sur des centaines de tâches hétérogènes. Chinchilla a atteint une précision moyenne de 67,5 %, établissant un nouveau record pour les modèles de cette classe et dépassant de 7 points de pourcentage le résultat de Gopher^[4].

Outre sa haute efficacité, Chinchilla a également montré son efficacité économique d'utilisation. Une taille de modèle plus petite (70 milliards contre plus de 175 milliards pour ses analogues) signifie que l'inférence (inference) et l'ajustement fin (fine-tuning) nécessitent beaucoup moins de ressources de calcul, ce qui simplifie son application pratique.

Importance et influence

La recherche sur Chinchilla a eu une influence fondamentale sur les approches d'entraînement des grands modèles de langage.

Lois d'échelle de Chinchilla (Chinchilla scaling laws) : Le ratio optimal identifié entre la taille du modèle et le volume de données est devenu une norme de facto et une référence pour les développements ultérieurs dans le secteur.
Déplacement de l'accent de la taille vers les données : Ce travail a incité l'industrie à accorder plus d'attention à la création, au nettoyage et à l'expansion des corpus d'entraînement, plutôt qu'à la simple augmentation indiscriminée du nombre de paramètres.
Application dans les systèmes multimodaux : Chinchilla a été utilisé comme composant linguistique principal du modèle multimodal de DeepMind, Flamingo, capable de comprendre des images et du texte^[6].

Bien que le modèle Chinchilla lui-même n'ait pas été rendu public, ses concepts et les résultats publiés dans l'article scientifique ont changé la trajectoire de développement de tout le domaine des LLM, traçant la voie vers une croissance plus efficace et équilibrée des capacités de l'intelligence artificielle.

Bibliographie

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

Références

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
↑ ^2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
↑ ^4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
↑ «Chinchilla (language model)». Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.

[legalgenie-5] «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.

[wiki_eng-6] «Chinchilla (language model)». Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (modèle de langage)

Contents

Contexte et historique de création

Hypothèse de l'entraînement computationnellement optimal

Architecture et entraînement

Caractéristiques architecturales

Mise à l'échelle et données d'entraînement

Résultats et performance

Importance et influence

Bibliographie

Références

Navigation menu

Chinchilla (modèle de langage)

Contexte et historique de création

Hypothèse de l'entraînement computationnellement optimal

Architecture et entraînement

Caractéristiques architecturales

Mise à l'échelle et données d'entraînement

Résultats et performance

Importance et influence

Bibliographie

Références

Navigation menu

Search