LLaMA (Meta AI) (FR)

LLaMA (Large Language Model Meta AI) est une famille de grands modèles de langage (LLM) principalement open source, développée par la division de recherche de Meta AI. Les modèles LLaMA sont basés sur une architecture Transformer modifiée et sont conçus pour une grande efficacité de calcul, la démocratisation de l'accès aux technologies d'IA de pointe et une adaptation facile à des tâches spécialisées. La famille a évolué depuis la version initiale de recherche LLaMA 1 (février 2023) jusqu'aux modèles multimodaux LLaMA 4 (sortie prévue en 2025).

Dénomination

L'acronyme LLaMA signifie Large Language Model Meta AI (Grand modèle de langage de Meta AI).

Large Language Model — souligne l'échelle des modèles, dont les paramètres se mesurent de milliards à billions.
Meta AI — indique le développeur, le groupe de recherche de Meta.

Historique de la création

Le développement de LLaMA a commencé fin 2022 en tant que réponse stratégique de Meta au succès de ChatGPT d'OpenAI. Mark Zuckerberg a formé une équipe interdisciplinaire comprenant des chercheurs du laboratoire FAIR (Facebook AI Research). Yann LeCun, directeur de FAIR, a joué un rôle clé dans la philosophie du projet, adhérant depuis 2013 au principe d'ouverture totale de toutes les recherches du laboratoire.

La première version, LLaMA 1, a été publiée en février 2023 sous une licence de recherche. Peu après sa sortie, en mars 2023, les poids du modèle ont fuité sur le réseau via BitTorrent. Cet événement, contre toute attente, n'a pas freiné mais a au contraire stimulé le développement du projet, en permettant à des chercheurs indépendants et à des passionnés du monde entier d'expérimenter avec le modèle. En conséquence, des dizaines de milliers de modèles dérivés sont apparus sur la plateforme Hugging Face. Les versions ultérieures, à partir de LLaMA 2, ont été publiées avec une licence commerciale^[1], consolidant le statut de LLaMA en tant qu'acteur clé sur le marché des modèles d'IA ouverts.

Évolution des modèles et chronologie des sorties

Chronologie du développement des modèles LLaMA
Version	Date de sortie	Plage de paramètres	Innovations clés et caractéristiques
LLaMA 1	Février 2023	7B – 65B	Architecture de base (RMSNorm, SwiGLU, RoPE). Entraînement sur 1,4 trillion de tokens. Fenêtre de contexte de 2048 tokens. Licence de recherche.
LLaMA 2	Juillet 2023	7B – 70B	Fine-tuning pour les dialogues (RLHF). Introduction de Grouped-Query Attention (GQA). Fenêtre de contexte de 4096 tokens. Première licence commerciale.
Code Llama	Août 2023	7B – 70B	Version spécialisée pour le code. Fine-tuning sur 500 milliards de tokens de code. Variantes : base, spécialisée Python, instruction-tuned.
LLaMA 3	Avril 2024	8B, 70B	Entraînement sur 15 trillions de tokens. Tokeniseur amélioré avec un vocabulaire de 128 000 tokens. Haute performance (82% sur MMLU).
LLaMA 3.1	Juillet 2024^[2]	8B, 70B, 405B	Modèle phare de 405B avec des performances au niveau de GPT-4o. Fenêtre de contexte jusqu'à 128 000 tokens. Capacité de traitement d'images ajoutée.
LLaMA 4	(prévu : avril 2025)	109B (Scout), 400B (Maverick), 2T (Behemoth)	Architecture Mixture-of-Experts (MoE). Multimodalité native (texte, images, vidéo). Fenêtre de contexte jusqu'à 10 millions de tokens.

Architecture

LLaMA utilise une architecture de transformeur décodeur autorégressif, mais introduit plusieurs améliorations clés qui augmentent l'efficacité des calculs et la qualité du texte généré :

Pré-normalisation (Pre-normalization). La normalisation est appliquée à l'entrée de chaque sous-couche du transformeur, plutôt qu'à la sortie. Cette approche stabilise l'entraînement des réseaux très profonds et prévient les problèmes de gradients.
RMSNorm (Root Mean Square Layer Normalization). Au lieu de la LayerNorm standard, RMSNorm est utilisée. Cette technique de normalisation élimine l'opération de soustraction de la moyenne, ce qui accélère les calculs de 10 à 50 % tout en maintenant la stabilité.
SwiGLU (Swish-Gated Linear Unit). La fonction d'activation utilisée est SwiGLU, à la place de ReLU ou GELU. Ce mécanisme de portage (gating mechanism) crée un flux de gradient plus fluide et améliore la qualité du modèle.
RoPE (Rotary Position Embeddings, Plongements de position rotatifs). Pour encoder les positions des tokens, des plongements de position relatifs RoPE sont utilisés, permettant au modèle de mieux extrapoler sur des séquences plus longues que celles utilisées lors de l'entraînement.
GQA (Grouped-Query Attention). Introduite dans LLaMA 2, cette technique est une optimisation de l'attention multi-têtes qui réduit considérablement les besoins en mémoire et accélère la génération de texte.
Mixture-of-Experts (MoE) (prévu dans LLaMA 4). Une architecture qui divise les paramètres du modèle en sous-réseaux "experts", n'activant qu'une petite partie d'entre eux pour chaque requête. Cela réduit drastiquement les coûts de calcul pour l'inférence.

Configurations de LLaMA 1

Paramètres architecturaux des modèles LLaMA 1
Modèle	Paramètres	Dimensionnalité de l'état caché	Nombre de couches	Nombre de têtes d'attention	Volume des données d'entraînement
7B	6.7B	4096	32	32	1.0T de tokens
13B	13.0B	5120	40	40	1.0T de tokens
33B	32.5B	6656	60	52	1.4T de tokens
65B	65.2B	8192	80	64	1.4T de tokens

Données d'entraînement

Le volume des corpus d'entraînement est passé de 1,4 trillion de tokens pour LLaMA 1 à 15 trillions pour LLaMA 3. Des sources publiques sont utilisées pour l'entraînement, notamment Common Crawl (qui représente jusqu'à 67 % des données), C4, GitHub, Wikipedia, Books, ArXiv et Stack Exchange. Pour LLaMA 3, des données privées de haute qualité ont également été utilisées.

Performance et comparaison

Sur les benchmarks : Le modèle LLaMA 3.1 (405B) affiche des résultats proches de GPT-4o : sur le test MMLU, il atteint 88,6 %, soit seulement 0,1 point de pourcentage de moins que GPT-4o. Pour la tâche de génération de code HumanEval, LLaMA 3.1 obtient 89 % (contre 90,2 % pour GPT-4o).
Efficacité paramétrique : Les modèles LLaMA avec moins de paramètres surpassent souvent les modèles plus grands de leurs concurrents. Par exemple, LLaMA 1 (13B) a dépassé GPT-3 (175B) sur la plupart des tests.
Coût : En cas d'hébergement local, le coût de l'inférence de LLaMA peut être jusqu'à 50 fois inférieur à celui de l'utilisation d'API propriétaires, ce qui rend la technologie accessible aux petites et moyennes entreprises.

Licence

LLaMA 1 a été distribué sous une licence de recherche non commerciale, avec un accès sur demande.
LLaMA 2 et les versions ultérieures sont distribués sous la Llama Community License, qui autorise l'utilisation commerciale et la modification. Cependant, la licence contient des restrictions : les entreprises comptant plus de 700 millions d'utilisateurs actifs par mois doivent obtenir une autorisation spéciale de Meta. Cela soulève des débats sur la question de savoir si LLaMA est un modèle entièrement ouvert.

Applications

Les modèles LLaMA sont intégrés dans les produits de milliers d'entreprises et sont utilisés dans divers domaines :

Secteur des entreprises : Zoom utilise LLaMA dans son AI Companion pour résumer les réunions ; Shopify l'utilise pour traiter 40 à 60 millions de requêtes par jour afin d'enrichir les métadonnées des produits ; Instacart l'emploie dans son assistant interne Ava.
Science et société : Meditron (une adaptation de LLaMA) est utilisé pour le diagnostic médical dans les régions à ressources limitées.
Secteur public et industrie : Meta a conclu des partenariats avec Lockheed Martin et Palantir. La NASA utilise LLaMA 3 sur la Station Spatiale Internationale comme assistant hors ligne pour effectuer des opérations critiques sans communication avec la Terre.

Limitations et critiques

Biais et sécurité : Des audits indépendants montrent que les modèles LLaMA, malgré les mesures de sécurité, peuvent reproduire des stéréotypes nuisibles. La fuite des poids de LLaMA 1 a soulevé des questions sur l'utilisation malveillante potentielle de la technologie.
Lacunes dans les connaissances : Dans des domaines très spécialisés, LLaMA peut présenter des lacunes. Par exemple, sa précision sur le test médical nephSAP était de 17 à 30 %, contre 73 % pour GPT-4.
Consommation d'énergie : L'entraînement de grands modèles nécessite d'énormes ressources. L'entraînement de LLaMA 1 a nécessité 2 638 MWh, ce qui équivaut à des émissions de 1 015 tonnes de CO₂.

Avenir

Meta prévoit d'investir jusqu'à 65 milliards de dollars dans l'infrastructure d'IA d'ici 2025. Le modèle LLaMA 4 Behemoth, avec 2 trillions de paramètres, est en cours de développement. Il prendra en charge plus de 200 langues et sera profondément intégré aux produits du métavers.

Littérature

Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Grattafiori, A. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
Jiang, Z. et al. (2023). Pre‑RMSNorm and Pre‑CRMSNorm Transformers: Equivalent and Efficient Pre‑LN Transformers. arXiv:2305.14858.
Rozière, B. et al. (2023). Code Llama: Open Foundation Models for Code. arXiv:2308.12950.
Shazeer, N. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971.
Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine‑Tuned Chat Models. arXiv:2307.09288.
Zhang, B.; Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467.

Remarques

↑ La licence LLaMA ne répond pas à tous les critères d'un logiciel open source, car elle impose des restrictions sur l'utilisation commerciale par les plus grandes entreprises et exige la divulgation des modifications.
↑ LLaMA 3.1 a été annoncée et publiée en juillet 2024. Voir l'annonce officielle de Meta.

Category:Artificial intelligence

Voir aussi

GPT
Grands modèles de langage
Transformeur (architecture de réseau neuronal)

[1] La licence LLaMA ne répond pas à tous les critères d'un logiciel open source, car elle impose des restrictions sur l'utilisation commerciale par les plus grandes entreprises et exige la divulgation des modifications.

[2] LLaMA 3.1 a été annoncée et publiée en juillet 2024. Voir l'annonce officielle de Meta.

[1]

[2]

LLaMA (Meta AI) (FR)

Contents

Dénomination

Historique de la création

Évolution des modèles et chronologie des sorties

Architecture

Configurations de LLaMA 1

Données d'entraînement

Performance et comparaison

Licence

Applications

Limitations et critiques

Avenir

Littérature

Remarques

Voir aussi

Navigation menu

LLaMA (Meta AI) (FR)

Dénomination

Historique de la création

Évolution des modèles et chronologie des sorties

Architecture

Configurations de LLaMA 1

Données d'entraînement

Performance et comparaison

Licence

Applications

Limitations et critiques

Avenir

Littérature

Remarques

Voir aussi

Navigation menu

Search