LLaMA (Meta AI) (FR)
LLaMA (Large Language Model Meta AI) est une famille de grands modèles de langage (LLM) principalement open source, développée par la division de recherche de Meta AI. Les modèles LLaMA sont basés sur une architecture Transformer modifiée et sont conçus pour une grande efficacité de calcul, la démocratisation de l'accès aux technologies d'IA de pointe et une adaptation facile à des tâches spécialisées. La famille a évolué depuis la version initiale de recherche LLaMA 1 (février 2023) jusqu'aux modèles multimodaux LLaMA 4 (sortie prévue en 2025).
Dénomination
L'acronyme LLaMA signifie Large Language Model Meta AI (Grand modèle de langage de Meta AI).
- Large Language Model — souligne l'échelle des modèles, dont les paramètres se mesurent de milliards à billions.
- Meta AI — indique le développeur, le groupe de recherche de Meta.
Historique de la création
Le développement de LLaMA a commencé fin 2022 en tant que réponse stratégique de Meta au succès de ChatGPT d'OpenAI. Mark Zuckerberg a formé une équipe interdisciplinaire comprenant des chercheurs du laboratoire FAIR (Facebook AI Research). Yann LeCun, directeur de FAIR, a joué un rôle clé dans la philosophie du projet, adhérant depuis 2013 au principe d'ouverture totale de toutes les recherches du laboratoire.
La première version, LLaMA 1, a été publiée en février 2023 sous une licence de recherche. Peu après sa sortie, en mars 2023, les poids du modèle ont fuité sur le réseau via BitTorrent. Cet événement, contre toute attente, n'a pas freiné mais a au contraire stimulé le développement du projet, en permettant à des chercheurs indépendants et à des passionnés du monde entier d'expérimenter avec le modèle. En conséquence, des dizaines de milliers de modèles dérivés sont apparus sur la plateforme Hugging Face. Les versions ultérieures, à partir de LLaMA 2, ont été publiées avec une licence commerciale[1], consolidant le statut de LLaMA en tant qu'acteur clé sur le marché des modèles d'IA ouverts.
Évolution des modèles et chronologie des sorties
| Version | Date de sortie | Plage de paramètres | Innovations clés et caractéristiques |
|---|---|---|---|
| LLaMA 1 | Février 2023 | 7B – 65B | Architecture de base (RMSNorm, SwiGLU, RoPE). Entraînement sur 1,4 trillion de tokens. Fenêtre de contexte de 2048 tokens. Licence de recherche. |
| LLaMA 2 | Juillet 2023 | 7B – 70B | Fine-tuning pour les dialogues (RLHF). Introduction de Grouped-Query Attention (GQA). Fenêtre de contexte de 4096 tokens. Première licence commerciale. |
| Code Llama | Août 2023 | 7B – 70B | Version spécialisée pour le code. Fine-tuning sur 500 milliards de tokens de code. Variantes : base, spécialisée Python, instruction-tuned. |
| LLaMA 3 | Avril 2024 | 8B, 70B | Entraînement sur 15 trillions de tokens. Tokeniseur amélioré avec un vocabulaire de 128 000 tokens. Haute performance (82% sur MMLU). |
| LLaMA 3.1 | Juillet 2024[2] | 8B, 70B, 405B | Modèle phare de 405B avec des performances au niveau de GPT-4o. Fenêtre de contexte jusqu'à 128 000 tokens. Capacité de traitement d'images ajoutée. |
| LLaMA 4 | (prévu : avril 2025) | 109B (Scout), 400B (Maverick), 2T (Behemoth) | Architecture Mixture-of-Experts (MoE). Multimodalité native (texte, images, vidéo). Fenêtre de contexte jusqu'à 10 millions de tokens. |
Architecture
LLaMA utilise une architecture de transformeur décodeur autorégressif, mais introduit plusieurs améliorations clés qui augmentent l'efficacité des calculs et la qualité du texte généré :
- Pré-normalisation (Pre-normalization). La normalisation est appliquée à l'entrée de chaque sous-couche du transformeur, plutôt qu'à la sortie. Cette approche stabilise l'entraînement des réseaux très profonds et prévient les problèmes de gradients.
- RMSNorm (Root Mean Square Layer Normalization). Au lieu de la LayerNorm standard, RMSNorm est utilisée. Cette technique de normalisation élimine l'opération de soustraction de la moyenne, ce qui accélère les calculs de 10 à 50 % tout en maintenant la stabilité.
- SwiGLU (Swish-Gated Linear Unit). La fonction d'activation utilisée est SwiGLU, à la place de ReLU ou GELU. Ce mécanisme de portage (gating mechanism) crée un flux de gradient plus fluide et améliore la qualité du modèle.
- RoPE (Rotary Position Embeddings, Plongements de position rotatifs). Pour encoder les positions des tokens, des plongements de position relatifs RoPE sont utilisés, permettant au modèle de mieux extrapoler sur des séquences plus longues que celles utilisées lors de l'entraînement.
- GQA (Grouped-Query Attention). Introduite dans LLaMA 2, cette technique est une optimisation de l'attention multi-têtes qui réduit considérablement les besoins en mémoire et accélère la génération de texte.
- Mixture-of-Experts (MoE) (prévu dans LLaMA 4). Une architecture qui divise les paramètres du modèle en sous-réseaux "experts", n'activant qu'une petite partie d'entre eux pour chaque requête. Cela réduit drastiquement les coûts de calcul pour l'inférence.
Configurations de LLaMA 1
| Modèle | Paramètres | Dimensionnalité de l'état caché | Nombre de couches | Nombre de têtes d'attention | Volume des données d'entraînement |
|---|---|---|---|---|---|
| 7B | 6.7B | 4096 | 32 | 32 | 1.0T de tokens |
| 13B | 13.0B | 5120 | 40 | 40 | 1.0T de tokens |
| 33B | 32.5B | 6656 | 60 | 52 | 1.4T de tokens |
| 65B | 65.2B | 8192 | 80 | 64 | 1.4T de tokens |
Données d'entraînement
Le volume des corpus d'entraînement est passé de 1,4 trillion de tokens pour LLaMA 1 à 15 trillions pour LLaMA 3. Des sources publiques sont utilisées pour l'entraînement, notamment Common Crawl (qui représente jusqu'à 67 % des données), C4, GitHub, Wikipedia, Books, ArXiv et Stack Exchange. Pour LLaMA 3, des données privées de haute qualité ont également été utilisées.
Performance et comparaison
- Sur les benchmarks : Le modèle LLaMA 3.1 (405B) affiche des résultats proches de GPT-4o : sur le test MMLU, il atteint 88,6 %, soit seulement 0,1 point de pourcentage de moins que GPT-4o. Pour la tâche de génération de code HumanEval, LLaMA 3.1 obtient 89 % (contre 90,2 % pour GPT-4o).
- Efficacité paramétrique : Les modèles LLaMA avec moins de paramètres surpassent souvent les modèles plus grands de leurs concurrents. Par exemple, LLaMA 1 (13B) a dépassé GPT-3 (175B) sur la plupart des tests.
- Coût : En cas d'hébergement local, le coût de l'inférence de LLaMA peut être jusqu'à 50 fois inférieur à celui de l'utilisation d'API propriétaires, ce qui rend la technologie accessible aux petites et moyennes entreprises.
Licence
- LLaMA 1 a été distribué sous une licence de recherche non commerciale, avec un accès sur demande.
- LLaMA 2 et les versions ultérieures sont distribués sous la Llama Community License, qui autorise l'utilisation commerciale et la modification. Cependant, la licence contient des restrictions : les entreprises comptant plus de 700 millions d'utilisateurs actifs par mois doivent obtenir une autorisation spéciale de Meta. Cela soulève des débats sur la question de savoir si LLaMA est un modèle entièrement ouvert.
Applications
Les modèles LLaMA sont intégrés dans les produits de milliers d'entreprises et sont utilisés dans divers domaines :
- Secteur des entreprises : Zoom utilise LLaMA dans son AI Companion pour résumer les réunions ; Shopify l'utilise pour traiter 40 à 60 millions de requêtes par jour afin d'enrichir les métadonnées des produits ; Instacart l'emploie dans son assistant interne Ava.
- Science et société : Meditron (une adaptation de LLaMA) est utilisé pour le diagnostic médical dans les régions à ressources limitées.
- Secteur public et industrie : Meta a conclu des partenariats avec Lockheed Martin et Palantir. La NASA utilise LLaMA 3 sur la Station Spatiale Internationale comme assistant hors ligne pour effectuer des opérations critiques sans communication avec la Terre.
Limitations et critiques
- Biais et sécurité : Des audits indépendants montrent que les modèles LLaMA, malgré les mesures de sécurité, peuvent reproduire des stéréotypes nuisibles. La fuite des poids de LLaMA 1 a soulevé des questions sur l'utilisation malveillante potentielle de la technologie.
- Lacunes dans les connaissances : Dans des domaines très spécialisés, LLaMA peut présenter des lacunes. Par exemple, sa précision sur le test médical nephSAP était de 17 à 30 %, contre 73 % pour GPT-4.
- Consommation d'énergie : L'entraînement de grands modèles nécessite d'énormes ressources. L'entraînement de LLaMA 1 a nécessité 2 638 MWh, ce qui équivaut à des émissions de 1 015 tonnes de CO₂.
Avenir
Meta prévoit d'investir jusqu'à 65 milliards de dollars dans l'infrastructure d'IA d'ici 2025. Le modèle LLaMA 4 Behemoth, avec 2 trillions de paramètres, est en cours de développement. Il prendra en charge plus de 200 langues et sera profondément intégré aux produits du métavers.
Littérature
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Grattafiori, A. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
- Jiang, Z. et al. (2023). Pre‑RMSNorm and Pre‑CRMSNorm Transformers: Equivalent and Efficient Pre‑LN Transformers. arXiv:2305.14858.
- Rozière, B. et al. (2023). Code Llama: Open Foundation Models for Code. arXiv:2308.12950.
- Shazeer, N. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971.
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine‑Tuned Chat Models. arXiv:2307.09288.
- Zhang, B.; Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467.
Remarques
- ↑ La licence LLaMA ne répond pas à tous les critères d'un logiciel open source, car elle impose des restrictions sur l'utilisation commerciale par les plus grandes entreprises et exige la divulgation des modifications.
- ↑ LLaMA 3.1 a été annoncée et publiée en juillet 2024. Voir l'annonce officielle de Meta.
Category:Artificial intelligence
Voir aussi
- GPT
- Grands modèles de langage
- Transformeur (architecture de réseau neuronal)