Falcon (famille de modèles de langage)

From Systems analysis wiki
Jump to navigation Jump to search

Falcon est une famille de grands modèles de langage (LLM) open source, développée par le Technology Innovation Institute (TII) à Abou Dabi, aux Émirats arabes unis[1]. Les modèles Falcon ont apporté une contribution significative au développement de l'intelligence artificielle accessible, se classant régulièrement aux premières places des classements de performance, tels que le Open LLM Leaderboard de Hugging Face[2].

La famille comprend des modèles de différentes tailles et spécialisations, allant des versions compactes conçues pour fonctionner sur du matériel grand public aux plus grands modèles rivalisant avec ceux des principales entreprises technologiques. Les caractéristiques clés de Falcon sont son architecture avancée, son entraînement sur le jeu de données de haute qualité RefinedWeb et sa licence principalement ouverte Apache 2.0[3].

Histoire et développement

La première version des modèles Falcon a été présentée en juin 2023. En septembre 2023, le modèle Falcon-180B a été lancé, devenant à l'époque le plus grand et le plus performant des LLM ouverts au monde, dépassant en nombre de paramètres le modèle Llama 2 70B de Meta[4][5].

Le développement ultérieur de la famille a inclus la sortie de nouvelles générations et de versions spécialisées :

  • Falcon 2 (2024) : Une deuxième itération avec des capacités améliorées, incluant une version multimodale Falcon 2 11B VLM (Vision Language Model)[6].
  • Falcon 3 (décembre 2024) : La dernière génération, entraînée sur 14 trillions de tokens, avec des fonctionnalités multimodales étendues et optimisée pour fonctionner sur du matériel léger, y compris des ordinateurs portables[7][8].
  • Modèles spécialisés : Des modèles adaptés à des tâches spécifiques ont été publiés, tels que Falcon Arabic et Falcon Mamba.
Principaux modèles de la famille Falcon
Modèle Paramètres (milliards) Caractéristiques clés Licence
Falcon-180B 180 Plus grand modèle de la première génération ; entraîné sur 3,5 trillions de tokens ; surpasse GPT-3.5[4]. Licence TII Falcon 1.0 (avec des restrictions pour l'usage commercial)[5]
Falcon-40B 40 Modèle de base à haute performance ; entraîné sur 1 trillion de tokens. Apache 2.0
Falcon-7B 7 Modèle compact nécessitant ~15 Go de mémoire GPU ; adapté au matériel grand public[2]. Apache 2.0
Falcon-1.3B 1.3 Le plus petit modèle pour les appareils aux ressources limitées. Apache 2.0
Falcon 2 11B 11 Deuxième génération ; rivalise avec Llama 3 8B et Gemma 7B ; une version multimodale (VLM) existe[6]. Apache 2.0
Falcon 3 N/A Entraîné sur 14 trillions de tokens ; multimodalité (texte, image, audio, vidéo) ; fonctionne sur des ordinateurs portables[7]. Apache 2.0
Falcon Arabic 7 Modèle spécialisé pour la langue arabe (standard et dialectes) ; architecture Falcon 3[9]. Apache 2.0
Falcon Mamba N/A Modèle expérimental basé sur l'architecture Mamba (SSM) au lieu de Transformer[10]. Apache 2.0

Architecture et caractéristiques techniques

Architecture Transformer

La plupart des modèles Falcon sont basés sur une architecture de type Transformer décodeur uniquement. Les décisions architecturales clés incluent :

  • Multi-Query Attention (MQA) : Contrairement à l'attention multi-têtes (Multi-Head Attention) standard, où chaque « tête » a son propre ensemble clé-valeur (key/value), dans MQA, toutes les têtes d'attention partagent un seul ensemble clé-valeur. Cela réduit considérablement la consommation de mémoire et accélère l'inférence sans perte significative de qualité[2].
  • Rotary Positional Embeddings (RoPE) : Pour encoder l'information de position des tokens, RoPE est utilisé, comme dans d'autres LLM modernes.
  • FlashAttention : Utilisé pour optimiser les calculs du mécanisme d'attention.

Architecture Mamba (State Space Model)

Le modèle Falcon Mamba est innovant car il s'écarte de l'architecture Transformer traditionnelle au profit d'un State Space Model (SSM). L'architecture Mamba traite les séquences de données de manière linéaire, ce qui lui permet d'être beaucoup plus efficace avec des contextes très longs et de nécessiter moins de ressources de calcul par rapport aux Transformers[10].

Données d'entraînement

La base de l'entraînement des modèles Falcon est le jeu de données de haute qualité RefinedWeb, créé par TII[5]. Il se compose de trillions de tokens extraits de Common Crawl, avec une filtration et une déduplication strictes pour améliorer la qualité.

  • Pour Falcon-180B, un jeu de données étendu de 3,5 trillions de tokens a été utilisé, composé à environ 85 % de RefinedWeb, et incluant également des données sélectionnées provenant de livres, de dialogues et de code[4].
  • Falcon Arabic a été entraîné sur un jeu de données arabe natif (non traduit) de haute qualité, couvrant à la fois l'arabe standard moderne et les dialectes régionaux[11].

Modèles spécialisés

Falcon Arabic

Falcon Arabic est un modèle de 7 milliards de paramètres, spécialement optimisé pour la langue arabe. Il démontre des résultats exceptionnels sur les benchmarks arabes (Open Arabic LLM Leaderboard) et est capable de comprendre à la fois l' arabe standard moderne (MSA) et de nombreux dialectes régionaux. Cela permet au modèle de fournir des réponses précises et culturellement adaptées aux utilisateurs arabophones[9]. En termes de performance, il surpasse des modèles jusqu'à 10 fois plus grands[12].

Capacités multimodales

  • Falcon 2 11B VLM a été le premier modèle multimodal de la famille, capable de traiter à la fois du texte et des images[6].
  • Falcon 3 a considérablement étendu ces capacités en ajoutant le support de la vidéo et de l'audio. Il est prévu qu'un mode vocal complet soit disponible en janvier 2025[7].

Performance et limitations

Comparaison avec les concurrents

Les modèles Falcon affichent de manière constante des performances élevées.

  • Falcon-180B surpasse GPT-3.5 et Llama 2 70B sur la plupart des benchmarks académiques, tels que MMLU, HellaSwag et LAMBADA, bien qu'il reste inférieur à GPT-4[4].
  • Falcon 2 11B démontre des performances égales ou supérieures à celles de Meta Llama 3 8B et Google Gemma 7B[6].
  • Falcon 3, au moment de sa sortie, a pris la première place du classement mondial de Hugging Face parmi les modèles de sa taille[7].

Limitations et problèmes

  • Qualité dans différentes langues : La majorité des données d'entraînement est en anglais[13]. Par conséquent, la qualité des performances des modèles dans d'autres langues, y compris le russe, peut être nettement inférieure[14].
  • Hallucinations : Comme tous les LLM, les modèles Falcon sont sujets à la génération d'informations inexactes ou fictives (hallucinations), ce qui nécessite une approche prudente lors de leur utilisation dans des applications critiques[15].
  • Restrictions de licence : Bien que la plupart des modèles soient distribués sous la licence Apache 2.0, le modèle phare Falcon-180B possède sa propre licence, la TII Falcon LLM License, qui impose des redevances pour un usage commercial si les revenus dépassent 1 million de dollars, limitant ainsi son application en entreprise[5][16].

Liens

Bibliographie

  • Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Almazrouei, E. et al. (2023). The Falcon Series of Open Language Models. arXiv:2311.16867.
  • Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
  • Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
  • Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv:2306.01116.
  • Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.

Notes

  1. «В ОАЭ представили большую языковую модель Falcon 2». Интерфакс. [1]
  2. 2.0 2.1 2.2 «Falcon: The "T-shirt-sized" 7B and 40B models that are democratizing the LLM landscape». Hugging Face Blog. [2]
  3. «Falcon Model». Hugging Face Transformers documentation. [3]
  4. 4.0 4.1 4.2 4.3 «Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2». The Decoder. [4]
  5. 5.0 5.1 5.2 5.3 «Falcon 180B: крупнейшая в мире открытая языковая модель». Neurohive. [5]
  6. 6.0 6.1 6.2 6.3 «Falcon 2: Институт технологических инноваций ОАЭ выпускает новую серию ИИ-моделей, превосходящую Llama 3 от Meta». AETOSWire. [6]
  7. 7.0 7.1 7.2 7.3 «Falcon 3: Институт технологических инноваций ОАЭ запускает самые мощные в мире малые ИИ-модели». AETOSWire. [7]
  8. «Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures». Abu Dhabi Media Office. [8]
  9. 9.0 9.1 «Falcon Arabic». FalconLLM TII. [9]
  10. 10.0 10.1 «Falcon Mamba — новый шаг в развитии языковых моделей без механизма внимания». Pikabu. [10]
  11. «Middle East's Leading AI Powerhouse TII Launches Two New AI Models». TII News. [11]
  12. «Middle East's leading AI powerhouse, TII,launches two new AI models». Falcon Foundation. [12]
  13. Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, et al. «The Falcon Series of Open Language Models». arXiv, 29 novembre 2023. https://doi.org/10.48550/arXiv.2311.16867.[13]
  14. «Ведущий производитель ИИ на Ближнем Востоке, TII, запускает две новые модели ИИ». AETOSWire. [14]
  15. «Falcon-180B: обзор, запуск и первые впечатления». Habr. [15]
  16. «Falcon 180B License Discussion». Hugging Face. [16]