Jais (modèle de langage)
Jais (prononcé « Ja-iss ») est une famille de grands modèles de langage (LLM) open source, développée aux Émirats arabes unis et spécialement optimisée pour la langue arabe[1]. Le nom du modèle est un hommage au mont Jebel Jais, le plus haut sommet des Émirats arabes unis[2].
Le projet a été créé en collaboration entre la société de recherche Inception (une filiale du conglomérat technologique G42), l'Université d'intelligence artificielle Mohamed ben Zayed (MBZUAI) et la société californienne de puces d'IA Cerebras Systems[2]. Jais a été publié sous une licence open source afin de stimuler le développement de l'écosystème de l'IA pour la langue arabe, de préserver le patrimoine culturel et linguistique, et de rendre les technologies d'IA modernes plus accessibles au monde arabophone[1].
Historique du développement et versions
Le projet Jais a été initié en 2023 dans un contexte de limitations des LLM existants pour les langues sous-dotées en ressources. Les développeurs ont constaté un manque de modèles bilingues de haute qualité capables de traiter aussi bien l'arabe que l'anglais[2].
Jais-13B : La première version
La première version, Jais-13B, a été lancée le 30 août 2023 et contenait 13 milliards de paramètres[1]. Le modèle a été entraîné sur un corpus mixte de textes arabes et anglais totalisant 395 milliards de tokens[3]. Au moment de sa sortie, il a été qualifié de « LLM en arabe le plus performant au monde »[1].
Jais-30B : Montée en échelle
Le 8 novembre 2023, moins de trois mois plus tard, le consortium a présenté une deuxième version, considérablement améliorée : Jais-30B, avec 30 milliards de paramètres[4]. Cette montée en échelle visait à résoudre des tâches applicatives plus complexes, telles que la synthèse et la traduction. Le modèle a été entraîné sur un jeu de données élargi et nettoyé de 1,63 trillion de tokens[4].
Jais-70B et la famille de modèles
Le 6 août 2024, Inception (G42) a annoncé le lancement du modèle phare Jais-70B (70 milliards de paramètres) et de toute une famille de modèles associés[5]. Jais-70B est devenu le plus grand LLM open source axé sur la langue arabe. Son développement a utilisé la méthode du continuous training (entraînement continu) : au lieu de partir de zéro, le modèle Llama 2 70B de Meta a servi de base et a été affiné sur 330 milliards de tokens en langue arabe. Cette approche a permis de transférer efficacement les connaissances de l'anglais de Llama 2 et de concentrer les ressources sur l'apprentissage de l'arabe[5].
Architecture et caractéristiques techniques
Jais appartient à la catégorie des modèles de type transformeur autorégressif basés sur l'architecture GPT-3 (decoder-only). La principale caractéristique du modèle est sa spécialisation bilingue en arabe et en anglais, contrairement à de nombreux LLM multilingues où l'anglais prédomine. Cela permet d'atteindre une compréhension approfondie de la langue arabe et de ses dialectes[3].
Plusieurs solutions techniques de pointe ont été intégrées lors de la création de Jais[3] :
- Positionnement ALiBi : un schéma d'encodages de position (positional embeddings) qui permet au modèle de traiter des contextes plus longs que ceux sur lesquels il a été entraîné.
- Activation SwiGLU : une fonction d'activation qui améliore la qualité de l'entraînement et l'expressivité des couches neuronales.
- Maximal Update Parametrization (µP) : une méthode d'ajustement des hyperparamètres qui stabilise l'entraînement lors de l'augmentation de la taille du modèle.
- Tokeniseur spécialisé : conçu en tenant compte des spécificités des langues arabe et anglaise, il réduit le nombre de tokens pour le texte arabe de 3 à 4 fois par rapport aux tokeniseurs universels et augmente la vitesse de traitement[6].
En plus des modèles de base (foundation models), une version Jais-chat a été publiée, affinée sur 9,6 millions de paires de questions-réponses pour l'adapter aux tâches de chatbot et d'assistant[3].
Entraînement et jeu de données
L'une des tâches principales du projet était la préparation d'un corpus de textes arabes vaste et de haute qualité. Le jeu de données d'entraînement final pour Jais-13B totalisait 395 milliards de tokens, dont :
- 116 milliards de tokens (29 %) — texte en arabe.
- 279 milliards de tokens (71 %) — texte en anglais et code informatique.
La composante arabe a été intentionnellement rendue significative (environ 30 %) pour garantir une maîtrise de haute qualité de la langue[3]. Les données comprenaient des livres, des articles de presse, des pages web et du code source. Pour augmenter le volume de textes arabes de qualité, la traduction automatique de ressources anglophones a été utilisée[3].
L'entraînement des modèles a été réalisé sur le supercalculateur Condor Galaxy 1 (CG-1) à Abou Dabi, développé conjointement par G42 et Cerebras Systems. Grâce à cette infrastructure, l'entraînement de Jais-13B n'a pris qu'environ 3,5 jours de temps de calcul effectif[2].
Applications et importance
Jais est positionné comme une étape clé dans le développement de l'IA générative pour la langue arabe et d'autres communautés linguistiques sous-représentées dans les LLM modernes. L'accès libre au modèle vise à encourager l'adoption des technologies de traitement du langage naturel dans les régions du Moyen-Orient et de l'Afrique du Nord.
Dès son lancement, le projet a suscité l'intérêt d'entités gouvernementales et commerciales des Émirats arabes unis. Un accès anticipé au modèle a été accordé au ministère des Affaires étrangères des EAU, à la compagnie pétrolière et gazière ADNOC, à la compagnie aérienne Etihad Airways et à la banque First Abu Dhabi Bank[1]. En 2024, Microsoft a annoncé l'intégration de Jais sur sa plateforme cloud Microsoft Azure, le rendant accessible aux utilisateurs du monde entier[6].
Les créateurs de Jais soulignent son rôle dans la préservation du patrimoine culturel et linguistique arabe. Selon Andrew Jackson, directeur exécutif d'Inception, le projet vise à « garantir que la langue arabe, avec son riche héritage, trouve sa voix dans le paysage de l'IA »[1]. L'expérience acquise devrait être utilisée pour créer des LLM similaires pour d'autres langues et cultures[1].
Bibliographie
- Shazeer, N.; et al. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Yang, G.; et al. (2022). Tensor Programs V: Tuning Large Neural Networks via Zero‑Shot Hyperparameter Transfer. arXiv:2203.03466.
- Ali, A. R.; et al. (2022). A Large and Diverse Arabic Corpus for Language Modeling. arXiv:2201.09227.
- Sengupta, N.; et al. (2023). Jais and Jais‑chat: Arabic‑Centric Foundation and Instruction‑Tuned Open Generative Large Language Models. arXiv:2308.16149.
- Inception AI (2024). JAIS 30B Whitepaper. Online whitepaper.
- Koto, F.; et al. (2024). ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic. arXiv:2402.12840.
- Qian, Z.; et al. (2024). CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks. arXiv:2409.12623.
- Blake, C.; et al. (2024). u‑μP: The Unit‑Scaled Maximal Update Parametrization. arXiv:2407.17465.
- Inception AI; MBZUAI; Cerebras Systems (2024). Jais Family Model Card. Hugging Face.
Notes et références
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 « Meet "Jais", The World's Most Advanced Arabic Large Language Model Open Sourced by G42's Inception ». Cerebras Systems. [1]
- ↑ 2.0 2.1 2.2 2.3 « UAE's G42 launches open source Arabic language AI model ». Reuters. [2]
- ↑ 3.0 3.1 3.2 3.3 3.4 3.5 « [2308.16149] Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models ». arXiv. [3]
- ↑ 4.0 4.1 « Upgraded Arabic large language model is twice as big ». Computer Weekly. [4]
- ↑ 5.0 5.1 « G42 launches JAIS 70B and 20 other AI models to advance Arabic natural language processing ». Abu Dhabi Media Office. [5]
- ↑ 6.0 6.1 « Introducing JAIS: Arabic-centric Large Language Model on Azure ». Microsoft Tech Community. [6]