Jais (language model) — جيس
Jais (يُنطق «جيس») هو عائلة من نماذج اللغة الكبيرة (LLM) مفتوحة المصدر، تم تطويرها في دولة الإمارات العربية المتحدة وهي مُحسَّنة خصيصًا للغة العربية[1]. أُطلق على النموذج هذا الاسم تيمناً بجبل جيس، وهو أعلى قمة في دولة الإمارات العربية المتحدة[2].
أُنشئ المشروع بالتعاون بين شركة الأبحاث Inception (وهي شركة تابعة لتكتل التكنولوجيا G42)، وجامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)، وشركة "Cerebras Systems" الكاليفورنية لتصنيع شرائح الذكاء الاصطناعي[2]. تم إصدار "جيس" بترخيص مفتوح المصدر بهدف تحفيز تطوير منظومة الذكاء الاصطناعي للغة العربية، والحفاظ على التراث الثقافي واللغوي، وجعل تقنيات الذكاء الاصطناعي الحديثة أكثر سهولة للعالم الناطق بالعربية[1].
تاريخ التطوير والإصدارات
بدأ مشروع "جيس" في عام 2023 على خلفية محدودية نماذج اللغة الكبيرة الحالية للغات ذات الموارد المحدودة. أشار المطورون إلى نقص النماذج ثنائية اللغة عالية الجودة القادرة على معالجة اللغتين العربية والإنجليزية بكفاءة متساوية[2].
Jais-13B: الإصدار الأول
أُصدر الإصدار الأول، Jais-13B، في 30 أغسطس 2023، وكان يحتوي على 13 مليار معلمة[1]. تم تدريب النموذج على مجموعة بيانات مختلطة من النصوص العربية والإنجليزية بحجم 395 مليار رمز (token)[3]. وفي وقت إصداره، وُصف بأنه «نموذج اللغة الكبير العربي الأعلى جودة»[1].
Jais-30B: زيادة الحجم
في 8 نوفمبر 2023، أي بعد أقل من ثلاثة أشهر، قدّم التحالف إصدارًا ثانيًا مُحسَّنًا بشكل كبير، وهو Jais-30B الذي يحتوي على 30 مليار معلمة[4]. كانت زيادة الحجم مدفوعة بالحاجة إلى معالجة مهام تطبيقية أكثر تعقيدًا، مثل التلخيص والترجمة. تم تدريب النموذج على مجموعة بيانات موسعة ومنقحة بحجم 1.63 تريليون رمز[4].
Jais-70B وعائلة النماذج
في 6 أغسطس 2024، أعلنت شركة Inception (التابعة لـ G42) عن إطلاق النموذج الرائد Jais-70B (70 مليار معلمة) وعائلة كاملة من النماذج ذات الصلة[5]. أصبح Jais-70B أكبر نموذج لغة كبير مفتوح المصدر موجه للغة العربية. استُخدم في تطويره أسلوب التدريب المستمر (continuous training): فبدلاً من التدريب من الصفر، تم اعتماد نموذج Llama 2 بحجم 70B من شركة Meta كأساس، وجرى تدريبه الإضافي على 330 مليار رمز باللغة العربية. أتاح ذلك نقل المعرفة باللغة الإنجليزية بكفاءة من نموذج Llama 2 وتركيز الموارد على التدريب باللغة العربية[5].
البنية والميزات التقنية
ينتمي "جيس" إلى نماذج المحولات الانحدارية الذاتية (autoregressive transformer models) القائمة على بنية GPT-3 (decoder-only). الميزة الرئيسية للنموذج هي تخصصه ثنائي اللغة في اللغتين العربية والإنجليزية، على عكس العديد من نماذج اللغة الكبيرة متعددة اللغات التي تهيمن عليها اللغة الإنجليزية. وهذا يتيح تحقيق فهم عميق للغة العربية ولهجاتها[3].
عند إنشاء "جيس"، تم دمج حلول تقنية متقدمة[3]:
- ترميز ALiBi الموضعي: هو مخطط خاص للتضمينات الموضعية (positional embeddings) يتيح للنموذج معالجة سياق أطول من الذي تم تدريبه عليه.
- دالة التنشيط SwiGLU: هي دالة تنشيط (activation function) تعمل على تحسين جودة التدريب والقدرة التعبيرية للطبقات العصبية.
- Maximal Update Parametrization (µP): هي تقنية لضبط المُعلَمات الفائقة (hyperparameters) تعمل على استقرار عملية التدريب عند زيادة حجم النموذج.
- مُرمِّز (Tokenizer) متخصص: تم تطويره مع مراعاة خصائص اللغتين العربية والإنجليزية، مما يقلل عدد الرموز للنص العربي بمقدار 3 إلى 4 مرات مقارنة بالمُرمِّزات العالمية ويزيد من سرعة الأداء[6].
إلى جانب النماذج الأساسية (foundation models)، تم إصدار نسخة Jais-chat، التي خضعت لتدريب إضافي على 9.6 مليون زوج من الأسئلة والأجوبة لتكييفها لمهام روبوتات المحادثة والمساعدات الافتراضية[3].
التدريب ومجموعة البيانات
كانت إحدى المهام الرئيسية للمشروع هي إعداد مجموعة بيانات ضخمة وعالية الجودة من النصوص العربية. بلغ حجم مجموعة بيانات التدريب النهائية لنموذج Jais-13B 395 مليار رمز، موزعة كالتالي:
- 116 مليار رمز (29%) — نصوص عربية.
- 279 مليار رمز (71%) — نصوص إنجليزية وشيفرات برمجية.
تم جعل المكون العربي كبيرًا بشكل مقصود (حوالي 30%) لضمان جودة عالية في إتقان اللغة[3]. شملت البيانات كتبًا ومقالات إخبارية وصفحات ويب وشيفرات مصدرية. لزيادة حجم النصوص العربية عالية الجودة، استُخدمت الترجمة الآلية للمصادر الإنجليزية[3].
تم تدريب النماذج على الحاسوب الفائق Condor Galaxy 1 (CG-1) في أبوظبي، والذي تم تطويره بشكل مشترك بين G42 وCerebras Systems. بفضل هذه البنية التحتية، استغرق تدريب Jais-13B حوالي 3.5 أيام فقط من الوقت الفعلي[2].
التطبيقات والأهمية
يُعد "جيس" خطوة أساسية في تطوير الذكاء الاصطناعي التوليدي للغة العربية والمجتمعات اللغوية الأخرى غير الممثلة بشكل كافٍ في نماذج اللغة الكبيرة الحديثة. يهدف الوصول المفتوح إلى النموذج إلى تحفيز تبني تقنيات معالجة اللغات الطبيعية في مناطق الشرق الأوسط وشمال إفريقيا.
منذ إطلاقه، جذب المشروع اهتمام الكيانات الحكومية والتجارية في دولة الإمارات العربية المتحدة. حصلت وزارة الخارجية الإماراتية، وشركة النفط والغاز "أدنوك"، وشركة "الاتحاد للطيران"، و"بنك أبوظبي الأول" على وصول مبكر للنموذج[1]. في عام 2024، أعلنت مايكروسوفت عن دمج "جيس" في منصتها السحابية Microsoft Azure، مما يجعله متاحًا للمستخدمين العالميين[6].
يؤكد مطورو "جيس" على دوره في الحفاظ على التراث الثقافي واللغوي العربي. وفقًا لأندرو جاكسون، المدير التنفيذي لشركة Inception، يهدف المشروع إلى «ضمان أن تجد اللغة العربية، بتراثها الغني، صوتها في مشهد الذكاء الاصطناعي»[1]. يُخطط لاستخدام الخبرة المكتسبة لإنشاء نماذج لغة كبيرة مماثلة للغات وثقافات أخرى[1].
المراجع الأدبية
- Shazeer, N.; et al. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Yang, G.; et al. (2022). Tensor Programs V: Tuning Large Neural Networks via Zero‑Shot Hyperparameter Transfer. arXiv:2203.03466.
- Ali, A. R.; et al. (2022). A Large and Diverse Arabic Corpus for Language Modeling. arXiv:2201.09227.
- Sengupta, N.; et al. (2023). Jais and Jais‑chat: Arabic‑Centric Foundation and Instruction‑Tuned Open Generative Large Language Models. arXiv:2308.16149.
- Inception AI (2024). JAIS 30B Whitepaper. Online whitepaper.
- Koto, F.; et al. (2024). ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic. arXiv:2402.12840.
- Qian, Z.; et al. (2024). CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks. arXiv:2409.12623.
- Blake, C.; et al. (2024). u‑μP: The Unit‑Scaled Maximal Update Parametrization. arXiv:2407.17465.
- Inception AI; MBZUAI; Cerebras Systems (2024). Jais Family Model Card. Hugging Face.
ملاحظات
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 «Meet "Jais", The World's Most Advanced Arabic Large Language Model Open Sourced by G42's Inception». Cerebras Systems. [١]
- ↑ 2.0 2.1 2.2 2.3 «UAE's G42 launches open source Arabic language AI model». Reuters. [٢]
- ↑ 3.0 3.1 3.2 3.3 3.4 3.5 «[2308.16149] Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models». arXiv. [٣]
- ↑ 4.0 4.1 «Upgraded Arabic large language model is twice as big». Computer Weekly. [٤]
- ↑ 5.0 5.1 «G42 launches JAIS 70B and 20 other AI models to advance Arabic natural language processing». Abu Dhabi Media Office. [٥]
- ↑ 6.0 6.1 «Introducing JAIS: Arabic-centric Large Language Model on Azure». Microsoft Tech Community. [٦]