Falcon (language model family) — فالكون

From Systems analysis wiki
Jump to navigation Jump to search

Falcon هو عائلة من نماذج اللغة الكبيرة (LLM) مفتوحة المصدر، طورها معهد الابتكار التكنولوجي (Technology Innovation Institute, TII) في أبوظبي، الإمارات العربية المتحدة[1]. أصبحت نماذج Falcon مساهمة بارزة في تطوير الذكاء الاصطناعي المتاح للجميع، حيث تحتل بانتظام مراتب متقدمة في تصنيفات الأداء، مثل لوحة صدارة نماذج اللغة الكبيرة المفتوحة (Open LLM Leaderboard) من Hugging Face[2].

تتضمن العائلة نماذج بأحجام وتخصصات متنوعة، بدءًا من الإصدارات المدمجة التي يمكن تشغيلها على الأجهزة الاستهلاكية، وصولًا إلى النماذج الأكبر حجمًا التي تنافس منتجات كبرى شركات التكنولوجيا. من أبرز ميزات Falcon بنيتها المتقدمة، وتدريبها على مجموعة بيانات عالية الجودة تُعرف باسم RefinedWeb، وترخيصها المفتوح في الغالب Apache 2.0[3].

التاريخ والتطور

تم تقديم الإصدار الأول من نماذج Falcon في يونيو 2023. وفي سبتمبر 2023، أُطلق نموذج Falcon-180B، الذي أصبح في ذلك الوقت أكبر وأقوى نموذج لغوي كبير مفتوح المصدر في العالم، متجاوزًا نموذج Llama 2 70B من Meta من حيث عدد المعلمات[4][5].

شمل التطوير اللاحق للعائلة إصدار أجيال جديدة ونسخ متخصصة:

  • Falcon 2 (عام 2024): الجيل الثاني بقدرات محسّنة، بما في ذلك نسخة متعددة الوسائط Falcon 2 11B VLM (Vision Language Model)[6].
  • Falcon 3 (ديسمبر 2024): أحدث جيل، تم تدريبه على 14 تريليون توكن، مع ميزات متعددة الوسائط موسعة ومُحسَّن للعمل على الأجهزة خفيفة الوزن، بما في ذلك الحواسيب المحمولة[7][8].
  • النماذج المتخصصة: أُصدرت نماذج مصممة لمهام محددة، مثل Falcon Arabic وFalcon Mamba.
النماذج الرئيسية في عائلة Falcon
النموذج المعلمات (مليار) الميزات الرئيسية الترخيص
Falcon-180B 180 أكبر نموذج من الجيل الأول؛ تم تدريبه على 3.5 تريليون توكن؛ يتفوق على GPT-3.5[4]. ترخيص TII Falcon 1.0 (مع قيود للاستخدام التجاري)[5]
Falcon-40B 40 نموذج أساسي عالي الأداء؛ تم تدريبه على 1 تريليون توكن. Apache 2.0
Falcon-7B 7 نموذج مدمج يتطلب حوالي 15 جيجابايت من ذاكرة GPU؛ مناسب للأجهزة الاستهلاكية[2]. Apache 2.0
Falcon-1.3B 1.3 أصغر نموذج للأجهزة ذات الموارد المحدودة. Apache 2.0
Falcon 2 11B 11 الجيل الثاني؛ ينافس Llama 3 8B و Gemma 7B؛ توجد نسخة متعددة الوسائط (VLM)[6]. Apache 2.0
Falcon 3 غير متاح تم تدريبه على 14 تريليون توكن؛ متعدد الوسائط (نص، صورة، صوت، فيديو)؛ يعمل على الحواسيب المحمولة[7]. Apache 2.0
Falcon Arabic 7 نموذج متخصص للغة العربية (الفصحى واللهجات)؛ يعتمد على بنية Falcon 3[9]. Apache 2.0
Falcon Mamba غير متاح نموذج تجريبي يعتمد على بنية Mamba (SSM) بدلاً من المحولات (transformer)[10]. Apache 2.0

البنية والميزات التقنية

بنية المحولات (Transformer)

تعتمد معظم نماذج Falcon على بنية المحولات (transformer) من نوع "ديكودر فقط" (decoder-only). وتشمل القرارات البنيوية الرئيسية ما يلي:

  • Multi-Query Attention (MQA): على عكس آلية الانتباه متعدد الرؤوس (Multi-Head Attention) القياسية، حيث يكون لكل "رأس" مجموعة مفاتيح وقيم (key/value) خاصة به، في MQA تشترك جميع رؤوس الانتباه في مجموعة واحدة من المفاتيح والقيم. هذا يقلل بشكل كبير من استهلاك الذاكرة ويسرّع عملية الاستدلال دون فقدان كبير في الجودة[2].
  • Rotary Positional Embeddings (RoPE): لترميز معلومات موضع التوكنات، يتم استخدام تقنية RoPE، كما هو الحال في نماذج اللغة الكبيرة الحديثة الأخرى.
  • FlashAttention: تُستخدم لتحسين حسابات آلية الانتباه.

بنية Mamba (نموذج فضاء الحالة)

يُعد نموذج Falcon Mamba مبتكرًا لأنه يبتعد عن بنية المحولات التقليدية لصالح نموذج فضاء الحالة (State Space Model - SSM). تعالج بنية Mamba تسلسلات البيانات بشكل خطي، مما يجعلها أكثر كفاءة بشكل ملحوظ عند التعامل مع سياقات طويلة جدًا وتتطلب موارد حاسوبية أقل مقارنة بالمحولات[10].

بيانات التدريب

تعتمد نماذج Falcon في تدريبها على مجموعة بيانات عالية الجودة تُعرف باسم RefinedWeb، والتي أنشأها معهد الابتكار التكنولوجي (TII)[5]. تتكون هذه المجموعة من تريليونات التوكنات المستخرجة من Common Crawl، مع تطبيق عمليات تصفية دقيقة وإزالة للتكرار بهدف تحسين الجودة.

  • بالنسبة لنموذج Falcon-180B، استُخدمت مجموعة بيانات موسعة تحتوي على 3.5 تريليون توكن، شكلت RefinedWeb حوالي 85% منها، بالإضافة إلى بيانات منتقاة من الكتب والحوارات والشيفرات البرمجية[4].
  • تم تدريب Falcon Arabic على مجموعة بيانات عربية أصلية (غير مترجمة) عالية الجودة، تغطي كلاً من اللغة العربية الفصحى الحديثة واللهجات الإقليمية[11].

النماذج المتخصصة

Falcon Arabic - فالكون العربي

Falcon Arabic هو نموذج يحتوي على 7 مليارات معلمة، تم تحسينه خصيصًا للتعامل مع اللغة العربية. يُظهر النموذج نتائج متميزة في معايير تقييم اللغة العربية (Open Arabic LLM Leaderboard)، وهو قادر على فهم كل من اللغة العربية الفصحى الحديثة (MSA) واللهجات الإقليمية المتعددة. يتيح ذلك للنموذج تقديم إجابات دقيقة ومراعية للثقافة للمستخدمين الناطقين بالعربية[9]. يتفوق أداؤه على نماذج أكبر منه حجمًا بما يصل إلى 10 مرات[12].

القدرات متعددة الوسائط

  • أصبح Falcon 2 11B VLM أول نموذج متعدد الوسائط في العائلة، قادرًا على معالجة النصوص والصور معًا[6].
  • وسّع Falcon 3 هذه القدرات بشكل كبير، مضيفًا دعمًا للفيديو والصوت. من المخطط أن يتوفر وضع صوتي كامل في يناير 2025[7].

الأداء والمشكلات

المقارنة بالمنافسين

تُظهر نماذج Falcon أداءً عاليًا باستمرار.

  • يتفوق Falcon-180B على GPT-3.5 و Llama 2 70B في معظم معايير التقييم الأكاديمية مثل MMLU و HellaSwag و LAMBADA، على الرغم من أنه أقل أداءً من GPT-4[4].
  • يُظهر Falcon 2 11B أداءً يعادل أو يتفوق على Meta Llama 3 8B و Google Gemma 7B[6].
  • احتل Falcon 3 عند إطلاقه المرتبة الأولى في التصنيف العالمي لـ Hugging Face ضمن فئة النماذج بحجمه[7].

القيود والمشكلات

  • الجودة في اللغات المختلفة: الجزء الأكبر من بيانات التدريب باللغة الإنجليزية[13]. ولهذا السبب، قد تكون جودة أداء النماذج في اللغات الأخرى، بما في ذلك الروسية، أقل بكثير.[14].
  • الهلوسة: كما هو الحال مع جميع نماذج اللغة الكبيرة، فإن نماذج Falcon عُرضة لتوليد معلومات غير دقيقة أو مختلقة (هلوسة)، مما يتطلب الحذر عند استخدامها في تطبيقات حساسة[15].
  • قيود الترخيص: على الرغم من أن معظم النماذج تُوزَّع بموجب ترخيص Apache 2.0، فإن النموذج الرائد Falcon-180B له ترخيص خاص به، وهو TII Falcon LLM License، الذي يفرض دفع عائدات للاستخدام التجاري إذا تجاوزت الإيرادات مليون دولار، مما يحد من استخدامه في قطاع الأعمال[5][16].

روابط خارجية

المراجع

  • Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Almazrouei, E. et al. (2023). The Falcon Series of Open Language Models. arXiv:2311.16867.
  • Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
  • Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
  • Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv:2306.01116.
  • Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.

الهوامش

  1. «В ОАЭ представили большую языковую модель Falcon 2». Интерфакс. [١]
  2. 2.0 2.1 2.2 «Falcon: The "T-shirt-sized" 7B and 40B models that are democratizing the LLM landscape». Hugging Face Blog. [٢]
  3. «Falcon Model». Hugging Face Transformers documentation. [٣]
  4. 4.0 4.1 4.2 4.3 «Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2». The Decoder. [٤]
  5. 5.0 5.1 5.2 5.3 «Falcon 180B: крупнейшая в мире открытая языковая модель». Neurohive. [٥]
  6. 6.0 6.1 6.2 6.3 «Falcon 2: Институт технологических инноваций ОАЭ выпускает новую серию ИИ-моделей, превосходящую Llama 3 от Meta». AETOSWire. [٦]
  7. 7.0 7.1 7.2 7.3 «Falcon 3: Институт технологических инноваций ОАЭ запускает самые мощные в мире малые ИИ-модели». AETOSWire. [٧]
  8. «Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures». Abu Dhabi Media Office. [٨]
  9. 9.0 9.1 «Falcon Arabic». FalconLLM TII. [٩]
  10. 10.0 10.1 «Falcon Mamba — новый шаг в развитии языковых моделей без механизма внимания». Pikabu. [١٠]
  11. «Middle East's Leading AI Powerhouse TII Launches Two New AI Models». TII News. [١١]
  12. «Middle East's leading AI powerhouse, TII,launches two new AI models». Falcon Foundation. [١٢]
  13. Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, и др. «The Falcon Series of Open Language Models». arXiv, 29 ноябрь 2023 г. https://doi.org/10.48550/arXiv.2311.16867.[١٣]
  14. «Ведущий производитель ИИ на Ближнем Востоке, TII, запускает две новые модели ИИ». AETOSWire. [١٤]
  15. «Falcon-180B: обзор, запуск и первые впечатления». Habr. [١٥]
  16. «Falcon 180B License Discussion». Hugging Face. [١٦]