DBRX (language model) — دي بي آر إكس

From Systems analysis wiki
Jump to navigation Jump to search

DBRX هو نموذج لغة كبير (LLM) مفتوح المصدر، تم تطويره بواسطة فريق أبحاث Mosaic AI في شركة Databricks. تم إطلاق النموذج رسميًا في 27 مارس 2024، ويُقدَّم كحل عالي الأداء للاستخدام في الشركات[1].

يعتمد DBRX على بنية مزيج الخبراء (MoE) دقيقة الحبيبات (fine-grained)، ويجمع بين الأداء العالي وكفاءة التدريب والاستدلال. عند إطلاقه، حقق DBRX أفضل النتائج بين جميع النماذج المفتوحة في اختبارات الأداء (benchmarks) الرئيسية، متفوقًا على نماذج مثل LLaMA 2 وMixtral وGrok-1، وأظهر قدرة تنافسية مع النماذج المغلقة من مستوى GPT-3.5 Turbo[2].

تاريخ التطوير

كان ظهور DBRX استمرارًا لاستراتيجية Databricks في تطوير النماذج التوليدية المفتوحة. في يونيو 2023، استحوذت Databricks على الشركة الناشئة MosaicML، المتخصصة في تدريب النماذج الكبيرة، وعلى أساسها تم إنشاء قسم Mosaic AI[3].

شرع فريق Mosaic AI، بقيادة كبير مهندسي الشبكات العصبية جوناثان فرانكل، في تطوير نموذج لغوي كبير جديد بهدف الوصول إلى جودة تضاهي أفضل الأنظمة التجارية المغلقة، ولكن بصيغة مفتوحة المصدر. أُطلق على المشروع اسم DBRX. استغرق تطوير النموذج وتدريبه المسبق حوالي شهرين ونصف، وبلغت تكلفته التقديرية حوالي 10 ملايين دولار أمريكي[3].

البنية المعمارية

DBRX هو نموذج محولات (transformer) من نوع المُفَكِّك فقط (decoder-only) ويستخدم بنية مزيج الخبراء (MoE) دقيقة الحبيبات (fine-grained).

الميزات الرئيسية للبنية المعمارية:

  • إجمالي عدد المعلمات: 132 مليار.
  • الخبراء: يتكون النموذج من 16 نموذجًا فرعيًا صغيرًا متخصصًا ("الخبراء").
  • آلية التنشيط: لكل توكن (token) مُدخل، يتم تنشيط 4 خبراء فقط من أصل 16. هذا يعني أنه أثناء الاستدلال (inference)، يكون عدد المعلمات النشطة 36 مليار فقط، مما يضمن سرعة وكفاءة عالية. يوفر هذا المخطط عددًا أكبر بـ 65 مرة من التوليفات الممكنة للخبراء مقارنةً بنموذج Mixtral (الذي يضم 8 خبراء مع تنشيط خبيرين في كل مرة)[1].
  • المكونات: تُستخدم حلول معمارية حديثة مثل التضمينات الموضعية الدورانية (RoPE)، ووحدات البوابات الخطية (gated linear units أو GLU)، وانتباه الاستعلام المجمع (grouped query attention أو GQA).
  • طول السياق: 32,768 توكن.

تسمح هذه البنية للنموذج بالجمع بين مزايا العدد الهائل من المعلمات (لتخزين المعرفة) وكفاءة النماذج الأصغر (لسرعة الاستدلال).

التدريب

تم التدريب المسبق لنموذج DBRX على مجموعة بيانات منسقة بعناية بحجم 12 تريليون توكن، تتكون من نصوص وأكواد برمجية. كانت جودة البيانات أولوية قصوى؛ حيث استخدم المطورون منصة Databricks السحابية (Apache Spark، Databricks Notebooks، Unity Catalog) لتنقية البيانات وإعدادها ومراجعتها[1].

أثناء التدريب، تم استخدام أسلوب التعلم المنهجي (curriculum learning)، حيث تم تغيير نسبة أنواع البيانات في مراحل مختلفة. على سبيل المثال، خُصص الجزء الأخير من التدريب لإدخال مهام معقدة بشكل تدريجي، وهو ما أدى، بحسب المطورين، إلى تحسن ملحوظ في الجودة. تم إجراء التدريب على عنقود حوسبة يتكون من 3072 وحدة معالجة رسوميات (GPU) من نوع Nvidia H100.

بعد التدريب المسبق، خضع النموذج الأساسي لعملية ضبط دقيق إضافية (instruction tuning) لإنشاء النسخة التفاعلية DBRX Instruct، المُحسَّنة لتنفيذ تعليمات المستخدم.

الأداء

عند إطلاقه، وضع DBRX معيارًا جديدًا للجودة بين النماذج اللغوية الكبيرة مفتوحة المصدر عبر مجموعة واسعة من اختبارات الأداء.

مقارنة مع النماذج المفتوحة

نتائج DBRX Instruct في اختبارات الأداء الرئيسية[1]
اختبار الأداء (Benchmark) المهمة DBRX Instruct أفضل نموذج تالٍ (Mixtral/Grok-1)
Hugging Face Open LLM Leaderboard (AVG) معرفة عامة 74,5% 72,7% (Mixtral Instruct)
HumanEval برمجة 70,1% 63,2% (Grok-1)
GSM8K استدلال رياضي 66,9% 62,9% (Grok-1)
MMLU معرفة عامة 73,7% 71,5% (Mixtral Instruct)

احتل DBRX المرتبة الأولى في كل من الترتيب العام لـHugging Face Open LLM Leaderboard والاختبار الشامل Databricks LLM Gauntlet، مُظهرًا تفوقًا كبيرًا على النماذج السابقة[1].

مقارنة مع النماذج المغلقة

يتفوق DBRX Instruct على GPT-3.5 Turbo في عدد من المقاييس الرئيسية، بما في ذلك MMLU (بنتيجة 73,7% مقابل 70,0%) وHumanEval (بنتيجة 70,1% مقابل 48,1%). من حيث جودة الإجابات في بعض اختبارات الأداء (مثل MTBench)، يقترب النموذج من مستوى Gemini 1.0 Pro والإصدارات المبكرة من GPT-4[1].

كفاءة التدريب والاستدلال

  • كفاءة التدريب: أتاح استخدام بنية MoE تقليل التكاليف الحسابية (FLOPS) بمقدار 2 إلى 4 مرات مقارنة بالنماذج الكثيفة (dense models) ذات الجودة المماثلة.
  • كفاءة الاستدلال: بفضل تنشيط 36 مليار معلمة فقط، يوفر DBRX إنتاجية (سرعة استدلال) أعلى بمرتين إلى ثلاث مرات مقارنة بالنماذج الكثيفة ذات الحجم المماثل (مثل LLaMA2-70B)[1].

الترخيص والتوافر

يتم توزيع DBRX بموجب ترخيص مُصمم خصيصًا له وهو Databricks Open Model License. يسمح هذا الترخيص بالاستخدام والتعديل بحرية، بما في ذلك الاستخدام التجاري، ولكنه يتضمن عددًا من القيود. بشكل خاص، وكما هو الحال مع ترخيص LLaMA 2، يتطلب الترخيص الحصول على إذن منفصل من Databricks إذا كانت الخدمات القائمة على DBRX ستُستخدم من قبل جمهور يتجاوز 700 مليون مستخدم نشط شهريًا.

تتوفر أوزان النموذج المدربة مسبقًا (النسخة الأساسية ونسخة Instruct) للتنزيل عبر مستودع على Hugging Face[4].

المراجع

  • Mosaic Research Team. (2024). Introducing DBRX: A New State‑of‑the‑Art Open LLM. Databricks Blog.
  • Databricks. (2024). Databricks Open Model License (DBRX). Online specification.
  • Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
  • Ainslie, J.; et al. (2023). Grouped‑Query Attention: Efficient Training of Generalized Multi‑Query Transformers. arXiv:2305.13245.
  • Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
  • Cai, W.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Chen, Y.; et al. (2024). Scaling Laws for Fine‑Grained Mixture of Experts. arXiv:2402.07871.
  • Kundu, A.; et al. (2024). Strategic Data Ordering: Enhancing Large Language Model Training via Curriculum Learning. arXiv:2405.07490.

هوامش

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 «Introducing DBRX: A New State-of-the-Art Open LLM». Databricks Blog. [١]
  2. «Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok». InfoWorld. [٢]
  3. 3.0 3.1 «Databricks spent $10M on new DBRX generative AI model». TechCrunch. [٣]
  4. «databricks/dbrx-base». Hugging Face. [٤]