Jamba (language model) — جامبا
Jamba هي عائلة من نماذج اللغة الكبيرة (LLM) طورتها شركة الأبحاث الإسرائيلية AI21 Labs. يمثل Jamba أول بنية هجينة من نوعها، حيث تدمج العناصر الأساسية لاثنين من أبرز المنهجيات في تطوير الذكاء الاصطناعي: المحولات (Transformers) ونماذج فضاء الحالة (State Space Models, SSM)، وتحديدًا بنية Mamba[1].
الهدف الرئيسي لـ Jamba هو حل المقايضة الأساسية في نماذج اللغة الكبيرة الحديثة: الجودة العالية والأداء (وهي سمة المحولات) مقابل الكفاءة والقدرة على معالجة السياقات الطويلة جدًا (وهي سمة نماذج SSM). من خلال الجمع بين هذه المنهجيات وإضافة التخفيف (sparsity) باستخدام Mixture-of-Experts (MoE)، يقدم Jamba نموذجًا قويًا وفعالًا في آن واحد، وقادرًا على التعامل مع كميات هائلة من النصوص في استعلام واحد.
بنية Jamba بالتفصيل
لا يقتصر Jamba على تبديل طبقات المحولات وMamba بشكل بسيط. بل يستخدم بنية كتلية مصممة بعناية، حيث تتكون كل كتلة من ثماني طبقات.
هيكل كتلة Jamba الواحدة:
- طبقة محول واحدة: هذه الطبقة مسؤولة عن الفهم "العميق" والاستدلال المعقد. وتتضمن هذه الطبقة بنية Mixture-of-Experts (MoE).
- سبع طبقات Mamba: تتبع هذه الطبقات طبقة المحول، وهي مسؤولة عن المعالجة الفعالة للتسلسل و"تمرير" المعلومات عبر السياق الطويل[2].
تسمح هذه البنية غير المتماثلة للنموذج بإدارة الموارد الحسابية بكفاءة: فالعمليات الثقيلة ولكن القوية للمحولات تُنفذ بشكل أقل، بينما تُنفذ عمليات Mamba الخفيفة والسريعة بشكل أكثر تكرارًا.
Mixture-of-Experts (MoE) - تكامل خليط الخبراء (MoE)
يستخدم Jamba بنية MoE لزيادة الكفاءة بشكل أكبر.
- تُطبق MoE فقط على الكتل متصلة بالكامل (FFN) داخل طبقات المحولات[3]. بينما تظل طبقات Mamba كثيفة.
- في نموذج Jamba الأول، كان هناك 16 خبيرًا.
- لكل توكن، تختار شبكة التوجيه أفضل خبيرين (Top-2 gating).
وهذا يعني أنه على الرغم من أن العدد الإجمالي لمعلمات النموذج كبير (52 مليار)، إلا أنه في كل خطوة من خطوات معالجة التوكن في طبقة المحول، يكون هناك خبيران فقط من أصل 16 نشطين، مما يجعل العمليات الحسابية سريعة جدًا.
تطور نماذج Jamba
Jamba-v0.1 (مارس 2024)
النموذج الأول الذي تم تقديمه ضمن هذه العائلة له الخصائص التالية:
| الخاصية | القيمة |
|---|---|
| إجمالي عدد المعلمات | 52 مليار |
| المعلمات النشطة | ~12 مليار |
| عدد الخبراء (MoE) | 16 (2 نشطين) |
| نافذة السياق | 256,000 توكن |
| الترخيص | Apache 2.0[4] |
بفضل بنيته الهجينة، يستطيع Jamba-1 معالجة سياق يصل طوله إلى 256,000 توكن، وهو ما يعادل رواية من 400 صفحة تقريبًا، ويمكن نشره على GPU استهلاكي واحد بذاكرة 80 جيجابايت[5].
Jamba-1.5 (2024)
في عام 2024، قدمت AI21 Labs عائلة محدثة من نماذج Jamba 1.5، والتي تتضمن إصدارين: Jamba 1.5 Mini (12 مليار معلمة نشطة من إجمالي 52 مليار) وJamba 1.5 Large (94 مليار معلمة نشطة من إجمالي 398 مليار)[6]. تُظهر هذه النماذج تحسينات كبيرة في الأداء:
- استدلال أسرع بما يصل إلى 2.5 مرة في السياقات الطويلة مقارنة بالمنافسين.
- دعم تسع لغات، بما في ذلك الإنجليزية والإسبانية والفرنسية والعربية[7].
المزايا الرئيسية والأداء
- نافذة سياق ضخمة: 256,000 توكن — وهي واحدة من أكبر النوافذ المتاحة بين جميع النماذج (بما في ذلك النماذج الاحتكارية) وقت إصداره. هذا يجعل Jamba مثاليًا للمهام التي تتطلب تحليل مستندات كبيرة: العقود القانونية، الأبحاث العلمية، قواعد الأكواد البرمجية بأكملها، أو الحوارات الطويلة.
- أداء وكفاءة عالية: في الاختبارات، يُظهر Jamba أداءً يضاهي أو يتفوق على النماذج المفتوحة الرائدة ذات الحجم المماثل، مثل Llama وMixtral، مع تحقيق إنتاجية أعلى بـ 3 مرات في السياقات الطويلة[8].
- الانفتاح والتوافر: يُوزع Jamba بموجب ترخيص Apache 2.0 المتساهل، مما يسمح باستخدامه بحرية في الأغراض التجارية والبحثية. أوزان النموذج متاحة على منصة Hugging Face.
النتائج على مقاييس الأداء (Benchmarks)
يُظهر Jamba 1.5 نتائج تنافسية على مختلف مقاييس الأداء[9]:
- حقق Jamba 1.5 Mini درجة 46.1 في Arena Hard، مما يجعله النموذج العام الرائد في فئته[10].
- حقق Jamba 1.5 Large درجة 65.4 في Arena Hard، متفوقًا على Llama 3.1 70B و 405B.
التطبيقات والتوافر
تم تحسين Jamba للتطبيقات التجارية ويدعم ميزات مثل استدعاء الوظائف (function calling)، والإخراج المنظم بصيغة JSON، ومعالجة المستندات. النموذج متاح على العديد من المنصات، بما في ذلك:
- Hugging Face
- Google Cloud Vertex AI
- Microsoft Azure
- NVIDIA API catalog
- Amazon Bedrock[9]
- AI21 Studio
لدعم الاستدلال الفعال من حيث التكلفة، قدمت AI21 Labs تقنية ExpertsInt8 — وهي تقنية تكميم (quantization) جديدة تسمح بتشغيل Jamba 1.5 Large على جهاز بـ 8 وحدات GPU بسعة 80 جيجابايت لكل منها دون فقدان في الجودة عند معالجة سياق بحجم 256 ألف توكن[11].
المؤلفات
- Lieber, O.; et al. (2024). Jamba: A Hybrid Transformer‑Mamba Language Model. arXiv:2403.19887.
- Lieber, O.; et al. (2024). Jamba‑1.5 Models and ExpertsInt8 Quantization. OpenReview JFPaD7lpBD.
- Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
- Gu, A.; et al. (2021). S4: Efficiently Modeling Long Sequences with Structured State Spaces. arXiv:2111.00396.
- Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Yun, L.; et al. (2024). Toward Inference‑Optimal Mixture‑of‑Expert Large Language Models. arXiv:2404.02852.
- Liu, J.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
- Gupta, V.; et al. (2024). Lynx: Enabling Efficient MoE Inference through Dynamic Batch‑Aware Expert Selection. arXiv:2411.08982.
- Liu, J.; et al. (2024). A Survey on Inference Optimization Techniques for Mixture of Experts Models. arXiv:2412.14219.
- Hsieh, C.‑P.; et al. (2024). RULER: What's the Real Context Size of Your Long‑Context Language Models?. arXiv:2404.06654.
ملاحظات
- ↑ «Announcing Jamba: AI21's Groundbreaking SSM-Transformer Model». AI21 Labs Blog. [١]
- ↑ Lieber, O., et al. (2024). Jamba: A Hybrid Transformer-Mamba Language Model. arXiv:2403.19887.
- ↑ «Jamba Documentation». Hugging Face Transformers. [٢]
- ↑ «ai21labs/Jamba-v0.1». Hugging Face. [٣]
- ↑ «AI21 Labs' Jamba: A New Hybrid LLM Architecture». Gradient Flow. [٤]
- ↑ «Announcing the Jamba-1.5 model family». AI21 Labs Blog. [٥]
- ↑ «ai21labs/AI21-Jamba-Large-1.5». Hugging Face. [٦]
- ↑ «تكسر AI21 Labs حواجز جديدة بمساعدة Jamba». ITinAI. [٧]
- ↑ 9.0 9.1 «إصدار Jamba 1.5: النموذج الهجين من AI21 Labs». Dzen. [٨]
- ↑ «Jamba-1.5 family of models by AI21 Labs is now available in Amazon Bedrock». AWS What's New. [٩]
- ↑ «ExpertsInt8: A new paradigm for efficient inference of MoE-based LLMs». OpenReview. [١٠]