Mistral AI — ميسترال
Mistral AI — هي شركة فرنسية متخصصة في مجال الذكاء الاصطناعي، تركز على تطوير نماذج اللغة الكبيرة (LLM). تأسست الشركة في أبريل 2023، وسرعان ما أصبحت واحدة من اللاعبين الرئيسيين في الأسواق الأوروبية والعالمية، حيث وضعت نفسها كبديل للنماذج الاحتكارية من عمالقة التكنولوجيا الأمريكيين.
الميزة الرئيسية في نهج Mistral AI هي التركيز على إنشاء نماذج عالية الأداء ذات أوزان مفتوحة (غالبًا بموجب ترخيص Apache 2.0)، مما يساهم في دمقرطة الوصول إلى تقنيات الذكاء الاصطناعي المتقدمة. تشتهر الشركة بابتكاراتها المعمارية، مثل Grouped-Query Attention (GQA)، وSliding Window Attention (SWA)، وSparse Mixture-of-Experts (MoE)، والتي تسمح لنماذجها بتحقيق كفاءة عالية بحجم وتكاليف حسابية صغيرة نسبيًا.
History - التاريخ
تأسست شركة Mistral AI في باريس في أبريل 2023 على يد ثلاثة باحثين فرنسيين: آرثر مينش (Arthur Mensch)، وغيوم لامبل (Guillaume Lample)، وتيموثي لاكروا (Timothée Lacroix). كان المؤسسون الثلاثة قد عملوا سابقًا على نماذج لغوية كبيرة في شركات عالمية رائدة: كان مينش باحثًا في Google DeepMind، بينما عمل لامبل ولاكروا على نماذج اللغة الكبيرة في Meta AI.
تتمثل مهمة الشركة في جعل إنجازات الذكاء الاصطناعي المتقدمة متاحة للجميع، من خلال تعزيز الانفتاح والتعاون والشفافية. وقد سمح هذا النهج لشركة Mistral AI بجذب استثمارات كبيرة بسرعة:
- يونيو 2023: 105 مليون يورو في جولة تمويل أولية (seed round)، وهو رقم قياسي في أوروبا.
- ديسمبر 2023: 385 مليون يورو في جولة من السلسلة أ (Series A)، وبعدها تجاوز تقييم الشركة 2 مليار دولار، وحصلت على لقب "يونيكورن".
- فبراير 2024: الإعلان عن شراكة استراتيجية مع مايكروسوفت، تضمنت استثمارًا بقيمة 16 مليون دولار وإتاحة نماذج Mistral على سحابة Azure.
- يونيو 2024: جولة تمويل جديدة بقيمة 600 مليون يورو، مما رفع تقييم الشركة إلى حوالي 5.8 مليار يورو، وجعلها واحدة من أغلى الشركات الناشئة في مجال الذكاء الاصطناعي في العالم.
Technical Architectural Features - الخصائص التقنية للبنية
تعتمد نماذج Mistral AI على بنية الترانسفورمر، لكنها تتضمن عددًا من الابتكارات الرئيسية التي تهدف إلى زيادة الكفاءة وتقليل التكاليف الحسابية.
Transformer with Enhancements (Mistral 7B) - ترانسفورمر مع تحسينات (Mistral 7B)
قدم أول نموذج للشركة، Mistral 7B، تحسينين معماريين مهمين:
- Sliding Window Attention (SWA) (انتباه النافذة المنزلقة): بدلاً من أن يتفاعل كل توكن مع جميع التوكنات السابقة (وهو ما له تعقيد تربيعي)، تحدد آلية SWA الانتباه إلى نافذة ثابتة (على سبيل المثال، 4096 توكن). هذا يسمح بمعالجة تسلسلات طويلة جدًا (تصل إلى 32,000 توكن وأكثر) بتعقيد حسابي خطي، مما يسرّع المعالجة بشكل كبير.
- Grouped-Query Attention (GQA) (انتباه الاستعلام المجمع): هي تحسين لآلية الانتباه متعدد الرؤوس (multi-head attention) القياسية. تستخدم GQA عددًا أقل من "الرؤوس" للمفاتيح (keys) والقيم (values) مقارنة بالاستعلامات (queries) (على سبيل المثال، بنسبة 8:1)، مما يقلل بشكل كبير من متطلبات الذاكرة ويسرّع عملية التوليد (الاستدلال) دون فقدان كبير في الجودة.
Sparse Mixture-of-Experts (MoE) - مزيج الخبراء المتفرق (MoE)
في نماذج سلسلة Mixtral (مثل Mixtral 8x7B وMixtral 8x22B)، تُستخدم بنية Sparse Mixture-of-Experts (مزيج الخبراء المتفرق). بدلاً من طبقة شبكة عصبية كثيفة واحدة، يتم استخدام عدة شبكات فرعية "خبيرة" متوازية. لكل توكن مدخل، تقوم طبقة بوابة (موجه) خاصة باختيار مجموعة فرعية صغيرة من الخبراء لتفعيلها ديناميكيًا (عادةً 2 من 8).
هذا يسمح بإنشاء نماذج بعدد إجمالي هائل من المعلمات (يحتوي Mixtral 8x22B على 141 مليار معلمة)، ولكن عند معالجة كل توكن، لا يُستخدم سوى جزء صغير منها (حوالي 39 مليار). نتيجة لذلك، يحقق النموذج جودة تضاهي نماذج "كثيفة" أكبر بكثير، ولكن بسرعة وتكلفة استدلال كنماذج أصغر حجمًا بكثير.
Mamba Architecture (SSM) - بنية مامبا (SSM)
في عام 2024، قدمت Mistral AI نموذجًا تجريبيًا هو Codestral Mamba، يعتمد على بنية Mamba (نموذج فضاء الحالة الانتقائي). على عكس الترانسفورمر، تستخدم Mamba آلية تكرارية تعتمد على نماذج فضاء الحالة. المزايا الرئيسية هي:
- تعقيد خطي بالنسبة لطول التسلسل، مما يجعلها سريعة للغاية في السياقات الطويلة.
- سياق "لانهائي" نظريًا، محدود فقط بالذاكرة المتاحة.
- سرعة استدلال عالية مقارنةً بنماذج الترانسفورمر المكافئة.
Chronology and Models - التسلسل الزمني والنماذج
| الشهر / السنة | النموذج | المعلمات (مليار) | الميزات الرئيسية | الرخصة |
|---|---|---|---|---|
| 09 / 2023 | Mistral 7B | 7,3 | بنية GQA + SWA؛ سياق 32k؛ يتفوق على Llama 2 13B في جميع معايير الأداء. | Apache 2.0 |
| 12 / 2023 | Mixtral 8x7B | 46,7 (12,9 نشطة) | أول نموذج MoE مفتوح؛ جودة تضاهي GPT-3.5. | Apache 2.0 |
| 02 / 2024 | Mistral Small / Large | ? | نموذج "صغير" ونموذج رائد، متاحان عبر API. | Small: Apache 2.0, Large: Research |
| 04 / 2024 | Mixtral 8x22B | 141 (39 نشطة) | سياق 64k؛ جودة SOTA (الأحدث) بين النماذج مفتوحة المصدر عند إصداره. | Apache 2.0 |
| 05 / 2024 | Codestral 22B | 22 | نموذج متخصص لتوليد الشيفرة البرمجية (أكثر من 80 لغة). | Non-Production |
| 07 / 2024 | Mathstral 7B / Nemo 12B | 7 / 12 | نماذج متخصصة للرياضيات وتعدد اللغات. | Apache 2.0 |
| 07 / 2024 | Codestral Mamba 7.3B | 7,3 | نموذج تجريبي للشيفرة البرمجية مبني على بنية Mamba؛ سياق +256k. | Apache 2.0 |
| 09 / 2024 | Pixtral 12B | 12 | أول نموذج متعدد الوسائط مفتوح (نص + صور). | Apache 2.0 |
| 11 / 2024 | Mistral Large 24.11 | ~100+ (تقديري) | نموذج رائد محدث مع قدرة استنتاج منطقي محسنة. | Research |
| 01 / 2025 | Mistral Small 3 | 24 | محسن لزمن انتقال منخفض (حتى 150 توكن/ثانية)؛ جودة تضاهي نماذج 70B. | Apache 2.0 |
| 05 / 2025 | Mistral Medium 3 | ? | نموذج رائد متعدد الوسائط (نص، صور) بسياق 128k. | احتكارية |
| 05 / 2025 | Devstral 24B | 24 | نموذج "وكيل" لتطوير البرمجيات المستقل؛ 46.8% على SWE-Bench. | Apache 2.0 |
Comparison with Competitors - المقارنة مع المنافسين
- vs. Llama (Meta): تتفوق نماذج Mistral باستمرار على نماذج Llama ذات الحجم المماثل أو حتى الأكبر. تفوق Mistral 7B على Llama 2 13B، وتفوق Mixtral 8x7B على Llama 2 70B. الفرق الرئيسي هو الترخيص: تستخدم Mistral ترخيص Apache 2.0 المتساهل بالكامل، بينما يحتوي ترخيص Llama على قيود.
- vs. GPT (OpenAI): تظل نماذج OpenAI الرائدة (GPT-4) هي الأفضل في المهام الأكثر تعقيدًا، ومع ذلك، تُظهر نماذج Mistral المفتوحة (مثل Mixtral 8x7B) جودة تضاهي GPT-3.5. توفر Mistral بديلاً مفتوحًا، مما يسمح بنشر النماذج محليًا والتحكم فيها بالكامل.
- vs. Claude (Anthropic): تشتهر نماذج Claude بنافذة سياقها الكبيرة وتركيزها على الأمان. قدمت Mistral نماذج مفتوحة بسياق مماثل أو أكبر. من حيث الأداء على معايير الأداء القياسية (LMSys Arena)، تفوق نموذج Medium 3 على Claude 3 Opus.
Application and Ecosystem - التطبيق والنظام البيئي
Products - المنتجات
- Le Chat: مساعد محادثة عام (ويب، iOS/Android)، يعرض قدرات نماذج Mistral، بما في ذلك البحث على الويب وتوليد الصور.
- La Plateforme: منصة للشركات توفر الوصول عبر API إلى جميع نماذج Mistral، مما يسمح للشركات بدمج نماذج اللغة الكبيرة في منتجاتها.
Corporate Clients - عملاء الشركات
تُستخدم تقنيات Mistral من قبل شركات كبرى مثل BNP Paribas (التمويل)، وCMA CGM (الخدمات اللوجستية)، وZalando (التجارة الإلكترونية)، والوكالة الحكومية France Travail. بالنسبة للعملاء الأوروبيين، تعد إمكانية نشر النماذج محليًا أمرًا مهمًا للامتثال لـ GDPR.
Open-Source Community - مجتمع المصادر المفتوحة
بفضل ترخيصها المفتوح، أصبحت نماذج Mistral أساسًا لآلاف المشاريع على منصات مثل Hugging Face. يقوم المجتمع بنشاط بإعادة تدريب النماذج لحل مهام متخصصة، مما أدى إلى إنشاء إصدارات للبيولوجيا (BioMistral)، والقانون (SaulLM-7B)، وتوطينها للغات مختلفة (مثل Polish Bielik 7B).
Licensing - الترخيص
| سلسلة النماذج | الرخصة | القيود |
|---|---|---|
| الأساسية، Small، Mixtral، Mathstral، Nemo، Pixtral، Devstral | Apache 2.0 | استخدام تجاري حر. |
| Codestral 22B | Non-Production License | الاستخدام التجاري محظور بدون اتفاقية منفصلة. |
| سلسلة Large، سلسلة Medium | Mistral Research / احتكارية | الوصول فقط عبر API السحابي. |
Links - روابط
Literature - المراجع
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
- Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
- He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
- Jiang, A. Q. et al. (2023). Mistral 7B. arXiv:2310.06825.
- Jiang, A. Q. et al. (2024). Mixtral of Experts. arXiv:2401.04088.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.