Qwen (Alibaba) — كوين
Qwen (بالصينية: 通义千问، Tongyi Qianwen) هي عائلة من نماذج اللغة الكبيرة (LLM) التي طورها قسم الحوسبة السحابية في مجموعة علي بابا — Alibaba Cloud[1]. تُعد نماذج Qwen مساهمة كبيرة من عملاق التكنولوجيا الصيني في مجال الذكاء الاصطناعي. تم تقديم الإصدار الأول في وضع تجريبي (بيتا) في أبريل 2023، وكان الإطلاق العام في سبتمبر 2023[1].
شهدت عائلة Qwen تطورًا سريعًا، حيث قدمت للسوق حلولًا مفتوحة المصدر بالإضافة إلى إصدارات خاصة أكثر قوة. تشمل الخصائص الرئيسية لـ Qwen مجموعة واسعة من أحجام النماذج (من مئات الملايين إلى مئات المليارات من المعلمات)، وقدرات متقدمة متعددة الوسائط (معالجة النصوص والصور والصوت والفيديو)، ودعم عدد كبير من اللغات، وحلولًا معمارية مبتكرة مثل مزيج الخبراء (MoE) ووضع "التفكير" لحل المشكلات المعقدة[2].
في السوق العالمية، يُنظر إلى Qwen كمنافس جاد للنماذج الرائدة من OpenAI وMeta وAnthropic وMistral AI. تركز استراتيجية Alibaba Cloud على الأداء العالي والتوافر، وهو ما يتجلى في الإصدار المنتظم للنماذج المفتوحة، بشكل أساسي بموجب ترخيص Apache 2.0[3].
التاريخ والتطور
يتسم تطور عائلة Qwen بوتيرة سريعة وقرارات استراتيجية تستهدف كلاً من المجتمع المفتوح والمستخدمين التجاريين. انتقلت Alibaba Cloud من البنية الأولية التي كانت قريبة من LLaMA إلى إنشاء حلولها الفريدة، بما في ذلك بنيات MoE المعقدة والأنظمة المتقدمة متعددة الوسائط.
| تاريخ الإصدار | النموذج | المعلمات (مليار) | الميزات الرئيسية | الترخيص |
|---|---|---|---|---|
| أغسطس 2023 | Qwen-7B | 7 | أول نموذج مفتوح؛ تم تدريبه مسبقًا على حوالي 2.4 تريليون توكن؛ نافذة سياق 32 ألف توكن[4]. | Tongyi Qianwen License (يتطلب إذنًا للاستخدام التجاري)[5] |
| سبتمبر 2023 | Qwen-14B | 14 | تدريب على حوالي 3.0 تريليون توكن؛ دقة محسّنة في المهام المعقدة؛ نافذة سياق 8 آلاف[6]. | Tongyi Qianwen License |
| نوفمبر 2023 | Qwen-72B | 72 | نموذج رائد تم تدريبه على حوالي 3.0 تريليون توكن؛ سياق 32 ألف؛ أداء يضاهي أفضل النماذج في ذلك الوقت. | Tongyi Qianwen License |
| نوفمبر 2023 | Qwen-1.8B | 1.8 | نموذج مدمج للنشر المحلي؛ تم تدريبه مسبقًا على حوالي 2.2 تريليون توكن؛ سياق 32 ألف. | Tongyi Qianwen License |
| يونيو/سبتمبر 2024 | Qwen 2 | 0.5–72 | الجيل الثاني؛ تدريب على حوالي 7 تريليون توكن؛ تقديم نماذج MoE (مثل 57B-A14B)؛ زيادة السياق إلى 128 ألف باستخدام تقنية YaRN[7]. | Apache 2.0 (لمعظم النماذج) |
| سبتمبر 2024 | Qwen 2.5 | 3–32 | تحديث وسيط؛ توسيع مجموعة البيانات إلى حوالي 18 تريليون توكن؛ تحسين مهارات حل مسائل البرمجة والرياضيات[8]. | Apache 2.0 (باستثناء 72B) |
| نوفمبر 2024 | QwQ-32B (Preview) | 32 | نموذج تجريبي "Qwen with Questions" للاستدلال المعقد خطوة بخطوة؛ سياق 32 ألف. | Apache 2.0 (الأوزان فقط) |
| يناير 2025 | Qwen2.5-VL | 3–72 | نماذج متعددة الوسائط (نص + صورة)؛ تحليل الصور بأي دقة؛ سياق يصل إلى 128 ألف[9]. | Apache 2.0 (باستثناء 72B) |
| مارس 2025 | Qwen2.5-Omni-7B | 7 | نموذج شامل متعدد الوسائط: المدخلات (نص، صورة، فيديو، صوت)، المخرجات (نص، صوت). بنية "Thinker-Talker"[10]. | Apache 2.0 |
| أبريل 2025 | Qwen 3 | 0.6–235 (MoE) | الجيل الثالث؛ تدريب على حوالي 36 تريليون توكن بـ 119 لغة؛ إصدارات MoE (30B-A3B، 235B-A22B)؛ وضع "التفكير بصوت عالٍ" مدمج (<think>)؛ سياق 128 ألف[11].
|
Apache 2.0 (جميع النماذج) |
البنية والميزات التقنية
تعتمد نماذج Qwen على بنية المحول من نوع "المُفَكِّك فقط" (decoder-only)، على غرار LLaMA و GPT. يمثل كل نموذج مفككًا ذاتي الانحدار (autoregressive) مع آلية انتباه متعددة الرؤوس وكتل تغذية أمامية (feed-forward).
المكونات البنيوية الرئيسية
- العناصر الأساسية: تستخدم Qwen حلولًا قياسية في نماذج اللغة الكبيرة الحديثة: التسوية RMSNorm لتحقيق استقرار التدريب، ودالة التنشيط SwiGLU في الطبقات المتصلة بالكامل لتحسين الأداء[4].
- الترميز الموضعي: يتم استخدام Rotary Positional Embeddings (RoPE) لترميز معلومات موضع التوكنات، مما يسمح بمعالجة التسلسلات الطويلة بفعالية[8].
- الانتباه الفعال: لتسريع الحسابات وتوفير الذاكرة في آلية الانتباه، يتم استخدام خوارزمية FlashAttention[2].
النماذج الكثيفة ومزيج الخبراء (MoE)
تتضمن عائلة Qwen نماذج ذات نوعين من البنى:
- النماذج الكثيفة (Dense): تكون جميع معلمات النموذج نشطة عند معالجة كل توكن. أمثلة: Qwen-72B, Qwen2.5-32B. هذه النماذج أسهل في النشر، لكنها تتطلب موارد حسابية أكبر مع زيادة الحجم[11].
- نماذج "مزيج الخبراء" (Mixture-of-Experts, MoE): في هذه النماذج، بدلاً من طبقة واحدة كبيرة متصلة بالكامل، يتم استخدام عدة "خبراء" أصغر ومتخصصين. لكل توكن، تقوم طبقة توجيه خاصة (gating network) باختيار مجموعة فرعية صغيرة من الخبراء للمعالجة ديناميكيًا. هذا يسمح بإنشاء نماذج بعدد إجمالي هائل من المعلمات مع تكاليف حسابية أقل بكثير في مرحلة الاستدلال.
ابتكارات للسياق الطويل
يعد دعم السياق الطويل إحدى نقاط القوة في Qwen.
- دعمت النماذج الأولى ما يصل إلى 32k توكن.
- في جيل Qwen 2، تم زيادة نافذة السياق إلى 128k توكن بفضل طريقة YaRN (Yet Another RoPE Extension)، التي تسمح بتوسيع السياق دون فقدان كبير في الجودة[7].
- أظهر النموذج التجريبي Qwen2.5-Turbo القدرة على العمل مع سياق يصل إلى 1 مليون توكن[2].
"Thinking Mode" in Qwen 3 - "وضع التفكير" في Qwen 3
في الجيل الثالث من Qwen، تم تطبيق آلية "التفكير الهجين" (hybrid thinking). يمكن للنموذج تشكيل سلسلة من التفكير (chain-of-thought) بشكل صريح قبل تقديم الإجابة النهائية.
- بشكل افتراضي، يدمج Qwen 3 في مخرجاته كتلة خاصة
<think>...</think>، حيث يعرض الاستدلال المنطقي خطوة بخطوة. - يمكن للمستخدم تعطيل هذا الوضع عن طريق إضافة الأمر
/no_thinkفي الطلب.
تعمل هذه الآلية على تحسين قدرة النموذج على حل المشكلات المعقدة التي تتطلب استنتاجًا متعدد المراحل[3].
مُرمِّز متعدد اللغات
يستخدم Qwen مفردات توكنات موسعة (حوالي 151,000 توكن)، مبنية على مفردات BPE من نموذج GPT-4 الخاص بـ OpenAI (cl100k) مع تحسين إضافي للغة الصينية ولغات أخرى. وهذا يسمح بترميز الرموز الصينية والحروف اللاتينية والشيفرات البرمجية بكفاءة، مما يحسن القدرات متعددة اللغات للنموذج[4].
القدرات متعددة الوسائط
تتطور عائلة Qwen بنشاط نحو تعدد الوسائط، حيث تقدم نماذج قادرة على التعامل مع أنواع مختلفة من البيانات:
- Qwen-VL: يجمع بين محول بصري (لمعالجة الصور) ونموذج لغوي، مما يسمح بالإجابة على الأسئلة حول الصور وإنشاء الأوصاف. إصدار Qwen2.5-VL قادر على تحليل الصور بأي دقة واستخراج البيانات المنظمة (على سبيل المثال، من الجداول والنماذج)[9].
- Qwen-Audio: نموذج متخصص لمعالجة المعلومات الصوتية، قادر على التعرف على الكلام والموسيقى والأصوات الأخرى وتوليدها[12].
- Qwen2.5-Omni: نموذج شامل متعدد الوسائط من طرف إلى طرف (end-to-end)، يستقبل في نفس الوقت النصوص والصور والصوت والفيديو، ويولد استجابات على شكل نص أو كلام طبيعي في وضع البث المباشر. يعتمد على بنية "Thinker-Talker"، حيث يقوم "Thinker" (LLM) بإنشاء المحتوى النصي، ويقوم "Talker" (نموذج ذاتي الانحدار ثنائي المسار) بتوليف الصوت[10].
- النماذج المتخصصة: تم أيضًا إصدار نماذج موجهة لمهام محددة، مثل Qwen-Coder (البرمجة) و Qwen-Math (حل المسائل الرياضية).
بيانات التدريب والنطاق
يتم تدريب نماذج Qwen على مجموعات بيانات ضخمة للغاية تشمل نصوصًا من الإنترنت، وكتبًا، ومقالات علمية، وشيفرات برمجية، وبيانات رياضية.
- Qwen 1.0 (7B): حوالي 2.4 تريليون توكن.
- Qwen 1.0 (72B): حوالي 3.0 تريليون توكن.
- Qwen 2.0: حوالي 7 تريليون توكن.
- Qwen 2.5: حوالي 18 تريليون توكن.
- Qwen 3.0: حوالي 36 تريليون توكن، تغطي 119 لغة ولهجة.
لتحسين جودة البيانات، يتم تطبيق أساليب متقدمة للفلترة وتوليد بيانات اصطناعية عالية الجودة، خاصة في مجالات مثل الرياضيات والبرمجة[8].
الترخيص والتوافر
تطورت سياسة ترخيص نماذج Qwen مع مرور الوقت.
- النماذج المبكرة (Qwen 1): تم توزيعها بموجب ترخيص خاص بها Tongyi Qianwen License. سمح هذا الترخيص بالاستخدام الأكاديمي، ولكنه تطلب تقديم طلب والحصول على إذن منفصل للاستخدام التجاري[5].
- النماذج اللاحقة (Qwen 2, 2.5, 3): بدءًا من الجيل الثاني، انتقل المطورون إلى سياسة أكثر انفتاحًا. تم إصدار معظم النماذج الجديدة بموجب ترخيص Apache License 2.0 المتساهل، مما يسمح باستخدامها بحرية في المشاريع العلمية والتجارية على حد سواء[7]. مع إطلاق عائلة Qwen 3، أصبحت جميع نماذج هذا الجيل مفتوحة بالكامل بموجب ترخيص Apache 2.0 دون قيود إضافية[3].
- النماذج الخاصة والمقيدة: على الرغم من التوجه العام نحو الانفتاح، تظل النماذج الأكبر أو ذات الأهمية الاستراتيجية (مثل Qwen2.5-Max و Qwen2.5-VL-72B) خاصة ومتاحة عبر واجهات برمجة التطبيقات (API) المدفوعة من Alibaba Cloud أو يتم توزيعها بموجب تراخيص بحثية أكثر صرامة.
المقارنة مع المنافسين والأداء
يتم وضع نماذج Qwen بنشاط في سوق شديد التنافسية وتتم مقارنتها بانتظام مع تطورات الشركات العالمية الرائدة.
- مقابل Llama (Meta): في التقارير الفنية، غالبًا ما تظهر Qwen تفوقًا على نماذج Llama ذات الحجم المماثل. على سبيل المثال، يظهر Qwen2-72B نتائج أفضل على مقاييس الأداء MMLU و HumanEval و GSM8K مقارنة بـ Llama-3-70B.
- مقابل GPT (OpenAI): تسعى نماذج Qwen الرائدة إلى تقليص الفجوة مع نماذج GPT. تدعي Alibaba Cloud أن Qwen2.5-Max يتفوق على GPT-4o في بعض مقاييس الأداء الأكاديمية، وأن Qwen2-72B-Instruct يظهر قدرة تنافسية مع GPT-4-Turbo.
- مقابل Mistral AI: تركز كلتا الشركتين على النماذج المفتوحة. تظهر الاختبارات أن Qwen2-72B يتفوق على Mixtral-8x22B على مقاييس الأداء الرئيسية[7].
النتائج على مقاييس الأداء (Benchmarks)
| النموذج | MMLU (5-shot) | HumanEval (0-shot) | GSM8K (8-shot) | MT-Bench |
|---|---|---|---|---|
| Qwen2-72B (الأساسي) | 84.2 | 64.6 | 89.5 | غ/م |
| Qwen2-72B-Instruct | 82.3 | 86.0 | 93.2 | 9.12 |
| Llama-3-70B (الأساسي) | 79.5 | 48.2 | 83.0 | غ/م |
| Llama-3-70B-Instruct | 82.0 | 81.7 | 93.0 | 8.95 |
| Mixtral-8x22B (الأساسي) | 77.8 | 46.3 | 83.7 | غ/م |
| Mixtral-8x22B-Instruct | 74.0 | 73.8 | 89.1 | 8.66 |
ملاحظة: غ/م — غير قابل للتطبيق أو البيانات غير متوفرة في المصادر المذكورة.
المنظومة البيئية والتطبيقات
يتم دمج عائلة Qwen في منتجات ومنصات مختلفة، مما يشكل حولها منظومة بيئية متنامية.
- منصات Alibaba Cloud: يتم توفير الوصول إلى النماذج، خاصة الإصدارات الخاصة الأكثر قوة، عبر واجهات برمجة التطبيقات (API) في Model Studio. تتيح منصة PAI-EAS (Platform for AI - Elastic Algorithm Service) نشر نماذج Qwen وتدريبها الدقيق (fine-tuning) وتخصيصها.
- مجتمع المصادر المفتوحة: يتم نشر الإصدارات المفتوحة من النماذج وأوزانها وشيفراتها البرمجية بنشاط على منصات Hugging Face و ModelScope و GitHub[6]، مما يساهم في انتشارها الواسع واستخدامها من قبل الباحثين والمطورين في جميع أنحاء العالم.
- التطبيقات: تُستخدم النماذج لمجموعة واسعة من المهام، من إنشاء المحتوى وتحليل البيانات إلى بناء وكلاء الذكاء الاصطناعي. على سبيل المثال، تدعم نماذج Qwen3 بروتوكول Model Context Protocol (MCP)، الذي يسمح لها بالتفاعل بشكل أكثر فعالية مع التطبيقات والأدوات الأخرى.
مراجع
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
روابط خارجية
- روبوت الدردشة الرسمي لـ Qwen
- التوثيق الرسمي
- المستودع الرئيسي على GitHub
- الملف الشخصي على Hugging Face
- الملف الشخصي على ModelScope
مراجع
- Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Dao, T.; et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. arXiv:2205.14135.
- Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- Peng, B.; et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- Qwen Team (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.
- Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
- Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
ملاحظات
- ↑ 1.0 1.1 «Qwen». في Wikipedia [١]
- ↑ 2.0 2.1 2.2 «Qwen Models: Alibaba's Next-Generation AI Family for Text, Vision, and Beyond». Inferless. [٢]
- ↑ 3.0 3.1 3.2 «Qwen 3 offers a case study in how to effectively release a model». Simon Willison's Weblog. [٣]
- ↑ 4.0 4.1 4.2 Bai, Jinze; et al. (2023). Qwen Technical Report. arXiv:2309.16609.
- ↑ 5.0 5.1 «Qwen/Qwen-7B». Hugging Face. [٤]
- ↑ 6.0 6.1 «GitHub - QwenLM/Qwen: The official repo of Qwen». GitHub. [٥]
- ↑ 7.0 7.1 7.2 7.3 7.4 7.5 Qwen Team (2024). Qwen2 Technical Report. arXiv:2407.10671.
- ↑ 8.0 8.1 8.2 Qwen Team (2025). Qwen2.5 Technical Report. arXiv:2412.15115.
- ↑ 9.0 9.1 Bai, Jinze; et al. (2025). Qwen2.5-VL: A Versatile Vision-Language Model for Real-World Agent Tasks. arXiv:2502.13923.
- ↑ 10.0 10.1 Wang, Wen; et al. (2025). Qwen2.5-Omni: A Streaming End-to-End Multimodal Model. arXiv:2503.20215.
- ↑ 11.0 11.1 11.2 Yang, An; et al. (2025). Qwen3 Technical Report. arXiv:2505.09388.
- ↑ Gao, Shidong; et al. (2024). Qwen2-Audio Technical Report. arXiv:2407.10759.