DeepSeek — ديب سيك
DeepSeek هي شركة أبحاث صينية في مجال الذكاء الاصطناعي، تعمل على تطوير نماذج لغوية كبيرة (LLM) وأنظمة متعددة الوسائط. اكتسبت الشركة شهرة واسعة بفضل النشر المفتوح لأوزان نماذجها وكفاءتها الاقتصادية العالية، مما أدى إلى تعديل الأسعار في سوق الذكاء الاصطناعي في أواخر عام 2024 وأوائل عام 2025.[1]
التاريخ
مؤسس DeepSeek هو رجل الأعمال والمؤسس المشارك لصندوق التحوط High-Flyer، ليانغ وينفنغ. في ربيع عام 2023، فصلت High-Flyer قسم أبحاث الذكاء الاصطناعي، الذي أصبح في مايو من نفس العام شركة DeepSeek AI. بحلول عام 2025، نما عدد الموظفين إلى حوالي 160 موظفًا.[2] منذ الأيام الأولى، أعلنت الشركة عن توجهها نحو الانفتاح — نشر الأوزان ("open-weight") بموجب تراخيص متساهلة والتركيز على الأبحاث الأساسية في مجال الذكاء الاصطناعي العام (AGI).
على عكس معظم الشركات الناشئة، يتم تمويل DeepSeek من ميزانية البحث والتطوير (R&D) لشركة High-Flyer، وهو ما يسمح لها، حسب قول المؤسس، بالتركيز على الأهداف طويلة الأمد بدلاً من تحقيق الدخل الفوري.[3]
أحدثت الشركة ضجة كبيرة في الأوساط التكنولوجية والمالية في يناير 2025 بعد إطلاق نموذج DeepSeek-R1. أدى الإعلان عن أن تكلفة تدريب النموذج، الذي يضاهي GPT-4، كانت أقل من 6 ملايين دولار (مقارنة بتقديرات تتجاوز 100 مليون دولار لـ GPT-4)، إلى انهيار أسهم عمالقة التكنولوجيا وأجبر الصناعة على إعادة التفكير في نموذج "المزيد من الحوسبة = نموذج أفضل".[4]
الميزات المعمارية
- Mixture-of-Experts (DeepSeekMoE)
- تستخدم معظم النماذج الرائدة من DeepSeek بنية مزيج الخبراء (MoE). على عكس النماذج "الكثيفة"، حيث يتم تنشيط جميع المعاملات عند معالجة الاستعلام، في نماذج MoE يتم استخدام جزء صغير فقط من الشبكات الفرعية المتخصصة ("الخبراء") لكل توكين (token). طورت DeepSeek تطبيقًا خاصًا بها لبنية MoE مع خبراء "مشتركين"، وتجزئة دقيقة، وموازنة تحميل دون خسائر مساعدة، مما يسمح بتنشيط جزء فقط من مئات المليارات من المعاملات وتقليل التكاليف الحسابية بشكل حاد.[5]
- Multi-Head Latent Attention (MLA)
- طريقة لضغط ذاكرة التخزين المؤقت KV-cache إلى متجه كامن (latent vector)، مما يوفر ما يصل إلى 93% من الذاكرة ويسمح باستخدام نوافذ سياق بحجم يصل إلى 128,000 توكين. تعد هذه التقنية أساسية للعمل بكفاءة مع النصوص الطويلة.[6]
- FP8 training و Multi-Token Prediction
- في نماذج عائلة V3، يتم استخدام الدقة المختلطة FP8 (أعداد الفاصلة العائمة 8 بت) والتنبؤ المتزامن بعدة توكينات، مما يسرع عمليات التدريب والاستدلال (inference).[7]
عائلة النماذج
- DeepSeek LLM — نماذج أساسية بمعاملات 7 و 67 مليار (2023)، وهي أول إصدار ثنائي اللغة (الإنجليزية/الصينية) تفوق على LLaMA-2 70B في عدد من المهام.[8]
- DeepSeek-Coder (2023) — مجموعة من النماذج المخصصة للبرمجة (1.3 – 33 مليار) وتطويرها Coder-V2 (16 مليار / 236 مليار MoE، سياق 128K، 338 لغة برمجة).[9]
- DeepSeek-V2 (مايو 2024) — نموذج MoE-LLM بـ 236 مليار معامل (21 مليار نشط) مع بنية MLA؛ تم تدريبه على 8.1 تريليون توكين.[10]
- DeepSeek-V3 (ديسمبر 2024) — 671 مليار معامل (37 مليار نشط)؛ استغرق التدريب حوالي 2.8 مليون ساعة من وحدات معالجة الرسوميات (GPU-hours) على Nvidia H800 بتكلفة تقارب 5.5 مليون دولار.[11]
- DeepSeek-R1 (يناير 2025) — مجموعة من النماذج للاستدلال المنطقي (reasoning)؛ اقتربت نسخة R1-0528 من OpenAI o3 في AIME 2025 و LiveCodeBench.[12]
- DeepSeek-VL / VL2 — نماذج VL متعددة الوسائط (تصل إلى 4.5 مليار معامل نشط) مع معالجة فسيفسائية ديناميكية للصور بحجم 1024×1024.[13]
- DeepSeek-Math 7B — نموذج متخصص حقق دقة 51.7% على المقياس المرجعي MATH؛ قريب من أداء GPT-4.[14]
- DeepSeek-Prover-V2 — نموذج MoE بـ 671 مليار معامل لإثبات النظريات في Lean 4؛ حقق 63.5% على miniF2F.
- نماذج R1 المقطرة (Distilled) — إصدارات مفتوحة بمعاملات تتراوح من 1.5 إلى 70 مليار، مبنية على قواعد Llama و Qwen.[15]
التسلسل الزمني للإصدارات الرئيسية
| التاريخ | الإصدار والميزات الرئيسية |
|---|---|
| 2 نوفمبر 2023 | DeepSeek-Coder v1: أولى نماذج open-weight المخصصة للبرمجة. |
| 29 نوفمبر 2023 | DeepSeek LLM 7B/67B: نموذج ثنائي اللغة تم تدريبه على 2 تريليون توكين. |
| 11 يناير 2024 | DeepSeek-MoE 16B: الظهور الأول لبنية MoE. |
| 6 فبراير 2024 | DeepSeek-Math 7B: نموذج متخصص في الرياضيات (51.7% على MATH). |
| 6 مايو 2024 | DeepSeek-V2 236B: تطبيق بنيتي MLA و MoE. |
| 17 يونيو 2024 | DeepSeek-Coder-V2: سياق 128K، دعم 338 لغة برمجة. |
| 13 ديسمبر 2024 | DeepSeek-VL2: نموذج متعدد الوسائط يعتمد على MoE. |
| 27 ديسمبر 2024 | DeepSeek-V3 671B: نموذج رائد تم تدريبه بتكلفة أقل من 6 ملايين دولار. |
| 20 يناير 2025 | DeepSeek-R1 / R1-Zero: نماذج للاستدلال، تم تدريبها باستخدام التعلم المعزز (RL). |
| 27 يناير 2025 | Janus-Pro: نموذج لتوليد الصور يتفوق على DALL-E 3. |
الأداء والمقاييس المرجعية
- تفوق DeepSeek-V3 على Llama 3.1 و Qwen 2.5 واقترب من مستوى GPT-4 في مقاييس MMLU و GPQA-Diamond.[16]
- حقق DeepSeek-Coder-V2 نسبة 72.9% على Arena-Hard، مما يجعله على قدم المساواة مع GPT-4o وأعلى من جميع النماذج المفتوحة باستثناء Claude-3.5-Sonnet.[17]
- حقق DeepSeek-Math 7B نسبة 51.7% على MATH، وهو قريب من أداء Gemini-Ultra بحجم أصغر 10 مرات.[18]
- رفع R1-Zero نتيجة AIME 2024 pass@1 من 15.6% إلى 71% فقط من خلال التدريب بالتعلم المعزز (RL).[19]
الجوانب الاقتصادية وواجهة برمجة التطبيقات (API)
تقدم DeepSeek واجهة برمجة تطبيقات (API) عامة لنماذج V3 و R1 بأسعار تتراوح من 0.07 دولار إلى 0.14 دولار لكل مليون توكين مدخل عند استخدام ذاكرة التخزين المؤقت (cache-hit)، ومن 1.10 دولار إلى 2.19 دولار لكل مليون توكين مخرج — وهو أرخص بعشرات المرات من أسعار GPT-4o.[20]
الترخيص والمصادر المفتوحة
يتم توزيع معظم النماذج بموجب ترخيص MIT أو Apache 2.0، مما يسمح بالاستخدام التجاري. تنشر الشركة الأوزان على Hugging Face و GitHub، لكنها تحتفظ بمجموعات البيانات الكاملة وخطوط أنابيب التدريب مغلقة ("open weight, but not full open source").
التأثير على الصناعة
- تسبب إطلاق R1 في انخفاض ليوم واحد في أسعار أسهم NVIDIA و Microsoft وشركات أخرى على خلفية أخبار عن "نموذج من فئة GPT-4 بتكلفة 6 ملايين دولار".[21]
- أثار إثبات نجاح التدريب على رقائق Nvidia H800 الخاضعة لقيود التصدير نقاشًا حول فعالية العقوبات الأمريكية وسرّع من تطوير مسرعات الذكاء الاصطناعي الصينية (مثل Huawei Ascend 910B).
النقد والقيود
- الأمان: في اختبار HarmBench، سمح نموذج R1 بمرور 100% من الاستعلامات غير المرغوب فيها ("jailbreak").
- الرقابة السياسية: تقوم إصدارات الدردشة بتصفية الموضوعات "الحساسة" للحكومة الصينية (مثل أحداث ميدان تيانانمن عام 1989، ووضع تايوان، إلخ).
- تخزين البيانات: يحد تخزين بيانات المستخدم على خوادم في الصين من استخدام واجهة برمجة التطبيقات (API) من قبل الشركات الغربية التي تخضع للائحة العامة لحماية البيانات (GDPR) والأنظمة القانونية المماثلة.[22]
المراجع
- Dai, D. et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture‑of‑Experts Language Models. arXiv:2401.06066.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
- Jegham, N. et al. (2025). Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT. arXiv:2502.16428.
- Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shen, Y. et al. (2025). Long‑VITA: Scaling Large Multi‑modal Models to 1 Million Tokens with Leading Short‑Context Accuracy. arXiv:2502.05177.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Zhong, M. et al. (2024). Understanding the RoPE Extensions of Long‑Context LLMs: An Attention Perspective. arXiv:2406.13282.
ملاحظات
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
- ↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek LLM: Scaling Open-Source Language Models with Longtermism // arXiv. 2024.
- ↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ GitHub - deepseek-ai/DeepSeek-VL: Towards Real-World Vision-Language Understanding // GitHub.
- ↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
- ↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ DeepSeek Explained: Why This AI Model Is Gaining Popularity // DigitalOcean.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
انظر أيضًا
- نماذج اللغة الكبيرة من OpenAI
- Mixture-of-Experts