Gemini (Google) — جيميني

From Systems analysis wiki
Jump to navigation Jump to search

جوجل جيميناي (Google Gemini) هي عائلة من النماذج اللغوية الكبيرة (LLM) متعددة الوسائط، طوّرتها شعبة الأبحاث في جوجل ديب مايند (Google DeepMind). قُدِّمت نماذج جيميناي لأول مرة في ديسمبر 2023، وهي مبنية على معمارية الشبكات العصبونية المُحوِّلة (Transformer) مع دعم أصيل لمعالجة وتوليد البيانات عبر وسائط متعددة تشمل النصوص والصور والصوت والفيديو والشيفرات البرمجية.

اعتبارًا من فبراير 2026، يُعدّ الجيل الحالي هو سلسلة جيميناي 3.x. يتمحور التطوير المعماري حول دمج آليات الاستدلال القابلة للتوسع أثناء الاستنتاج (inference-time scaling) وتحسين النماذج للاستخدام ضمن أنظمة الوكلاء الذاتية (Agentic AI). يتجاوز عدد المستخدمين النشطين شهريًا لتطبيق جيميناي 750 مليون مستخدم.

التسمية والفلسفة

يرمز اسم "جيميناي" (Gemini)، وهو كلمة لاتينية تعني التوأمين، إلى اندماج مجموعتَي البحث الرائدتين في جوجل — جوجل برين (Google Brain) وديب مايند (DeepMind) — لإنشاء هذا المشروع. أكّد جيف دين (Jeff Dean)، الرئيس التقني المشارك لجوجل ديب مايند، ذلك في تدوينة رسمية (مايو 2024): «The twins here are the folks in the legacy Brain team and the legacy DeepMind team». حمل المشروع في البداية الاسم الرمزي «تايتن» (Titan)؛ واقترح دين اسم «جيميناي» في أبريل 2023 — الشهر ذاته الذي اندمجت فيه جوجل برين وديب مايند رسميًا. يُحيل الاسم أيضًا إلى برنامج جيميناي الفضائي التابع لوكالة ناسا (1965–1968)، إذ وجد فريق التطوير صدى في الدور الذي أدّاه هذا البرنامج تمهيدًا لبرنامج أبولو.

تتمثّل السمة الجوهرية والأساس الفلسفي لجيميناي في التعدد الوسائطي الأصيل (native multimodality). على خلاف كثير من النماذج السابقة التي أُضيفت إليها القدرات متعددة الوسائط فوق قاعدة نصية قائمة، صُمِّم جيميناي من الصفر للفهم المتزامن لأنماط المعلومات المختلفة ومعالجتها ودمجها. يؤكد التقرير التقني لجيميناي 1.0 (arXiv:2312.11805) أن النموذج «trained jointly across image, audio, video, and text data». يتيح ذلك للنموذج ألّا يكتفي بترجمة البيانات بين الوسائط، بل أن يُشكِّل فهمًا أعمق وأكثر شمولية.

المعمارية والتقنيات الرئيسية

تُحدَّد قدرات نماذج جيميناي بسلسلة من القرارات المعمارية الأساسية. لا تنشر جوجل التصميم المنخفض المستوى الكامل لجميع المكوّنات الداخلية لجيميناي؛ غير أن المصادر العامة تتيح تحديد فئة المعمارية: جميع نماذج العائلة 1.5 وما بعدها هي نماذج مُحوِّلة مبنية على مزيج متناثر من الخبراء (sparse mixture-of-experts transformer-based models) مع دعم أصيل للتعدد الوسائطي (وفقًا لبطاقة نموذج جيميناي 2.5 فلاش).

المعمارية متعددة الوسائط الأصيلة

تقوم معمارية جيميناي على مفهوم الدمج المبكر (early fusion). تُسقَط رُقَع البكسل من الصور، والإطارات الزمنية من الفيديو، والمخططات الصوتية، والرموز النصية (tokens) في فضاء كامن موحّد. يصف التقرير التقني لجيميناي 2.5 هذا النهج بـ«التشذير الموحّد للرموز متعددة الوسائط» (Unified Multimodal Token Interleaving). وبما أن جميع رموز الوسائط المختلفة تُعالَج ضمن تسلسل مشترك، فإن آليات الانتباه الذاتي (self-attention) المعيارية تضمن بشكل طبيعي التكامل عبر الوسائط في كل طبقة. تُعالَج الإشارات الصوتية بواسطة مُشفِّرات متخصصة مباشرةً من الموجة الصوتية (waveform)، مما يحافظ على الخصائص الصوتية (التنغيم، الجرس، الضوضاء الخلفية) التي تُفقَد عند استخدام أنظمة التحويل الوسيطة من الكلام إلى النص (Speech-to-Text).

بالنسبة لفئة المُحوِّلات، العملية الأساسية هي آلية الانتباه:

Attention(Q,K,V)=softmax(QKdk)V

حيث Q مصفوفة الاستعلامات، وK مصفوفة المفاتيح، وV مصفوفة القيم، وdk بُعدية المفاتيح.

مزيج الخبراء المتناثر (Sparse MoE)

ابتداءً من الإصدار 1.5، تعتمد نماذج جيميناي معمارية مزيج الخبراء المتناثر (Sparse Mixture-of-Experts, MoE). استخدم جيميناي 1.0 مُحوِّلًا كثيفًا (dense Transformer)؛ ويُوصَف الانتقال إلى MoE صراحةً في التقرير التقني للإصدار 1.5: «This is our first release from Gemini 1.5, a new family… which incorporates a novel mixture-of-experts architecture».

في معمارية MoE، تُستبدَل طبقات الشبكات الكاملة الاتصال (Feed-Forward Networks) المعيارية بمجموعة من الشبكات الفرعية المتخصصة — «الخبراء». لرمز الإدخال xd، يُحسَب الخرج y كمجموع مرجّح لمخرجات k من الخبراء النشطين (kE، حيث E العدد الإجمالي للخبراء):

y=i𝒯k(x)gi(x)Ei(x)

حيث Ei(x) الدالة اللاخطية للخبير i، و𝒯k(x) مجموعة فهارس الشبكات الفرعية المُختارة البالغ عددها k، ووزن التوجيه gi(x) يُحسَب بواسطة دالة توجيه مُتعلَّمة (learned routing function) عبر تطبيق دالة Softmax على أعلى k قيمة.

يتيح هذا النهج زيادة السعة البارامترية الإجمالية للنموذج بشكل ملحوظ مع الحفاظ على تكاليف حسابية (FLOPs) منخفضة، إذ لا تُنشَّط سوى مجموعة فرعية من البارامترات لكل رمز. لم تكشف جوجل عن العدد الفعلي لبارامترات نماذج جيميناي.

السياق الطويل والتعلّم ضمن السياق

حقق جيميناي 1.5 اختراقًا ثوريًا بتوسيع نافذة السياق إلى مليون رمز في وضع الإنتاج (مع اختبارات تجريبية وصلت إلى 10 ملايين رمز). وهذا يفوق بمرتبة كاملة النماذج السابقة (مثل GPT-4 Turbo بـ128,000 رمز). أفادت جوجل بتحقيق نتيجة 99% في اختبار Needle In A Haystack عند طول سياق مليون رمز. وفي الأجيال اللاحقة، ترسّخ السياق الطويل بوصفه إحدى الخصائص المحورية للسلسلة. يتيح هذا السياق واسع النطاق للنموذج:

  • تحليل كتب كاملة أو مقاطع فيديو تمتد لعدة ساعات (حتى 3 ساعات) أو قواعد شيفرات برمجية ضخمة ضمن استعلام واحد.
  • تنفيذ التعلّم ضمن السياق (in-context learning) على كميات كبيرة من البيانات المُقدَّمة في المطالبة (prompt)، مما يتيح إجابات عالية التخصيص دون الحاجة إلى الضبط الدقيق (fine-tuning).

«النماذج المفكّرة» وتوسيع الحوسبة أثناء الاستنتاج

ابتداءً من جيميناي 2.5، تُعيِّن جوجل التفكير (thinking) بوصفه نمط تشغيل مستقل. تُعرِّفه الوثائق الرسمية بأنه عملية حسابية داخلية تُحسِّن التخطيط متعدد الخطوات والاستدلال. تمتلك نماذج الإصدار 2.5 (الموصوفة بـ«النماذج المفكّرة» thinking models) القدرة على توليد وتقييم خطوات استدلال وسيطة داخليًا قبل تقديم الإجابة النهائية. يُحسِّن ذلك الدقة في المهام المنطقية والرياضية المعقدة تحسينًا ملحوظًا.

من المهم التمييز بين آليتين:

  • التفكير المُدمَج (Thinking): النمط الأساسي لنماذج السلسلتين 2.5 و3، يُولِّد سلسلة تفكير مخفية (Chain-of-Thought). يمكن لواجهة البرمجة (API) إرجاع ملخصات الأفكار (thought summaries) — ملخصات موجزة للاستدلال الداخلي وليس التدفق الكامل لـ«الأفكار الخام». ابتداءً من نموذج 3.1 Pro، تُتحكَّم ميزانية التفكير عبر المُعامِل thinking_level بقيم تتراوح من Low إلى Max.
  • التفكير العميق (Deep Think): نمط استدلال معزَّز تجريبي مستقل يستخدم التوليد المتوازي للفرضيات ويتطلب موارد حسابية أكبر بكثير. أُعلِن عنه في مؤتمر جوجل I/O في 20 مايو 2025 وأُتيح لمشتركي AI Ultra في 1 أغسطس 2025. لا ينبغي الخلط بين Deep Think وآلية التفكير الأساسية.

القدرات الوكيلية (Agentic Capabilities)

ابتداءً من الإصدار 2.0، يستطيع جيميناي التفاعل مع العالم الخارجي: استدعاء الأدوات، وتنفيذ عمليات البحث في جوجل، وتشغيل الشيفرات البرمجية، والتحكم في عناصر واجهة المستخدم. وضعت جوجل جيميناي 2.0 صراحةً بوصفه نموذجًا لـ«العصر الوكيلي الجديد» (agentic era) مع دعم أصيل لاستخدام الأدوات (tool use).

اعتبارًا من فبراير 2026، تتضمن واجهة برمجة جيميناي طبقة رسمية من القدرات الوكيلية مع دعم الأدوات التالية: Google Search، وGoogle Maps، وCode Execution، وURL Context، وComputer Use، وFile Search، فضلًا عن Live API للتفاعل ثنائي الاتجاه في الوقت الفعلي.

تطوّر نماذج جيميناي

تتطور عائلة جيميناي بوتيرة سريعة للغاية: بين ديسمبر 2023 وفبراير 2026، أُطلِقت أربعة أجيال رئيسية من النماذج.

جيميناي 1.0 (ديسمبر 2023)

الجيل الأول الذي أرسى أسس التعدد الوسائطي الأصيل. كُشِف عنه علنيًا في 6 ديسمبر 2023.

  • الإصدارات: ألترا (Ultra، النموذج الرئيسي للمهام الأكثر تعقيدًا)، وبرو (Pro، نموذج متعدد الأغراض)، ونانو (Nano، نموذج مدمج للأجهزة المحمولة؛ مُقسَّم إلى نانو-1 بـ1.8 مليار بارامتر ونانو-2 بـ3.25 مليار).
  • نافذة السياق: 32,768 رمزًا لجميع الإصدارات.
  • الإنجازات: أصبح جيميناي 1.0 ألترا أول نموذج يبلغ مستوى الخبير البشري ويتفوّق عليه في معيار MMLU بنتيجة 90.04% (باستخدام تقنية CoT@32 — سلسلة التفكير مع 32 عيّنة وتصويت الأغلبية؛ بالاستنطاق المعياري بـ5 أمثلة بلغت النتيجة نحو 83.7%). حقّق نتائج حالة الفن (SOTA) في 30 من أصل 32 معيارًا أكاديميًا.
  • إنهاء الدعم: أُعلِن عن إيقاف جيميناي 1.0 برو في 18 فبراير 2025.

جيميناي 1.5 (فبراير — مايو 2024)

اختراق في طول السياق والكفاءة.

  • المعمارية: الانتقال من المُحوِّل الكثيف إلى مزيج الخبراء (MoE).
  • نافذة السياق: حتى مليون رمز في الإنتاج (مليونان عبر قائمة الانتظار لـ1.5 برو، أُعلِن عنهما في مؤتمر جوجل I/O في مايو 2024).
  • الإصدارات: 1.5 برو (أُعلِن عنه في فبراير 2024؛ جودة بمستوى 1.0 ألترا بتكلفة أقل بكثير) و1.5 فلاش (إصدار خفيف وسريع، أُضيف في مايو 2024).
  • إنهاء الدعم: أُوقِفت جميع نماذج جيميناي 1.5 (برو، فلاش، فلاش-8B) في 29 سبتمبر 2025.

جيميناي 2.0 (ديسمبر 2024 — فبراير 2025)

الانتقال إلى «العصر الوكيلي».

  • الجدول الزمني: 11 ديسمبر 2024 — الإعلان عن 2.0 فلاش التجريبي (مدخلات متعددة الوسائط، مخرجات نصية)؛ 5 فبراير 2025 — الإتاحة العامة (GA) لـ2.0 فلاش، وإطلاق 2.0 برو التجريبي و2.0 فلاش-لايت.
  • الابتكارات الرئيسية: قدرات وكيلية مُدمَجة (tool use)، وتوليد أصيل للصور والصوت (في البداية بوضع محدود لشركاء الوصول المبكر)، وتوجّه نحو سيناريوهات وكيلية.
  • نافذة السياق: حتى مليونَي رمز (2.0 برو)؛ حتى مليون رمز (2.0 فلاش-لايت).
  • إنهاء الدعم: من المقرر إيقاف نماذج 2.0 فلاش وفلاش-لايت في 1 يونيو 2026.

جيميناي 2.5 (مارس — يونيو 2025)

أول «نموذج مفكّر» (thinking model) بميزانيات استدلال قابلة للضبط.

  • الجدول الزمني: 25 مارس 2025 — الإعلان عن 2.5 برو التجريبي؛ 17 أبريل — 2.5 فلاش (أول نموذج استدلال هجين كامل مع وضع تفكير قابل للتبديل)؛ 20 مايو (جوجل I/O) — تحديثات 2.5 برو وفلاش، والإعلان عن Deep Think؛ 17 يونيو 2025 — الإتاحة العامة المتزامنة لـ2.5 برو و2.5 فلاش؛ في اليوم نفسه — معاينة 2.5 فلاش-لايت (إتاحة عامة في 22 يوليو). 1 أغسطس — إتاحة Deep Think لمشتركي AI Ultra.
  • الابتكارات الرئيسية: آلية «تفكير» مُدمَجة بميزانيات قابلة للضبط؛ Deep Think بوصفه وضعًا معزَّزًا مستقلًا. نتائج حالة الفن في معايير الرياضيات والمنطق والبرمجة المعقدة (AIME 2025 — 86.7%، GPQA Diamond — 84.0%، Humanity's Last Exam — 18.8% بدون أدوات).
  • نافذة السياق: مليون رمز مدخلات، حتى 64,000 رمز مخرجات. لم يُؤكَّد تنفيذ التوسيع الموعود إلى مليونَي رمز لـ2.5 برو خلال دورة حياة النموذج.
  • المتغيرات المتخصصة: جيميناي 2.5 فلاش إيمج (الاسم الرمزي «نانو بنانا»، ظهر مجهولًا في الأرينا في 12 أغسطس، وأُطلِق رسميًا في 26 أغسطس 2025 — انتشر بسرعة بفضل صور «التماثيل ثلاثية الأبعاد» الواقعية واستقطب 10 ملايين مستخدم جديد)؛ معاينة Computer Use (7 أكتوبر 2025، مبني على 2.5 برو)؛ نماذج تحويل النص إلى كلام (2.5 فلاش TTS، 2.5 برو TTS).
  • التقرير التقني: نُشِر التقرير المُوحَّد جيميناي 2.X على arXiv في 7 يوليو 2025 (arXiv:2507.06261)، بأكثر من 3,300 مؤلف، يغطي نماذج 2.5 برو و2.5 فلاش و2.0 فلاش و2.0 فلاش-لايت.

جيميناي 3.x (نوفمبر 2025 — فبراير 2026)

أشار الجيل الثالث إلى الانتقال من التوليد الأساسي إلى سير العمل الوكيلي طويل الأمد (agentic workflows) وحلّ المشكلات العلمية متعددة التخصصات.

  • جيميناي 3 برو (18 نوفمبر 2025): أعلن عنه الرئيس التنفيذي لألفابت سوندار بيتشاي والرئيس التنفيذي لديب مايند ديميس هاسابيس بوصفه «أذكى نموذج من جوجل». أول نموذج جيميناي يُنشَر في بحث جوجل يوم الإطلاق. أول نموذج يتجاوز حاجز 1,500 إيلو في LMArena (1,501 عند الإطلاق). النتائج: GPQA Diamond — 91.9%؛ SWE-bench Verified — 76.2%؛ Humanity's Last Exam — 37.5% (بدون أدوات)؛ SimpleQA — 72.1%.
  • جيميناي 3 فلاش (17 ديسمبر 2025): أصبح النموذج الافتراضي في تطبيق جيميناي. بسعر 0.50 دولار لكل مليون رمز مدخلات، تفوّق على 3 برو في SWE-bench Verified (78%) مع استهلاك رموز أقل بنسبة 30% في مهام الاستدلال. GPQA Diamond — 90.4%؛ HLE — 33.7%.
  • جيميناي 3.1 برو (19 فبراير 2026): النموذج الرئيسي في تاريخ النشر. أول إصدار تزايدي «.1» (استخدمت الأجيال السابقة فواصل .5). النتيجة الرئيسية — ARC-AGI-2: 77.1% (أكثر من ضعف 31.1% لـ3 برو). AIME 2025 — 91.2%؛ GPQA Diamond — 94.3%؛ SWE-bench Verified — 80.6%. إدخال مستوى تفكير MEDIUM جديد عبر المُعامِل thinking_level. نقطة نهاية مخصصة gemini-3.1-pro-preview-customtools لطرفية bash والدوال المخصصة. حلّ مشكلات اقتطاع المخرجات في التوليدات الطويلة. القنوات: تطبيق Gemini، وVertex AI، وAI Studio، وGemini API، وNotebookLM.
  • جيميناي 3 ديب ثينك (تحديث 12 فبراير 2026): تحديث رئيسي لوضع «التفكير» المتخصص. توسّع خارج نطاق الرياضيات والبرمجة: نتائج بمستوى الميدالية الذهبية في الأولمبياد الدولي للفيزياء (IPhO) والكيمياء (IChO) 2025؛ ARC-AGI-2 — 84.6%؛ Humanity's Last Exam — 48.4%؛ CMT-Benchmark (الفيزياء النظرية للمادة المكثّفة) — 50.5%؛ Codeforces Elo — 3,455. حلّ الوكيل البحثي أليثيا (Aletheia)، المبني على Deep Think، عدة مسائل رياضية مفتوحة من مجموعة إيردوش بشكل مستقل (بما فيها حدسية Erdős-1051).

الجدول الموجز لأجيال جيميناي

تطوّر الخصائص الرئيسية لنماذج جيميناي
الجيل سنة الإطلاق الإصدارات الرئيسية أقصى نافذة سياق الابتكارات المعمارية الرئيسية والتحسينات
جيميناي 1.0 2023 ألترا، برو، نانو 32,768 رمزًا تعدد وسائطي أصيل من الصفر؛ مُحوِّل كثيف؛ تفوّق على الخبير البشري في MMLU (90.04% CoT@32).
جيميناي 1.5 2024 برو، فلاش مليون رمز (مليونان عبر قائمة الانتظار) معمارية مزيج الخبراء (MoE)؛ توسيع ثوري للسياق؛ 99% في Needle In A Haystack.
جيميناي 2.0 2024–2025 برو، فلاش، فلاش-لايت مليون–مليونا رمز عصر «الذكاء الاصطناعي الوكيلي»: تكامل أصيل للأدوات، وتوليد الصور والصوت، وLive API.
جيميناي 2.5 2025 برو، فلاش، فلاش-لايت مليون رمز (مدخلات)، 64,000 (مخرجات) «نموذج مفكّر» (thinking model)؛ ميزانيات استدلال قابلة للضبط؛ Deep Think؛ توليد الصور (Nano Banana)؛ Computer Use.
جيميناي 3.x 2025–2026 3 برو، 3 فلاش، 3.1 برو، 3 ديب ثينك مليون رمز سير عمل وكيلي؛ مُعامِل thinking_level؛ اختراقات في ARC-AGI-2 والأولمبيادات العلمية؛ أليثيا.

النتائج الرئيسية والمعايير المرجعية

مع تشبّع المعايير التقليدية (مثل MMLU)، تحوّل تقييم أداء نماذج جيميناي نحو مهام الاستدلال المجرد والنمذجة العلمية وهندسة البرمجيات المستقلة. تستند النتائج إلى بيانات جوجل الرسمية (ذاتية الإبلاغ)؛ وتكون المقارنات صالحة فقط عند تطابق وضع الاستنتاج، ووجود/غياب استخدام الأدوات، وطريقة أخذ العيّنات (محاولة واحدة مقابل تصويت الأغلبية)، ومعرّف النموذج المحدد.

نتائج نماذج جيميناي في المعايير المرجعية الرئيسية (بيانات فبراير 2026)
المعيار وصف المهمة جيميناي 2.5 برو (يونيو 2025) جيميناي 3 برو (نوفمبر 2025) جيميناي 3.1 برو (فبراير 2026) جيميناي 3 ديب ثينك (فبراير 2026)
MMLU فهم لغوي متعدد المهام
GPQA Diamond أسئلة علمية بمستوى الدكتوراه 84.0% 91.9% 94.3% غ/م
Humanity's Last Exam معارف حدّية في تخصصات ضيقة 18.8% 37.5% 44.4% 48.4%
ARC-AGI-2 ألغاز استدلال منطقي مجرد 4.9% 31.1% 77.1% 84.6%
SWE-bench Verified حلّ مستقل للمشكلات في مستودعات GitHub 63.8%* 76.2% 80.6% غ/م
AIME 2025 مسائل رياضية بمستوى الأولمبياد 86.7% 91.2%
Codeforces (Elo) تصنيف البرمجة التنافسية 2,887 3,455

* حُصِل على نتيجة 2.5 برو في SWE-bench باستخدام إعداد وكيل مخصص (custom agent setup).

تصنيفات LMArena (لقطة نهاية فبراير 2026)

LMArena (سابقًا Chatbot Arena) هي منصة مستقلة للتصويت المزدوج الأعمى. تُعاد حسابات التصنيفات ديناميكيًا؛ وقد تختلف القيم في تاريخ إطلاق النموذج عن القيم الحالية.

Overall (لقطة: 24 فبراير 2026)
النموذج الدرجة المرتبة الأصوات ملاحظات
جيميناي 3.1 برو بريفيو 1,500 ± 9 #3 4,060 أوّلي
جيميناي 3 برو 1,486 ± 4 #5 37,854
جيميناي 3 فلاش 1,473 ± 5 #7 28,847
جيميناي 2.5 برو 1,464 ± 3 #9 97,296
جيميناي 2.5 فلاش 1,411 ± 3 #64 96,163

عند إطلاقه في 18 نوفمبر 2025، بلغ جيميناي 3 برو درجة 1,501 إيلو، ليصبح أول نموذج يتجاوز حاجز 1,500 في LMArena.

الأنظمة المتخصصة والوكلاء

وُسِّع نظام جيميناي البيئي بنماذج ومنصات قادرة على تنفيذ عمليات متعددة الخطوات في البيئات الرقمية والمادية.

الوكلاء المستقلون

  • جولز (Jules) — وكيل برمجة مستقل يعمل بشكل غير متزامن في أجهزة افتراضية سحابية آمنة. يُنشئ فروعًا (branches) وطلبات سحب (pull requests) على GitHub. دخل مرحلة البيتا العامة في مؤتمر جوجل I/O في 20 مايو 2025 (أكثر من 140,000 تحسين برمجي خلال فترة البيتا)؛ إتاحة عامة في 6 أغسطس 2025. بحلول نهاية 2025، أصبح من أكبر المساهمين في مستودعات جوجل الداخلية.
  • مشروع مارينر (Project Mariner) — نموذج أولي بحثي لوكيل مبني على المتصفح للمهام المتعددة الخطوات على الويب. نُقِل إلى أجهزة افتراضية سحابية تدعم حتى 10 مهام متوازية مع ميزة «علِّم وكرِّر» (Teach & Repeat). حقق 83.5% في معيار WebVoyager. نُقِلت قدرات Computer Use إلى واجهة برمجة جيميناي.
  • جوجل أنتي غرافيتي (Google Antigravity) — بيئة تطوير متكاملة (IDE) لإدارة وكلاء الذكاء الاصطناعي، قُدِّمت في نوفمبر 2025. يُعدِّل الوكلاء الشيفرات البرمجية باستقلالية ويتفاعلون مع الطرفية والمتصفح المُدمَج، ويُعيدون مخرجات قابلة للتحقق (مثل فروقات الشيفرة) لاعتمادها من المطوّر.
  • وكيل أليثيا (Aletheia) — وكيل بحث رياضي متخصص مبني على جيميناي 3 ديب ثينك. مُجهَّز بوحدة تحقق بالغة الطبيعية وأدوات بحث ويب لمراجعة الأدبيات. في مطلع 2026، حلّ عدة مسائل رياضية مفتوحة من مجموعة إيردوش بشكل مستقل وشارك في تأليف منشورات علمية.

وكلاء الذكاء الاصطناعي الاستهلاكيون

  • أتمتة الهاتف (Phone Automations) — دمج وكيل مستقل على مستوى نظام التشغيل أندرويد (نسخة تجريبية لـPixel 10 وSamsung Galaxy S26). يعمل في بيئة رملية آمنة (secure sandbox) ويستطيع التنقل في التطبيقات الخارجية بناءً على التحليل البصري لواجهة المستخدم الرسومية.
  • جيميناي في كروم (التصفح التلقائي) (Gemini in Chrome / Auto Browse) — وكيل متصفح لأتمتة مهام الويب متعددة الخطوات، متاح لجميع مستخدمي كروم منذ سبتمبر 2025 (حُدِّث إلى جيميناي 3 في يناير 2026).

استخدام الحاسوب (Computer Use)

نماذج جيميناي 2.5 Computer Use مُحسَّنة للتحكم في واجهات المستخدم الرسومية (GUI). يستقبل النظام لقطات الشاشة وسجل الإجراءات كمدخلات، ويُولِّد إحداثيات (x,y) لمحاكاة المؤشر برمجيًا وأوامر الإدخال من لوحة المفاتيح.

جيميناي للروبوتات (Gemini Robotics)

نماذج من فئة الرؤية-اللغة-الفعل (VLA) والاستدلال المُجسَّد (ER)، قُدِّمت في مارس 2025. تُعالج هذه المعماريات المعلومات المكانية-الزمانية وتتنبأ بمسارات الحركة ثلاثية الأبعاد لذراعيات الروبوت بوصفها وسيطة خرج أصيلة (arXiv:2503.20020).

النماذج التوليدية المتخصصة (مطلع 2026)

  • نانو بنانا 2 (جيميناي 3.1 فلاش إيمج) — أُطلِق في 26 فبراير 2026؛ نموذج بصري يجمع بين سرعة معمارية فلاش وجودة مستوى برو. يوفّر اتساقًا صارمًا للشخصيات عبر المشاهد المختلفة، وتوليدًا أصيلًا للطباعة داخل الصور، ودمج العلامات المائية المشفرة SynthID مع بيانات C2PA الوصفية.
  • ليريا 3 (Lyria 3) — نموذج موسيقي دُمِج في تطبيق جيميناي في 18 فبراير 2026. يُولِّد مقطوعات موسيقية مدتها 30 ثانية (تشمل الغناء والآلات) من مطالبات نصية أو صور أو مقاطع فيديو محمّلة.
  • فيو 3.1 (Veo 3.1) — نموذج توليد فيديو. يدعم إنشاء مقاطع باستخدام حتى ثلاث صور مرجعية («Ingredients to Video»)، وتوليد انتقالات بين الإطارين الأول والأخير المحددَين، وعرض الفيديو العمودي الأصيل (9:16)، والترقية إلى دقة 4K.
  • ميد-جيميناي (Med-Gemini) — نموذج مخصص للمجال الطبي (arXiv:2404.18416, arXiv:2405.03162).

التطبيقات والنظام البيئي

تدمج جوجل جيميناي بعمق في منتجاتها الاستهلاكية ومنصاتها للمطوّرين.

المنتجات الاستهلاكية

  • تطبيق جيميناي: روبوت محادثة (كان يُعرف سابقًا بـBard، أُعيدت تسميته في 8 فبراير 2024) يستخدم نماذج عائلة جيميناي بوصفه مساعد ذكاء اصطناعي شامل. اعتبارًا من فبراير 2026، يضم أكثر من 750 مليون مستخدم نشط. يتضمن النشر الحالي نموذج 3.1 برو. الاشتراكات: Google AI Pro (19.99 دولارًا/شهر، يحلّ محل Google One AI Premium) وGoogle AI Ultra (249.99 دولارًا/شهر، مع وصول إلى Deep Think وVeo 3 والميزات ذات الأولوية).
  • جوجل وركسبيس (Google Workspace): دمج جيميناي في Gmail وDocs وSheets وMeet للمساعدة في الكتابة وتحليل البيانات وتوليد المحتوى (أُعيدت تسميته من Duet AI).
  • بحث جوجل: تُولِّد ميزة AI Overviews إجابات تلخيصية للاستعلامات المعقدة باستخدام نموذج جيميناي متخصص. يوفر AI Mode، الذي أُطلِق في مؤتمر جوجل I/O 2025، بحثًا عميقًا مع قدرات وكيلية (حجز، تسوّق).
  • أندرويد وبيكسل: يعمل جيميناي نانو (v3 على بيكسل 10 مع شريحة Tensor G5، أغسطس 2025) محليًا على الهواتف الذكية، مُقدِّمًا ردودًا ذكية وتلخيصات واكتشاف مكالمات الاحتيال وميزات إمكانية الوصول مع الحفاظ على خصوصية البيانات. تدعم واجهات ML Kit GenAI للمطوّرين التلخيص والتدقيق والتعرف على الكلام على الجهاز.
  • نوت بوك LM (NotebookLM): تطوّر من أداة لتدوين الملاحظات إلى منصة إبداعية شاملة. دُمِج في جوجل وركسبيس في مارس 2025. يدعم الملخصات الصوتية التفاعلية والملخصات المرئية والخرائط الذهنية والشرائح والرسوم البيانية المعلوماتية. حُدِّث إلى جيميناي 3 في ديسمبر 2025؛ نافذة سياق كاملة بمليون رمز للمحادثة منذ فبراير 2026.
  • جيميناي لايف (Gemini Live): أُتيحت ميزات الكاميرا ومشاركة الشاشة من Project Astra مجانًا لجميع مستخدمي أندرويد وiOS.

منصات المطوّرين

  • Google AI Studio وGemini API: الواجهات الرئيسية للوصول إلى نماذج جيميناي عبر واجهة البرمجة. اعتبارًا من فبراير 2026، تدعم كتل القدرات: Thinking، وThought signatures، وLong context، وTools and agents (Google Search, Maps, Code Execution, URL Context, Computer Use, File Search, Deep Research, Live API).
  • Vertex AI: منصة المؤسسات ذات الإمكانات المتقدمة في الأمان والإدارة.
  • Google Gen AI SDK: بلغ الإتاحة العامة لـPython وJavaScript/TypeScript وGo وJava في مايو 2025، مُوفِّرًا وصولًا موحدًا إلى واجهة مطوّري جيميناي وVertex AI. يدعم بروتوكول سياق النموذج (Model Context Protocol, MCP).
  • Gemini CLI: أداة سطر أوامر للبرمجة بمساعدة الذكاء الاصطناعي في الطرفية (أُطلِقت في يونيو 2025).
  • Interactions API: واجهة موحدة للنماذج والوكلاء (نسخة تجريبية منذ ديسمبر 2025).

دورة حياة واجهة البرمجة وإدارة الإصدارات

تُصنَّف نماذج جيميناي في واجهة البرمجة إلى الفئات: stable، وpreview، وlatest، وexperimental. معرّف النموذج المحدد (model_id) وعائلة النماذج ليسا الشيء ذاته؛ في سيناريوهات الإنتاج، يُعدّ الارتباط بإصدار محدد وجدوله الزمني للدعم أمرًا بالغ الأهمية. تحتفظ وثائق واجهة البرمجة بسجل إيقاف يتضمن تواريخ الإنهاء.

لدعم المهام المستقلة طويلة الأمد، أُدخِلت: استئناف الجلسة (Session Resumption، تخزين حالة الجلسة على الخادم لمدة تصل إلى 24 ساعة) وضغط السياق (Context Compression، آلية النافذة المنزلقة لضغط السياق تلقائيًا عند تجاوز الحدود).

في ديسمبر 2025، خفّضت جوجل حصص الطبقة المجانية لواجهة البرمجة بنحو 92% (دون إشعار مسبق)، مما أثار ردود فعل حادة من مجتمع المطوّرين. في المقابل، انخفضت تكاليف خدمة جيميناي لكل وحدة بنسبة 78% خلال عام 2025 بفضل تحسينات النماذج.

القيود والمشكلات المفتوحة

  • الهلوسات والتلفيقات: تحتفظ النماذج بميل لتوليد معلومات غير دقيقة واقعيًا، لا سيما عند تعطيل ميزات التأصيل (Search Grounding). خفّض جيميناي 3.1 برو معدلات الهلوسة في معيار SimpleQA مقارنةً بالإصدارات السابقة، لكن المشكلة تظل بنيوية لجميع النماذج اللغوية الكبيرة.
  • الانتحال اللاواعي (Subconscious Plagiarism): كشفت التجارب مع وكيل أليثيا عن مشكلة يُعيد فيها النموذج إنتاج براهين غير تافهة من مجموعة بيانات التدريب مُقدِّمًا إياها باعتبارها اكتشافات مستقلة، مما يُعقِّد التحقق من جدّة البحث القائم على الذكاء الاصطناعي.
  • التدهور في السياق الطويل: عند معالجة سياقات بحجم مليون رمز أو أكثر، تتأثر النماذج بظاهرة «الضياع في الوسط» (Lost in the Middle) — انخفاض دقة استخراج الحقائق الواقعة في منتصف الوثيقة.
  • التكاليف الحسابية المرتفعة: يتطلب الاستنتاج بأقصى إعدادات Deep Think وقتًا وموارد أكبر بكثير (وحدات TPU)، مما يُقيِّد الاستخدام في السيناريوهات المتزامنة في الوقت الفعلي.
  • الرفض الإيجابي الكاذب (Over-refusals): بسبب خوارزميات المواءمة (alignment) الصارمة، تميل نماذج الاستدلال إلى رفض الطلبات المشروعة بتصنيفها خطأً على أنها خطرة محتملة (لا سيما في سياق تحليل الشيفرات والأمن المعلوماتي). تُشير بطاقات النماذج أيضًا إلى مشكلات النبرة «الوعظية» (preachy) في الرفض.
  • حدود الاستدلال: تسرد بطاقات نماذج السلسلتين 2.5 و3 قيودًا في الفهم السببي (causal understanding)، والاستنتاج المنطقي المعقد (complex logical deduction)، والتفكير المُعاكس للواقع (counterfactual reasoning)، فضلًا عن قابلية التنبؤ الناقصة في الالتزام بميزانيات التفكير.

الجوانب الأخلاقية والأمن

يُصاحب نشر نماذج جيميناي نظام أمني متعدد الطبقات.

الأطر العامة

إطار الذكاء الاصطناعي الآمن (Secure AI Framework, SAIF) هو نهج جوجل العام لأمن أنظمة الذكاء الاصطناعي (أُعلِن عنه في يونيو 2023)، يُشكِّل سياق التطوير لكنه ليس معيارًا خاصًا بجيميناي. يغطي إطار السلامة الحدّية الإصدار 3 (Frontier Safety Framework v3، سبتمبر 2025) مجالات الأسلحة الكيميائية والبيولوجية والإشعاعية والنووية (CBRN)، والأمن السيبراني، والبحث والتطوير في التعلم الآلي، والتلاعب الضار، ونهجًا استكشافيًا لمخاطر عدم المواءمة (misalignment).

التدابير الخاصة بجيميناي

  • بطاقات النماذج (Model cards) هي المصادر الرئيسية للمعلومات حول قيود وأمن النماذج المحددة. تتضمن أقسامًا عن الاستخدام المقصود والقيود، والأخلاقيات وسلامة المحتوى، وسلامة الحدود. أكّدت بطاقة نموذج جيميناي 3 برو أن النموذج لم يبلغ أيّ مستوى قدرة حرج (Critical Capability Level) في مجالي CBRN والأمن السيبراني.
  • اختبارات التحيز والسُّمّية: تحليل وتخفيف التحيزات في بيانات التدريب وتوليد المحتوى.
  • الفرق الحمراء (Red Teaming): محاكاة هجمات لتحديد الثغرات والسلوكيات غير المرغوب فيها. وجدت اختبارات عدم المواءمة المستقلة «بعض الزيادة في الوعي الظرفي» دون مخاطر حرجة.

مسابر الأمان (Safety Probes)

لمنع توليد المحتوى الضار، يُستخدَم تصنيف التنشيطات المخفية. لحلّ مشكلة فقدان الإشارة في السياقات الطويلة، تُستخدَم معمارية ملتي ماكس (MultiMax): يستخرج المسبار القيمة القصوى عبر جميع الطبقات H لكل رمز j في التسلسل ni:

fMultiMax(Si)=h=1Hmaxj[ni][vhyi,j]

تُدمَج المسابر مع النماذج الأساسية في مُصنِّفات متسلسلة، مما يُحسِّن دقة الترشيح بتكلفة حسابية منخفضة (arXiv:2601.11516).

العلامة المائية المُشفَّرة (SynthID)

تُوسَم البيانات الصوتية المُولَّدة عبر Live API والصور (من نماذج Nano Banana/Flash Image) بخوارزمية SynthID. تُضمَّن علامة مائية غير مرئية على مستوى البكسل أو الطيف الصوتي، مما يُمكِّن من الكشف الآلي عن المحتوى المُولَّد. يدمج نموذج نانو بنانا 2 (فبراير 2026) SynthID مع بيانات C2PA الوصفية.

التفكير ومسألة الشفافية

يمكن للنماذج ذات وضع التفكير (السلسلتان 2.5 و3) إرجاع ملخصات الأفكار (thought summaries) — ملخصات موجزة للاستدلال الداخلي وليس التدفق الكامل للرموز الوسيطة. يوفّر ذلك درجة من الشفافية، لكنه انتُقِد لأن سلاسل الاستدلال «الخام» الفعلية تُخفى وراء ملخصات مبسّطة.

الجوانب التنظيمية

في إطار قانون الذكاء الاصطناعي الأوروبي (EU AI Act)، وقّعت جوجل مدوّنة ممارسات الذكاء الاصطناعي في الاتحاد الأوروبي (نُشِرت في 10 يوليو 2025) إلى جانب OpenAI وAnthropic. صُنِّف جيميناي بوصفه نموذج ذكاء اصطناعي عام الغرض (GPAI) ذا مخاطر نظامية، مما يستتبع التزامات أمنية إضافية (سارية منذ 2 أغسطس 2025).

المشهد التنافسي

شهدت الفترة من نوفمبر إلى ديسمبر 2025 أكثر دورة تنافسية مضغوطة في تاريخ الذكاء الاصطناعي: أُطلِق جيميناي 3 برو (18 نوفمبر)، وكلود أوبوس 4.5 من أنثروبيك (24 نوفمبر)، وGPT-5.2 من OpenAI (11 ديسمبر) — جميعها خلال 24 يومًا. اعتبارًا من فبراير 2026، لا يهيمن نموذج واحد على جميع الفئات: يتصدر جيميناي 3 برو قائمة LMArena في النص والرؤية والبحث والتعددية اللغوية؛ ويتصدر GPT-5.2 في الرياضيات البحتة (100% في AIME 2025 بدون أدوات) وSWE-bench Pro؛ ويُنافس كلود أوبوس 4.5 في SWE-bench Verified. من حيث تسعير واجهة البرمجة، يُعدّ جيميناي أرخص بنحو 42% من GPT-5 للاستدعاءات المماثلة.

المؤشرات التجارية

وفقًا لتقرير أرباح ألفابت للربع الرابع من 2025 (نُشِر في 4 فبراير 2026): بلغت إيرادات جوجل كلاود 17.7 مليار دولار للربع (+48% على أساس سنوي)؛ وبلغ هامش الربح التشغيلي 29.9%؛ ووصل حجم الطلبات المتراكمة للسحابة إلى 240 مليار دولار (الضعف سنويًا). تستخدم أكثر من 120,000 مؤسسة جيميناي. في يناير 2026، أعلنت أبل عن خطط لدمج جيميناي في سيري. تُعالج جوجل أكثر من 10 مليارات رمز في الدقيقة عبر واجهة البرمجة. تُولِّد وكلاء الذكاء الاصطناعي الداخليون لدى جوجل نحو 50% من شيفرة الشركة. خُطِّطت النفقات الرأسمالية لعام 2026 بمبلغ 175–185 مليار دولار (ما يقارب ضعف 91.45 مليار في 2025).

روابط خارجية

المراجع

التقارير التقنية الرئيسية لجيميناي

  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.
  • Gemini Team, Google (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530.
  • Comanici, G. et al. (2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261.

النماذج المتخصصة والتطبيقات

  • Saab, K. et al. (2024). Capabilities of Gemini Models in Medicine. arXiv:2404.18416.
  • Yang, L. et al. (2024). Advancing Multimodal Medical Capabilities of Gemini. arXiv:2405.03162.
  • Gemini Robotics Team (2025). Gemini Robotics: Bringing AI into the Physical World. arXiv:2503.20020.
  • Feng, T., Trinh, T., Bingham, G. et al. (2026). Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems. arXiv:2601.22401.
  • DeepMind Research Team (2026). Building Production-Ready Probes For Gemini. arXiv:2601.11516.
  • Fu, Y., Wang, X., Tian, Y., Zhao, J. (2025). Deep Think with Confidence. arXiv:2508.15260.

أدبيات مرجعية (مراجعات ومنهجيات)

  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  • Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
  • Cai, W. et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Dai, Z. et al. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. arXiv:1901.02860.
  • Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
  • Yin, S. et al. (2024). A Survey on Multimodal Large Language Models. arXiv:2306.13549.
  • Wang, X. et al. (2023). Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey. arXiv:2302.10035.
  • Chen, Q. et al. (2025). Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models. arXiv:2503.09567.

تدوينات مدوّنة جوجل الرسمية