Gemma (Google) — جيما

From Systems analysis wiki
Jump to navigation Jump to search

Gemma هي عائلة من النماذج اللغوية المتاحة مجانًا، والتي طورتها وأصدرتها شركة Google (قسم Google DeepMind). تعتمد نماذج Gemma على نفس الأساس البحثي والتقني الذي بُنيت عليه عائلة Gemini الرائدة، وتُقدَّم كإصدارات خفيفة الوزن وعالية الأداء منها[1]. الاسم مشتق من الكلمة اللاتينية gemma، والتي تعني «الحجر الكريم»[2].

تنتمي Gemma إلى فئة open models (النماذج المفتوحة): حيث تنشر Google أوزان النماذج، مما يسمح للباحثين والمطورين باستخدامها وإعادة تدريبها وتوزيعها بحرية، بما في ذلك في المشاريع التجارية، مع الالتزام بشروط الاستخدام المسؤول[2]. وهذا هو الفارق الرئيسي عن نماذج Gemini، التي لا يمكن الوصول إليها إلا عبر واجهات برمجة التطبيقات (API) السحابية. نماذج Gemma قادرة على العمل محليًا على أجهزة المستخدمين (مثل الحواسيب المحمولة والمكتبية المزودة بوحدات معالجة الرسومات GPU)، وليس فقط في مراكز البيانات[3].

التطوير والإصدارات

تضم عائلة Gemma عدة أجيال من النماذج، حيث قدم كل جيل تحسينات في البنية والأداء والقدرات.

الجيل الأول: Gemma 1

أُصدر الإصدار الأول من Gemma في 21 فبراير 2024[4]. وتضمن نموذجين نصيين يعتمدان على بنية المحولات القائمة على وحدة فك التشفير:

  • Gemma 2B (2 مليار مُعلَمة)
  • Gemma 7B (7 مليارات مُعلَمة)

عند إطلاقها، صرحت Google بأن هذه النماذج تتفوق على نظيراتها الأكبر حجمًا بشكل ملحوظ في اختبارات الأداء الرئيسية[2]. كانت النماذج الأصلية موجهة بشكل أساسي للغة الإنجليزية، ولكنها دُرّبت على بيانات متنوعة تشمل وثائق الويب، والشيفرة البرمجية، والمسائل الرياضية[1]. أُصدر كلا النموذجين في نسختين: أساسية (pre-trained) ومُحسَّنة بالتعليمات (instruction-tuned) لتحسين قدرتها على اتباع أوامر المستخدم[2].

الجيل الثاني: Gemma 2

أُعلن عن Gemma 2 في 27 يونيو 2024، وجاء بتحسينات كبيرة[1].

  • أحجام النماذج: تم إصدار نماذج بحجم 9 و27 مليار مُعلَمة. دُرّبت النماذج الأصغر حجمًا باستخدام تقنية تقطير المعرفة (knowledge distillation) من النموذج الأكبر لتعزيز الجودة[5].
  • نافذة السياق: تم توسيعها بشكل كبير لتصل إلى 80,000 توكن (مقارنة بـ 8192 في الإصدار الأول)[6][7].
  • تحسينات بنيوية: تم إدخال آليات grouped-query attention ومخطط متناوب للانتباه المحلي والعالمي لزيادة كفاءة التعامل مع السياقات الطويلة[1].

الجيل الثالث: Gemma 3

قُدِّمت Gemma 3 في مارس 2025 كخطوة تالية في تطوير العائلة، مع التركيز على تعددية الوسائط وتوسيع نطاق المهام[6].

  • تعددية الوسائط: أصبحت النماذج تدعم الصور والفيديو كمدخلات إلى جانب النص.
  • الأحجام واللغات: غطت مجموعة النماذج أربعة أحجام (1B, 4B, 12B, 27B) وأصبحت تدعم ما يصل إلى 140 لغة[6].
  • نافذة السياق: زادت لتصل إلى 128,000 توكن[6].

وفقًا لـ Google، أظهر نموذج Gemma 3 27B نتائج تضاهي أفضل النماذج المفتوحة في وقته، ولم يتفوق عليه في التصنيفات سوى النماذج المتخصصة مثل DeepSeek-R1[6].

البنية والميزات التقنية

تعتمد نماذج Gemma على بنية المحولات في تكوين «وحدة فك التشفير فقط» (decoder-only)، على غرار نماذج GPT[7]. وهذا يعني أن النموذج يولد النص بشكل ذاتي التراجع (autoregressively)، من خلال التنبؤ بالتوكن التالي بناءً على جميع التوكنات السابقة. تشمل الحلول التقنية الرئيسية ما يلي:

  • التضمينات الموضعية الدورانية (RoPE): بدلًا من التضمينات الموضعية المطلقة، تُستخدم تقنية RoPE، مما يسمح بترميز المعلومات الموضعية بكفاءة.
  • Multi-query و Grouped-query attention: لتسريع العمل وتوفير الذاكرة في النماذج الأصغر (مثل Gemma 2B)، تُستخدم آلية multi-query attention (مفتاح/قيمة واحدة لجميع رؤوس الانتباه). في Gemma 2، تم تطبيق آلية grouped-query attention، حيث تُقسَّم الاستعلامات إلى مجموعات، مما يمثل حلاً وسطًا بين السرعة والجودة[1][7].
  • مخطط الانتباه المتناوب: في Gemma 2، تم تطبيق مخطط تتناوب فيه طبقات الانتباه الذاتي العالمي مع طبقات ذات «نافذة منزلقة» محدودة، مما يسمح بمعالجة السياقات الطويلة بكفاءة[1].

عائلة النماذج والمتغيرات

إلى جانب النماذج الأساسية العامة، أصدرت Google العديد من الإصدارات المشتقة من Gemma والمُحسَّنة لمهام محددة.

  • CodeGemma: نموذج لتوليد واستكمال الشيفرة البرمجية، يدعم لغات C++, C#, Go, Java, JavaScript, Python, Rust وغيرها[1].
  • DataGemma: عائلة من النماذج التي تم تدريبها بشكل إضافي للتكامل مع البيانات الخارجية باستخدام تقنيات RAG. يستطيع النموذج تنفيذ استعلامات بحث في قواعد البيانات (مثل Google Data Commons) لزيادة الدقة الواقعية للإجابات[1].
  • PaliGemma: نموذج متعدد الوسائط قادر على استقبال الصور والنصوص كمدخلات. وهو مصمم لمهام الإجابة على الأسئلة المرئية، مثل وصف الصور والتعرف على الكائنات[1].
  • RecurrentGemma: إصدار تجريبي ذو بنية هجينة Griffin، يجمع بين الانتباه المحلي والروابط التكرارية الخطية. يتيح ذلك تسريع توليد التسلسلات الطويلة بشكل كبير[7].
  • MedGemma: نسخة متخصصة من Gemma 3 للمجال الطبي. تشمل نماذج متعددة الوسائط (4B) ونصية (27B) لتحليل الصور الطبية (صور الأشعة السينية، المقاطع المقطعية) والوثائق السريرية. تُوزَّع النماذج كنماذج مفتوحة، ولكنها غير مخصصة للاستخدام السريري المباشر دون إجراء تحقق إضافي[8].
  • DolphinGemma: مشروع بحثي لتطبيق تقنيات Gemma لفك شفرة اتصالات الدلافين. تم تدريب النموذج على تسجيلات صوتية تمتد لسنوات عديدة ويُستخدم لتحديد الأنماط في لغة الحيوانات[9].

التوفر والاستخدام

نماذج Gemma متاحة على منصات Kaggle وHugging Face، كما أنها مدمجة في خدمات Google Colab وVertex AI Model Garden[2]. لتسريع عملية الاستدلال (inference)، قامت Google بالتعاون مع NVIDIA بتكييف النماذج للعمل مع TensorRT. تسمح شروط ترخيص Gemma بالاستخدام التجاري وتعديل النماذج، مما يميزها عن بعض المشاريع المفتوحة الأخرى. يخضع التوزيع لترخيص Responsible AI License (ترخيص الذكاء الاصطناعي المسؤول)، الذي يفرض قيودًا على الاستخدام في مجالات معينة (مثل تطوير الأسلحة) ويُلزم المنتجات المشتقة بالالتزام بمبادئ الاستخدام الآمن والأخلاقي للذكاء الاصطناعي[3].

الأمان والمسؤولية

أولى المطورون اهتمامًا كبيرًا بمسائل الأمان، نظرًا للطبيعة المفتوحة للنماذج.

  • تصفية البيانات: أثناء إعداد مجموعات بيانات التدريب، تم تصفية البيانات الشخصية والمعلومات الحساسة الأخرى تلقائيًا لتقليل مخاطر التسريب[2].
  • المواءمة (Alignment): خضعت الإصدارات المُحسَّنة بالتعليمات لعملية مواءمة متعددة المراحل باستخدام تقنيات الضبط الدقيق الخاضع للإشراف (Supervised Fine-Tuning - SFT) والتعلم المعزز من خلال ردود الفعل البشرية (RLHF) لترسيخ أنماط الاستجابة المفضلة[1].
  • الفريق الأحمر (Red Teaming): قبل إطلاقها، خضعت النماذج لفحص معمق لاختبار مدى صمودها أمام الطلبات الخبيثة. حاول الخبراء استدراجها لتوليد محتوى خطير أو غير مرغوب فيه للكشف عن نقاط الضعف[3].
  • مجموعة أدوات الذكاء الاصطناعي المسؤول (Responsible AI Toolkit): إلى جانب النماذج، أصدرت Google مجموعة أدوات لتسهيل النشر الآمن، بما في ذلك أداة Gemma Debugger لتحليل الحالات الداخلية للنموذج ومصنفات للمحتوى غير المرغوب فيه[2].
  • ShieldGemma: نموذج مرشح متخصص، مصمم لمنع توليد محتوى غير آمن في الإصدارات متعددة الوسائط من Gemma[6].

روابط

مراجع

  • Mesnard, T. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295.
  • Rivière, M. et al. (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118.
  • Kamath, A. et al. (2025). Gemma 3 Technical Report. arXiv:2503.19786.
  • Zhao, H. et al. (2024). CodeGemma: Open Code Models Based on Gemma. arXiv:2406.11409.
  • Beyer, L. et al. (2024). PaliGemma: A Versatile 3B VLM for Transfer. arXiv:2407.07726.
  • Steiner, A. et al. (2024). PaliGemma 2: A Family of Versatile VLMs for Transfer. arXiv:2412.03555.
  • Botev, A. et al. (2024). RecurrentGemma: Moving Past Transformers for Efficient Open Language Models. arXiv:2404.07839.
  • Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Chinnakonduru, S. S. & Mohapatra, A. (2024). Weighted Grouped Query Attention in Transformers. arXiv:2407.10855.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Radhakrishnan, P. et al. (2024). Knowing When to Ask — Bridging Large Language Models and Data. arXiv:2409.13741.

الهوامش

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 «What Is Google Gemma?». IBM. [١]
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 «Gemma: Google introduces new state-of-the-art open models». Google Developers Blog. [٢]
  3. 3.0 3.1 3.2 «Google's open-source Gemma AI models draw from the research behind Gemini». The Verge. [٣]
  4. «Google launches two new open LLMs». TechCrunch. [٤]
  5. «Gemma 2: Improving Open Language Models at a Practical Size». Google.
  6. 6.0 6.1 6.2 6.3 6.4 6.5 «Google unveils open source Gemma 3 model with 128k context window». VentureBeat. [٥]
  7. 7.0 7.1 7.2 7.3 «Gemma explained: An overview of Gemma model family architectures». Google Developers Blog. [٦]
  8. «Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis». InfoQ. [٧]
  9. «Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back». Smithsonian Magazine. [٨]