Google’s large language models — نماذج اللغة الكبيرة من جوجل

From Systems analysis wiki
Jump to navigation Jump to search

نماذج اللغة الكبيرة من جوجل هي سلسلة من نماذج اللغة الكبيرة (LLMs) التي طورتها أقسام مختلفة في جوجل، بما في ذلك Google AI (المعروف سابقًا باسم Google Brain) وDeepMind. بصفتها إحدى الشركات الرائدة في مجال التعلم العميق ومعمارية Transformer، قدمت جوجل مساهمات أساسية في تطوير نماذج اللغة الكبيرة الحديثة. يعكس تاريخ تطوير هذه النماذج مسارًا تطوريًا من أنظمة فهم اللغة المتخصصة إلى الأنظمة الضخمة متعددة الوسائط والقائمة على الوكلاء، والتي تشكل اليوم أساس العديد من منتجات جوجل وتوجه مسار تطور صناعة الذكاء الاصطناعي بأكملها.

تاريخ وتطور نماذج جوجل

الإنجازات المبكرة والترجمة الآلية العصبونية (2011–2016)

وُضعت أسس تطوير نماذج اللغة الكبيرة في جوجل ضمن مشروع Google Brain (2011)، الذي كان مخصصًا لتطبيق الشبكات العصبونية العميقة. كان أحد الاختراقات الأولى هو خوارزمية Word2Vec (2013)، التي أنشأها توماس ميكولوف. سمحت هذه الخوارزمية بتمثيل الكلمات على شكل متجهات (تضمينات أو embeddings)، مما يعكس سياقها الدلالي، وأصبح هذا أسلوبًا أساسيًا لفهم اللغة في الشبكات العصبونية.

كانت الخطوة التالية هي الانتقال إلى نماذج التسلسل، مثل seq2seq (2014)، التي شكلت أساس الترجمة الآلية العصبونية من جوجل (GNMT) (2016). أدى تحويل خدمة ترجمة جوجل إلى معمارية عصبونية قائمة على LSTM إلى تحسين جودة الترجمة الآلية بشكل كبير. بالتوازي مع ذلك، أظهرت شركة DeepMind التابعة، التي استحوذت عليها جوجل في عام 2014، قوة التعلم العميق مع انتصار نظام AlphaGo على بطل العالم في لعبة "غو"، مما عزز الثقة في إمكانيات الذكاء الاصطناعي.

ثورة Transformer وولادة BERT (2017–2018)

في عام 2017، قدم باحثو Google Brain معمارية Transformer في ورقة بحثية بعنوان «Attention Is All You Need». هذه المعمارية، القائمة على آلية الانتباه الذاتي (self-attention)، سمحت بمعالجة التسلسلات بشكل متوازٍ بدلاً من التتابع، مما أحدث ثورة في مجال معالجة اللغات الطبيعية وأصبح أساسًا لجميع نماذج اللغة الكبيرة الحديثة.

على موجة هذا النجاح، قدمت جوجل في عام 2018 نموذج BERT (Bidirectional Encoder Representations from Transformers). كان BERT أول نموذج ثنائي الاتجاه بعمق يأخذ في الاعتبار سياق الكلمة من اليسار واليمين في نفس الوقت. وقد مكنه ذلك من تحقيق نتائج قياسية في العديد من مهام فهم اللغة (GLUE, SQuAD) ووضع معيارًا صناعيًا جديدًا. تم إصدار BERT في نسختين (BASE بـ 110 مليون معلمة وLARGE بـ 340 مليون) مع كود مصدري وأوزان مفتوحة، مما ساهم في انتشاره على نطاق واسع. منذ عام 2019، بدأ استخدام BERT في بحث جوجل لفهم استعلامات البحث بشكل أفضل.

نمو النطاق وعصر النماذج الحوارية (2019–2022)

بعد BERT، واصلت جوجل تجاربها مع النطاق والمعمارية:

  • T5 (Text-to-Text Transfer Transformer، 2019): نموذج موحد يتعامل مع أي مهمة في معالجة اللغات الطبيعية على أنها تحويل «من نص إلى نص». تم تدريب T5 على مجموعة بيانات ضخمة تسمى C4 (Colossal Clean Crawled Corpus)، كما تم إصداره كمصدر مفتوح بأحجام متعددة (تصل إلى 11 مليار معلمة).
  • Meena (2020): أول نموذج حواري متخصص من جوجل بـ 2.6 مليار معلمة، أظهر جودة عالية في إجراء الحوارات المفتوحة.
  • LaMDA (Language Model for Dialogue Applications، 2021): عائلة من النماذج الحوارية (تصل إلى 137 مليار معلمة)، تم تدريبها على مجموعة هائلة من الحوارات (1.56 تريليون كلمة). استهدف LaMDA إنشاء محادثات أكثر طبيعية وهادفة، وأصبح معروفًا للجمهور العام بعد أن ادعى مهندس في جوجل أنه «واعي».
  • Gopher وChinchilla (من DeepMind، 2021–2022): بالتوازي، استكشفت DeepMind قوانين التوسع. أظهر نموذج Gopher (280 مليار معلمة) كيف يؤثر الحجم على الجودة. بينما أثبت نموذج Chinchilla (70 مليار معلمة) أنه لتحقيق الأداء الأمثل، ليس العدد الأقصى للمعلمات هو الأهم، بل التوازن الصحيح بين حجم النموذج وحجم بيانات التدريب. عُرفت هذه النتيجة باسم «قانون Chinchilla» وأثرت على استراتيجية تدريب نماذج اللغة الكبيرة في الصناعة بأكملها.

عصر النماذج فائقة الضخامة ومتعددة الوسائط (2022–الوقت الحالي)

  • PaLM (Pathways Language Model، 2022): كان عند إعلانه أكبر نموذج كثيف (dense) من جوجل بـ 540 مليار معلمة، تم تدريبه على بنية تحتية موزعة جديدة تسمى Pathways. أظهر PaLM قدرات خارقة في الاستدلال المنطقي، خاصة مع استخدام تقنية توجيه سلسلة الأفكار (Chain-of-Thought أو CoT prompting). وعلى أساسه تم إنشاء إصدارات متخصصة، مثل Med-PaLM للطب. في عام 2023، تم إصدار نسخة محسنة PaLM 2 (حوالي 340 مليار معلمة)، والتي شكلت أساس روبوت الدردشة المحدث Bard.
  • Gemini (2023–الوقت الحالي): جيل جديد من النماذج تم إنشاؤه بواسطة فريق Google DeepMind الموحد. صُمم Gemini منذ البداية كنظام متعدد الوسائط أصلاً، قادر على معالجة النصوص، والبرمجيات، والصور، والصوت، والفيديو. تم إصداره في عدة نسخ:
    • Gemini Ultra: النموذج الأقوى للمهام المعقدة.
    • Gemini Pro: نموذج متعدد الاستخدامات لمجموعة واسعة من المهام.
    • Gemini Nano: نموذج مدمج للعمل على الأجهزة المحمولة.

في عامي 2024-2025، تم توسيع العائلة بإصدارات Gemini 1.5 (مع نافذة سياق تصل إلى مليون رمز) وGemini 2.0، الذي اكتسب قدرات وكيلية (agentic capabilities).

المعمارية والميزات التقنية

الأساس: المشفرات، ومفككات التشفير، والهجائن

تستخدم جوجل أنواعًا مختلفة من معمارية Transformer اعتمادًا على المهمة:

  • المشفرات فقط (Encoder-only): نماذج من نوع BERT. تقوم بمعالجة النص بأكمله وتنشئ تمثيلاً سياقيًا غنيًا. مثالية لمهام تحليل وفهم النصوص (التصنيف، استخراج الكيانات)، ولكنها غير مناسبة للتوليد.
  • مفككات التشفير فقط (Decoder-only): نماذج من نوع LaMDA وPaLM (على غرار GPT). تعمل بشكل ذاتي الانحدار (autoregressive)، أي أنها تتنبأ بالنص رمزًا تلو الآخر. هذه النماذج مولِّدة بطبيعتها، ومناسبة تمامًا لإكمال النصوص، وإجراء الحوارات، والإجابة على الأسئلة.
  • المشفر-مفكك التشفير (Encoder-Decoder): نماذج من نوع T5 وGNMT. تحتوي على كلا الجزأين: يعالج المشفر التسلسل المدخل، بينما يولد مفكك التشفير التسلسل المخرج. هذه معمارية عالمية لمهام التحويل، مثل الترجمة أو التلخيص.

النطاق: المعلمات، والبيانات، والبنية التحتية

يعود نجاح جوجل في نماذج اللغة الكبيرة إلى ثلاثة عوامل رئيسية:

  1. حجم النماذج: زيادة منهجية في عدد المعلمات من الملايين (BERT) إلى مئات المليارات (PaLM, Gemini).
  2. حجم البيانات: الوصول إلى واحدة من أكبر مجموعات البيانات في العالم (فهرس الويب لجوجل، يوتيوب، كتب جوجل)، مما يسمح بتدريب النماذج على تريليونات من الرموز.
  3. البنية التحتية: استخدام شرائح متخصصة خاصة بها — وحدة معالجة الموترات (TPU) — ونظام موزع يسمى Pathways، مما يتيح تدريب النماذج فائقة الضخامة بكفاءة واستقرار.

تعدد الوسائط والوكالية

تتجه أحدث نماذج جوجل، وخاصة Gemini، نحو تعدد الوسائط العميق والوكالية.

  • تعدد الوسائط الأصيل يعني أن نموذجًا واحدًا يتم تدريبه منذ البداية على فهم ودمج أنواع مختلفة من البيانات (النص، الصور، الصوت)، بدلاً من مجرد ربط وحدات منفصلة.
  • الوكالية (Agentic AI) هي قدرة النموذج ليس فقط على الرد على الطلبات، بل على التخطيط المستقل وتنفيذ سلسلة من الإجراءات لتحقيق هدف ما (على سبيل المثال، استدعاء أدوات خارجية مثل البحث أو الآلة الحاسبة).

جدول ملخص للنماذج الرئيسية

مقارنة بين نماذج اللغة الرئيسية من جوجل
النموذج سنة الإصدار المعلمات (تقديريًا) المعمارية الميزات الرئيسية
BERT 2018 110–340 مليون مشفر (Encoder) فهم ثنائي الاتجاه للسياق، حقق أفضل النتائج (SOTA) في مهام معالجة اللغات الطبيعية.
T5 2019 60 مليون – 11 مليار مشفر-مفكك تشفير نهج موحد «من نص إلى نص» لجميع المهام.
LaMDA 2021 137 مليار مفكك تشفير (Decoder) متخصص في الحوارات المفتوحة والهادفة.
PaLM 2022 540 مليار مفكك تشفير (Decoder) تقدم كبير في الاستدلال المنطقي (Chain-of-Thought)، تدريب على نطاق واسع.
Chinchilla 2022 70 مليار مفكك تشفير (Decoder) نموذج «أمثل من حيث الحوسبة»، أثبت أهمية التوازن بين البيانات والمعلمات.
Gemini 1.0 2023 يصل إلى ~1 تريليون (Ultra) متعدد الوسائط (على الأرجح MoE) تعدد وسائط أصيل، حقق أفضل النتائج (SOTA) في العديد من مؤشرات الأداء (MMLU).
Gemini 1.5 2024 لم يُكشف عنه متعدد الوسائط (MoE) نافذة سياق تصل إلى 1-2 مليون رمز، كفاءة عالية.
Gemini 2.0 2024 لم يُكشف عنه متعدد الوسائط + أدوات قدرات وكيلية مدمجة، توليد الصور/الصوت.

التطبيقات في المنتجات والنظام البيئي

تدمج جوجل نماذجها اللغوية الكبيرة بفعالية في جميع منتجاتها:

  • بحث جوجل: تُستخدم نماذج BERT، وMUM، وGemini لفهم الاستعلامات المعقدة بشكل أفضل وتقديم إجابات مباشرة في شكل AI Overviews (المعروفة سابقًا بـ SGE).
  • مساعد جوجل وBard (الآن Gemini): الانتقال من الأوامر الصوتية البسيطة إلى مساعدين حواريين متكاملين يعتمدون على LaMDA، وPaLM 2، وGemini.
  • Google Workspace: تساعد ميزات Duet AI (الآن Gemini for Workspace) في كتابة رسائل البريد الإلكتروني في Gmail، وإنشاء نصوص في Docs، وتوليد عروض تقديمية في Slides.
  • Android: يتيح Gemini Nano تشغيل ميزات الذكاء الاصطناعي محليًا على الأجهزة، مثل هواتف Pixel، لتعزيز الخصوصية والسرعة.
  • Google Cloud AI: توفر منصة Vertex AI للشركات إمكانية الوصول إلى نماذج PaLM وGemini عبر API لإنشاء تطبيقاتها الخاصة.

الدور في البيئة التنافسية

تعد جوجل أحد اللاعبين الرئيسيين في «سباق الذكاء الاصطناعي»، حيث ينافسها بشكل أساسي OpenAI (بدعم من مايكروسوفت) وMeta.

  • المنافسة مع OpenAI: على الرغم من أن جوجل كانت رائدة في العديد من التقنيات الأساسية (بما في ذلك Transformer)، إلا أن إطلاق ChatGPT في أواخر عام 2022 دفع جوجل إلى تسريع طرح منتجاتها في السوق (مثل Bard). تدور المنافسة حول جودة النماذج (Gemini Ultra مقابل GPT-4)، وحجم نافذة السياق، وسهولة استخدام API.
  • التباين مع Meta: راهنت Meta على المصدر المفتوح (نماذج LLaMA)، مما خلق بديلاً قويًا لنماذج جوجل وOpenAI المغلقة. ردًا على ذلك، بدأت جوجل أيضًا في إصدار نماذج مفتوحة المصدر، مثل Gemma، لدعم مجتمع المطورين وعدم التخلي عن النظام البيئي لـ Meta.
  • التحالفات الاستراتيجية: تستثمر جوجل في لاعبين آخرين، على سبيل المثال، في شركة Anthropic الناشئة (مبتكرو نموذج Claude)، لتنويع أساليبها وتعزيز مكانتها في المنافسة السحابية.

المراجع

  • Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR.
  • Thoppilan, R. et al. (2022). LaMDA: Language Models for Dialog Applications. arXiv:2201.08239.
  • Hoffmann, R. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. JMLR.
  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.

روابط خارجية