PaLM (Pathways Language Model) — بالم

From Systems analysis wiki
Jump to navigation Jump to search

PaLM (Pathways Language Model) هو عائلة من نماذج اللغة الكبيرة (LLM) التي طورتها شركة جوجل. تم تقديم الإصدار الأول من النموذج في أبريل 2022، وكان يحتوي على 540 مليار مُعلَمة (parameter)، وأصبح أحد أكبر نماذج اللغة في العالم في ذلك الوقت، حيث أظهر قدرات فائقة ناتجة عن التوسع الهائل[1].

كان الأساس التكنولوجي الرئيسي لنموذج PaLM هو Pathways — وهي بنية جديدة لأنظمة تعلم الآلة من جوجل، تتيح التنسيق الفعال للحوسبة الموزعة على آلاف الرقائق المسرّعة[2]. أصبح PaLM أول تطبيق واسع النطاق لهذا النظام، حيث أظهر كفاءة غير مسبوقة في التدريب على نطاقات هائلة.

نظام Pathways: أساس التوسع

مفهوم Pathways، الذي قدمته جوجل في عام 2021، يهدف إلى إنشاء شبكة عصبونية واحدة قادرة على تعميم المعرفة بكفاءة عبر مجالات مختلفة وتنفيذ آلاف المهام في وقت واحد. أصبح PaLM أول تطبيق واسع النطاق لهذا النظام: تم تدريبه بالتوازي على 6144 معالجًا متخصصًا من نوع TPU v4، مجمعة في عنقودين سحابيين (TPU v4 Pods)[1].

في وقت إنشائه، كان هذا أكبر تكوين لوحدات TPU يُستخدم لتدريب نموذج واحد على الإطلاق. حقق النظام كفاءة قياسية في استخدام الموارد العتادية (57,8% FLOPs)، مما سمح بتجاوز المشاريع السابقة بشكل كبير من حيث الحجم وتدريب نموذج بنجاح بأكثر من نصف تريليون مُعلَمة[3].

البنية وبيانات التدريب

بنية النموذج

PaLM هو نموذج لغة كثيف (غير متفرق) ذو بنية "المُفكِّك فقط" (decoder-only), على غرار نماذج سلسلة GPT. هذه البنية موجهة لمهام التنبؤ بالرمز التالي وهي مناسبة تمامًا لتوليد النصوص. على عكس بنية الترانسفورمر القياسية، يستخدم PaLM عدة تعديلات رئيسية لزيادة الكفاءة[1]:

  • الطبقات المتوازية: يتم حساب آليات الانتباه والطبقات المتصلة بالكامل بشكل متوازٍ، مما أدى إلى تسريع التدريب بنسبة 15% تقريبًا.
  • دالة التنشيط SwiGLU: استخدام دالة التنشيط SwiGLU بدلاً من دالة ReLU القياسية، مما أدى إلى تحسين جودة النموذج بشكل كبير.

بيانات التدريب

تم تدريب PaLM على مجموعة بيانات عالية الجودة بحجم 780 مليار رمز (token). كانت مجموعة البيانات متعددة اللغات ومتنوعة، وتشمل[1]:

  • وثائق ويب وكتب عالية الجودة.
  • مقالات من ويكيبيديا.
  • حوارات من الشبكات الاجتماعية (50% من مجموعة البيانات).
  • شيفرة مصدرية من GitHub (5% من مجموعة البيانات).

كان حوالي 78% من البيانات باللغة الإنجليزية، بينما كانت النسبة المتبقية البالغة 22% عبارة عن مجموعة بيانات متعددة اللغات. لترميز البيانات، استُخدمت تقنية خاصة "بدون فقدان"، والتي حافظت على جميع المسافات البيضاء (وهو أمر حاسم للشيفرة المصدرية) وقامت بتقسيم رموز اليونيكود غير المعروفة إلى بايتات.

القدرات والنتائج

القدرات الناشئة وتعلم "الطلقات القليلة" (Few-shot learning)

أظهر PaLM أن زيادة حجم النموذج وحجم البيانات والقدرة الحاسوبية يمكن أن تؤدي إلى قدرات ناشئة (تظهر بشكل غير متوقع). في العديد من المهام، ازداد أداء النموذج بشكل حاد وغير خطي فقط عند الوصول إلى أقصى حجم، مما يشير إلى ظهور قدرات جديدة لم تلاحظ من قبل[3].

تم تقييم النموذج في وضع تعلم "الطلقات القليلة" (few-shot learning) (بدون ضبط دقيق، مع بضعة أمثلة في المُوجِّه)، وتفوق على النماذج الكبيرة السابقة (مثل GPT-3 وLaMDA) في 28 من أصل 29 من مؤشرات الأداء (benchmarks) الشائعة في معالجة اللغات الطبيعية. في مجموعة المهام المعقدة BIG-bench، أصبح PaLM أول نموذج يتجاوز متوسط أداء البشر[1].

الاستدلال عبر سلسلة الأفكار (Chain-of-Thought)

أحد أبرز إنجازات PaLM هو قدرته على الاستدلال المنطقي متعدد الخطوات عند استخدام تقنية التوجيه عبر "سلسلة الأفكار" (chain-of-thought prompting)[1]. تتلخص هذه الطريقة في تزويد النموذج بأمثلة يتم فيها شرح حل المشكلة خطوة بخطوة. بعد التدرب على هذه الأمثلة، تمكن PaLM من توليد "سلسلة أفكار" خاصة به لحل مهام جديدة ومعقدة، مثل:

  • المسائل الرياضية: في اختبار GSM8K (مسائل من مستوى المدرسة الابتدائية)، حل PaLM 58% من المسائل، متجاوزًا بذلك أحدث النتائج السابقة التي حققها نموذج تم ضبطه بدقة.
  • مهام المنطق السليم: تمكن النموذج من توليد شروحات مفصلة للمهام غير البسيطة، مثل تفسير النكات التي لم يسبق له رؤيتها.

هذه القدرة جعلت عملية "التفكير" في النموذج أكثر شفافية وشبيهة بالتفكير البشري.

توليد الشيفرة وتعدد اللغات

على الرغم من أن الشيفرة المصدرية شكلت 5% فقط من بيانات التدريب، أظهر PaLM أداءً يضاهي النموذج المتخصص OpenAI Codex في مهام توليد الشيفرة وتحويلها. كما أظهر النموذج قدرات قوية في المهام متعددة اللغات، بما في ذلك الترجمة[3].

التطور والنماذج اللاحقة: عائلة PaLM

أصبح PaLM أساسًا لعائلة كاملة من النماذج التي طورتها جوجل.

PaLM 2

تم تقديم PaLM 2 في مايو 2023، وهو نموذج لاحق أكثر كفاءة وتعددًا للغات. بدلاً من السعي لزيادة عدد المُعلَمات، تم التركيز على جودة بيانات التدريب وكفاءة البنية. تم تدريب PaLM 2 على نصوص بأكثر من 100 لغة ويظهر قدرات محسنة في المنطق والبرمجة والترجمة[4]. يتوفر النموذج بأربعة أحجام (من الأصغر إلى الأكبر): Gecko، وOtter، وBison، وUnicorn. الإصدار الأصغر (Gecko) خفيف بما يكفي للعمل على الأجهزة المحمولة دون اتصال بالإنترنت.

الإصدارات المتخصصة

بناءً على PaLM و PaLM 2، تم إنشاء إصدارات لمجالات محددة:

  • Med-PaLM 2: نموذج متخصص للطب. أصبح أول نظام ذكاء اصطناعي يصل إلى مستوى الخبراء في أسئلة امتحان الترخيص الطبي في الولايات المتحدة (USMLE)[4].
  • Sec-PaLM 2: نموذج موجه للأمن السيبراني، تم تدريبه على اكتشاف الثغرات الأمنية وتحليل الشيفرات الخبيثة[5].

PaLM-E: الإصدار متعدد الوسائط

PaLM-E (Pathways Language Model Embodied) هو نموذج متعدد الوسائط يجمع بين نموذج اللغة PaLM والبيانات المرئية من Vision Transformer (ViT). يتيح هذا للنموذج معالجة كل من النصوص والصور، وحل المشكلات المتعلقة بالعالم المادي، مثل التحكم في الروبوتات[6].

الجوانب الأخلاقية والقيود

يؤكد مطورو PaLM على ضرورة اتباع نهج مسؤول في تطوير نماذج اللغة الكبيرة. في الورقة العلمية الرسمية، تم إجراء تحليل للتحيزات والسُمّية المحتملة في النص الذي يتم توليده. لضمان الشفافية، نشرت جوجل بطاقة النموذج (Model Card) وصحيفة البيانات (Datasheet) لنموذج PaLM، حيث تم توثيق خصائص مجموعة البيانات ونتائج الاختبارات والقيود المكتشفة[1]. تتوافق هذه الإجراءات مع الممارسات الحديثة للذكاء الاصطناعي المسؤول وتهدف إلى تقليل المخاطر المرتبطة بالتحيزات وتوليد المحتوى الضار.

روابط خارجية

المراجع

  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311.
  • Anil, R. et al. (2023). PaLM 2 Technical Report. arXiv:2305.10403.
  • Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
  • Singhal, K. et al. (2022). Large Language Models Encode Clinical Knowledge. arXiv:2212.13138.
  • Singhal, K. et al. (2023). Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
  • Barham, P. et al. (2022). Pathways: Asynchronous Distributed Dataflow for ML. arXiv:2203.12533.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  • Wei, J. et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682.
  • Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage?. arXiv:2304.15004.
  • Lu, S. et al. (2023). Are Emergent Abilities in Large Language Models just In-Context Learning?. arXiv:2309.01809.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Rae, J. W. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
  • Diao, S. et al. (2023). Active Prompting with Chain-of-Thought for Large Language Models. arXiv:2302.12246.

ملاحظات

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. "PaLM: Scaling Language Modeling with Pathways". arXiv. [١]
  2. "Introducing Pathways: A next-generation AI architecture". Google AI Blog. [٢]
  3. 3.0 3.1 3.2 "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". Google Research Blog. [٣]
  4. 4.0 4.1 "Google AI: What to know about the PaLM 2 large language model". Google AI Blog. [٤]
  5. "New AI capabilities that can help address your security challenges". Google Cloud Blog. [٥]
  6. "PaLM-E: An embodied multimodal language model". Google Research Blog. [٦]