Chinchilla (language model) — شينشيلا

Chinchilla — هو نموذج لغوي كبير (LLM) طورته مجموعة أبحاث DeepMind وقُدّم في مارس 2022^[1]. يحتوي النموذج على حوالي 70 مليار مُعلَمة (parameter) ودُرّب على مجموعة نصوص بحجم 1.4 تريليون رمز مميز (token).

الميزة الرئيسية لنموذج Chinchilla هي منهجيته المُثلى من حيث الحوسبة (compute-optimal) في التدريب. على عكس النماذج السابقة التي ركزت بشكل أساسي على زيادة عدد المُعلَمات، صُمم Chinchilla بناءً على فرضية ضرورة التوسع المتناسب لكل من حجم النموذج وحجم بيانات التدريب. بفضل هذه المنهجية، أظهر Chinchilla تفوقًا على نماذج أكبر بكثير، مثل Gopher (280 مليار مُعلَمة) وGPT-3 (175 مليارًا)، في مجموعة واسعة من المهام اللغوية^[2].

الخلفية وتاريخ التطوير

جاء تطوير Chinchilla نتيجة لأبحاث أجرتها DeepMind حول توسيع نطاق النماذج اللغوية الكبيرة (LLM)، بالاعتماد على عائلة نماذج Gopher^[3]. نموذج Gopher، الذي قُدّم في عام 2021، كان يحتوي على 280 مليار مُعلَمة، ولكنه دُرّب على مجموعة نصوص صغيرة نسبيًا بحجم 300 مليار رمز مميز. في ذلك الوقت، كانت الصناعة تعتمد بشكل أساسي على نهج يفترض أن أداء النماذج ينمو بشكل رئيسي من خلال زيادة حجمها (عدد المُعلَمات)، بينما يظل حجم البيانات ثابتًا نسبيًا.

فرضية التدريب الأمثل حوسبيًا

طرح باحثو DeepMind فرضية مفادها أن العديد من النماذج الكبيرة، بما في ذلك Gopher، كانت غير مُدرَّبة بشكل كافٍ (undertrained) مقارنة بحجمها. لم تكن هذه النماذج تصل إلى أقصى جودة ممكنة في ظل ميزانية حوسبية معينة، وذلك بسبب نقص بيانات التدريب^[2].

جوهر الفرضية هو أنه للاستخدام الأمثل للموارد الحوسبية، يجب زيادة حجم النموذج وحجم بيانات التدريب بشكل متناسب مع بعضهما البعض. بمعنى آخر، عند مضاعفة عدد مُعلَمات النموذج، من الضروري مضاعفة عدد رموز التدريب المميزة تقريبًا^[1]. تعارض هذا الاستنتاج مع الأبحاث السابقة التي بالغت في تقدير قيمة زيادة حجم النموذج، لأنها أُجريت بحجم بيانات ثابت.

للتحقق من هذه الفرضية، أجرى فريق DeepMind تجارب واسعة، حيث درب أكثر من 400 نموذج بأحجام مختلفة على مجموعات بيانات تتراوح من 5 إلى 500 مليار رمز مميز. أكدت النتائج أن التوسع المتوازي هو الاستراتيجية المُثلى. بناءً على هذه الاستنتاجات، تم تطوير نموذج Chinchilla كاختبار عملي للنموذج الفكري الجديد^[4].

البنية والتدريب

الخصائص البنيوية

ينتمي Chinchilla إلى عائلة نماذج المحولات ذات الانحدار الذاتي (autoregressive transformers)، وهو قريب من حيث البنية لنماذج GPT-2/GPT-3^[3]. وقد ورث العديد من الحلول من نموذج Gopher، ولكن مع اختلافات رئيسية تهدف إلى تقليل الحجم مع الحفاظ على عمق الشبكة:

المُعلَمات: حوالي 70 مليار مُعلَمة موزعة على 80 طبقة.
عرض النموذج: تم تقليل عدد رؤوس الانتباه الذاتي (self-attention heads) إلى 64 (مقابل 128 في Gopher)، والأبعاد الداخلية للطبقات إلى 8192 (مقابل حوالي 16384 في Gopher).
المُحسِّن (Optimizer): يستخدم AdamW بدلاً من Adam، مما يحسن التقارب (convergence) عند التدريب على مجموعات بيانات كبيرة^[3].

سمحت هذه البنية لنموذج Chinchilla بالحفاظ على نفس عمق الشبكة الموجود في Gopher، ولكن بعدد أقل بكثير من المُعلَمات، مما قلل من متطلبات الذاكرة والموارد الحوسبية.

التوسع وبيانات التدريب

للتحقق من الفرضية، تم تدريب Chinchilla بنفس الميزانية الحوسبية المخصصة لـ Gopher، ولكن مع إعادة توزيع الموارد لصالح البيانات. تم تدريب النموذج الذي يحتوي على 70 مليار مُعلَمة على مجموعة نصوص بحجم 1.4 تريليون رمز مميز، وهو ما يزيد بحوالي 4 أضعاف عن حجم البيانات المستخدمة في تدريب Gopher^[1].

هذه النسبة، التي تبلغ حوالي 20 رمزًا مميزًا لكل مُعلَمة، أصبحت تُعرف باسم نقطة شينشيلا (Chinchilla Point) وتُعتبر معيارًا إرشاديًا للتدريب الأمثل حوسبيًا للنماذج اللغوية الكبيرة الحديثة^[5]. أكدت التجربة أن Chinchilla، بكونه مُدرَّبًا بشكل أقرب إلى هذا الحد الأمثل، تمكن من تحقيق إمكاناته بشكل أكمل من النماذج الأكبر حجمًا ولكنها غير مُدرَّبة بشكل كافٍ.

النتائج والأداء

في مجموعة واسعة من الاختبارات القياسية، أظهر Chinchilla تفوقًا كبيرًا على النماذج السابقة. لقد تفوق بثقة ليس فقط على Gopher، بل وعلى النماذج اللغوية الكبيرة الأخرى المعاصرة له في ذلك الوقت، بما في ذلك OpenAI GPT-3 (175 مليار مُعلَمة) وMegatron-Turing NLG (530 مليار مُعلَمة)^[1].

كانت النتيجة الأكثر دلالة هي التي حققها النموذج على مقياس الأداء الشامل MMLU (Measuring Massive Multitask Language Understanding)، الذي يقيم المعرفة والاستدلال عبر مئات المهام المتنوعة. حقق Chinchilla متوسط دقة بلغ 67.5%، وهو ما شكّل رقمًا قياسيًا جديدًا للنماذج من هذه الفئة، وتجاوز نتيجة Gopher بـ 7 نقاط مئوية^[4].

بالإضافة إلى كفاءته العالية، أظهر Chinchilla أيضًا اقتصادية في الاستخدام. حجم النموذج الأصغر (70 مليارًا مقابل 175+ مليارًا في النماذج المماثلة) يعني أن الاستدلال (inference) والضبط الدقيق (fine-tuning) يتطلبان موارد حوسبية أقل بكثير، مما يسهل تطبيقه العملي.

الأهمية والتأثير

كان لبحث Chinchilla تأثير جوهري على مناهج تدريب النماذج اللغوية الكبيرة.

قوانين شينشيلا للتوسع (Chinchilla scaling laws): أصبحت النسبة المُثلى المكتشفة بين حجم النموذج وحجم البيانات معيارًا واقعيًا (de-facto standard) ونقطة مرجعية للتطورات اللاحقة في هذا المجال.
تحويل التركيز من الحجم إلى البيانات: حفز هذا العمل الصناعة على إيلاء المزيد من الاهتمام لإنشاء وتنقية وتوسيع مجموعات بيانات التدريب، بدلاً من مجرد زيادة عدد المُعلَمات بشكل عشوائي.
التطبيق في الأنظمة متعددة الوسائط: استُخدم Chinchilla كمكون لغوي أساسي في نموذج DeepMind متعدد الوسائط Flamingo، القادر على فهم الصور والنصوص^[6].

على الرغم من أن نموذج Chinchilla نفسه لم يُطرح للاستخدام العام، إلا أن مفاهيمه ونتائجه، التي نُشرت في الورقة العلمية، غيرت مسار تطور مجال النماذج اللغوية الكبيرة بأكمله، ورسمت طريقًا نحو نمو أكثر كفاءة وتوازنًا لقدرات الذكاء الاصطناعي.

المراجع الأدبية

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

ملاحظات

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [١]
↑ ^2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [٢]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
↑ ^4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
↑ «Chinchilla (language model)». Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [١]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [٢]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.

[legalgenie-5] «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.

[wiki_eng-6] «Chinchilla (language model)». Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (language model) — شينشيلا

Contents

الخلفية وتاريخ التطوير

فرضية التدريب الأمثل حوسبيًا

البنية والتدريب

الخصائص البنيوية

التوسع وبيانات التدريب

النتائج والأداء

الأهمية والتأثير

المراجع الأدبية

ملاحظات

Navigation menu

Chinchilla (language model) — شينشيلا

الخلفية وتاريخ التطوير

فرضية التدريب الأمثل حوسبيًا

البنية والتدريب

الخصائص البنيوية

التوسع وبيانات التدريب

النتائج والأداء

الأهمية والتأثير

المراجع الأدبية

ملاحظات

Navigation menu

Search