Pre-training of large language models — التدريب المسبق
التدريب المسبق للنماذج اللغوية الكبيرة (LLM) هو مرحلة أساسية في إنشاء النماذج اللغوية الكبيرة الحديثة، وتتمثل في تدريبها على مجموعات هائلة ومتنوعة من النصوص غير الموسومة. تسمح هذه العملية للنماذج باستيعاب الأنماط اللغوية العامة، والمعرفة حول العالم، والعلاقات الدلالية، مما يشكل ما يسمى بـ النموذج التأسيسي (foundation model)، والذي يمكن تكييفه لاحقًا لحل مهام محددة.
ما هو التدريب المسبق؟
التدريب المسبق (pre-training) هو المرحلة الأولية من التدريب، حيث يتم تدريب النموذج اللغوي الكبير على مجموعات بيانات نصية ضخمة باستخدام أساليب التعلم ذاتي الإشراف (self-supervised learning). هذا يعني أن إشارات التدريب (الملصقات) يتم إنشاؤها من البيانات نفسها، دون الحاجة إلى وسم يدوي من قبل البشر.
الهدف الرئيسي من هذه المرحلة هو التنبؤ بأجزاء مخفية أو مستقبلية من النص. وبناءً على البنية الهندسية للنموذج، تُستخدم مهمتان رئيسيتان:
- نمذجة اللغة السببية (Causal Language Modeling, CLM): يتعلم النموذج التنبؤ بالكلمة التالية (التوكن) في تسلسل بناءً على كل الكلمات السابقة. هذا النهج هو أساس النماذج التوليدية، مثل GPT.
- نمذجة اللغة المقنَّعة (Masked Language Modeling, MLM): يتعلم النموذج استعادة الكلمات "المقنَّعة" (المخفية) عشوائيًا في النص، مستخدمًا السياق ثنائي الاتجاه المحيط بها (الكلمات على اليسار واليمين). تُستخدم هذه الطريقة في نماذج مثل BERT.
بفضل هاتين المهمتين، يُجبر النموذج على تعلم النحو، والدلالات، والمعرفة الواقعية عن العالم لكي يتمكن من إجراء تنبؤات ناجحة.
بيانات التدريب المسبق
تعتمد فعالية التدريب المسبق بشكل كبير على جودة وتنوع بيانات التدريب. تُستخدم المصادر الرئيسية التالية:
- صفحات الويب: مجموعات البيانات مثل Common Crawl و C4 توفر مجموعة واسعة من المواضيع والأساليب واللغات، وتمثل "لقطة" من الإنترنت.
- الكتب: المستودعات النصية مثل BookCorpus و The Pile توفر نصوصًا منظمة ومترابطة، وهي مفيدة لفهم التبعيات طويلة المدى والسرد.
- بيانات المحادثات: بيانات من المنتديات (مثل Reddit) والشبكات الاجتماعية، والتي تساعد النماذج على إتقان اللغة غير الرسمية وأنماط الحوار.
- البيانات المتخصصة: المقالات العلمية (من arXiv)، والشيفرات البرمجية (من GitHub و The Stack)، أو النصوص متعددة اللغات لتحسين قدرات النموذج المحددة.
أمثلة على توزيع البيانات
تستخدم النماذج المختلفة نسبًا متفاوتة من المصادر، مما يؤثر على قدراتها النهائية:
- GPT-3 (175 مليار معلمة):** 16% كتب، 84% صفحات ويب.
- PaLM (540 مليار معلمة):** 5% كتب، 14% صفحات ويب، 50% بيانات محادثات، 31% مصادر أخرى.
- LLaMA (65 مليار معلمة):** 5% كتب، 2% صفحات ويب، 87% بيانات محادثات.
تُظهر هذه التوزيعات أن اختيار البيانات هو قرار استراتيجي يختلف باختلاف أهداف النموذج.
المستودعات النصية شائعة الاستخدام
| المستودع النصي | الحجم | المصدر | آخر تحديث |
|---|---|---|---|
| BookCorpus | 5GB | كتب | ديسمبر-2015 |
| Gutenberg | - | كتب | ديسمبر-2021 |
| C4 | 800GB | Common Crawl | أبريل-2019 |
| CC-Stories-R | 31GB | Common Crawl | سبتمبر-2019 |
| CC-NEWS | 78GB | Common Crawl | فبراير-2019 |
| REALNEWS | 120GB | Common Crawl | أبريل-2019 |
| OpenWebText | 38GB | روابط من Reddit | مارس-2023 |
| Pushshift.io | 2TB | روابط من Reddit | مارس-2023 |
| Wikipedia | 21GB | ويكيبيديا | مارس-2023 |
| The Pile | 800GB | أخرى | ديسمبر-2020 |
| ROOTS | 1.6TB | أخرى | يونيو-2022 |
تقنيات التدريب
يتطلب التدريب المسبق للنماذج اللغوية الكبيرة موارد حاسوبية هائلة. لإدارة هذه العملية، تُطبق التقنيات التالية:
- التدريب الموزع: استخدام عدة وحدات معالجة رسوميات (GPU) أو وحدات معالجة الموترات (TPU) للمعالجة المتوازية.
- الدقة المختلطة (Mixed Precision): استخدام تنسيقات أرقام بدقة أقل (مثل 16 بت بدلاً من 32 بت) لتسريع الحسابات وتقليل استخدام الذاكرة.
- نقاط فحص التدرج (Gradient Checkpointing): تقنية لتوفير الذاكرة عن طريق إعادة حساب بعض التنشيطات الوسيطة بدلاً من تخزينها.
- توازي النموذج (Model Parallelism): توزيع النموذج نفسه على عدة أجهزة.
يمكن أن يستغرق تدريب نموذج مثل GPT-3 عدة أشهر على آلاف من وحدات معالجة الرسوميات.
Scaling laws - قوانين التوسع
أظهرت الأبحاث، مثل عمل OpenAI (Kaplan et al., 2020)، أن أداء النماذج اللغوية يتحسن بشكل يمكن التنبؤ به مع زيادة ثلاثة عوامل:
- حجم النموذج (عدد المعلمات).
- حجم البيانات.
- الموارد الحاسوبية.
هذه العلاقات التجريبية، المعروفة باسم قوانين التوسع، تعمل كدليل للمطورين عند تصميم وتدريب نماذج أكبر وأكثر قوة، مما يسمح بتخصيص الميزانية الحاسوبية على النحو الأمثل.
التحديات والإنجازات
- التوسع: الإنجاز الرئيسي للتدريب المسبق هو القدرة على موازنة حجم النموذج والبيانات والحوسبة لتحقيق الأداء الأمثل.
- جودة البيانات: يعد ضمان نقاء وتنوع بيانات التدريب وخلوها من التحيز تحديًا رئيسيًا.
- الكفاءة: تطوير طرق لتقليل التكاليف الحاسوبية، مثل التدريب المسبق المستمر أو البنى الهندسية الأكثر كفاءة.
- التعددية اللغوية: يتطلب إنشاء نماذج قادرة على معالجة لغات متعددة بفعالية اختيارًا دقيقًا وموازنة للبيانات.
انظر أيضًا
- Large language models
- BERT
- GPT