Pre-training of large language models — التدريب المسبق

التدريب المسبق للنماذج اللغوية الكبيرة (LLM) هو مرحلة أساسية في إنشاء النماذج اللغوية الكبيرة الحديثة، وتتمثل في تدريبها على مجموعات هائلة ومتنوعة من النصوص غير الموسومة. تسمح هذه العملية للنماذج باستيعاب الأنماط اللغوية العامة، والمعرفة حول العالم، والعلاقات الدلالية، مما يشكل ما يسمى بـ النموذج التأسيسي (foundation model)، والذي يمكن تكييفه لاحقًا لحل مهام محددة.

ما هو التدريب المسبق؟

التدريب المسبق (pre-training) هو المرحلة الأولية من التدريب، حيث يتم تدريب النموذج اللغوي الكبير على مجموعات بيانات نصية ضخمة باستخدام أساليب التعلم ذاتي الإشراف (self-supervised learning). هذا يعني أن إشارات التدريب (الملصقات) يتم إنشاؤها من البيانات نفسها، دون الحاجة إلى وسم يدوي من قبل البشر.

الهدف الرئيسي من هذه المرحلة هو التنبؤ بأجزاء مخفية أو مستقبلية من النص. وبناءً على البنية الهندسية للنموذج، تُستخدم مهمتان رئيسيتان:

نمذجة اللغة السببية (Causal Language Modeling, CLM): يتعلم النموذج التنبؤ بالكلمة التالية (التوكن) في تسلسل بناءً على كل الكلمات السابقة. هذا النهج هو أساس النماذج التوليدية، مثل GPT.
نمذجة اللغة المقنَّعة (Masked Language Modeling, MLM): يتعلم النموذج استعادة الكلمات "المقنَّعة" (المخفية) عشوائيًا في النص، مستخدمًا السياق ثنائي الاتجاه المحيط بها (الكلمات على اليسار واليمين). تُستخدم هذه الطريقة في نماذج مثل BERT.

بفضل هاتين المهمتين، يُجبر النموذج على تعلم النحو، والدلالات، والمعرفة الواقعية عن العالم لكي يتمكن من إجراء تنبؤات ناجحة.

بيانات التدريب المسبق

تعتمد فعالية التدريب المسبق بشكل كبير على جودة وتنوع بيانات التدريب. تُستخدم المصادر الرئيسية التالية:

صفحات الويب: مجموعات البيانات مثل Common Crawl و C4 توفر مجموعة واسعة من المواضيع والأساليب واللغات، وتمثل "لقطة" من الإنترنت.
الكتب: المستودعات النصية مثل BookCorpus و The Pile توفر نصوصًا منظمة ومترابطة، وهي مفيدة لفهم التبعيات طويلة المدى والسرد.
بيانات المحادثات: بيانات من المنتديات (مثل Reddit) والشبكات الاجتماعية، والتي تساعد النماذج على إتقان اللغة غير الرسمية وأنماط الحوار.
البيانات المتخصصة: المقالات العلمية (من arXiv)، والشيفرات البرمجية (من GitHub و The Stack)، أو النصوص متعددة اللغات لتحسين قدرات النموذج المحددة.

أمثلة على توزيع البيانات

تستخدم النماذج المختلفة نسبًا متفاوتة من المصادر، مما يؤثر على قدراتها النهائية:

GPT-3 (175 مليار معلمة):** 16% كتب، 84% صفحات ويب.
PaLM (540 مليار معلمة):** 5% كتب، 14% صفحات ويب، 50% بيانات محادثات، 31% مصادر أخرى.
LLaMA (65 مليار معلمة):** 5% كتب، 2% صفحات ويب، 87% بيانات محادثات.

تُظهر هذه التوزيعات أن اختيار البيانات هو قرار استراتيجي يختلف باختلاف أهداف النموذج.

المستودعات النصية شائعة الاستخدام

مجموعات البيانات شائعة الاستخدام للتدريب المسبق للنماذج اللغوية الكبيرة
المستودع النصي	الحجم	المصدر	آخر تحديث
BookCorpus	5GB	كتب	ديسمبر-2015
Gutenberg	-	كتب	ديسمبر-2021
C4	800GB	Common Crawl	أبريل-2019
CC-Stories-R	31GB	Common Crawl	سبتمبر-2019
CC-NEWS	78GB	Common Crawl	فبراير-2019
REALNEWS	120GB	Common Crawl	أبريل-2019
OpenWebText	38GB	روابط من Reddit	مارس-2023
Pushshift.io	2TB	روابط من Reddit	مارس-2023
Wikipedia	21GB	ويكيبيديا	مارس-2023
The Pile	800GB	أخرى	ديسمبر-2020
ROOTS	1.6TB	أخرى	يونيو-2022

تقنيات التدريب

يتطلب التدريب المسبق للنماذج اللغوية الكبيرة موارد حاسوبية هائلة. لإدارة هذه العملية، تُطبق التقنيات التالية:

التدريب الموزع: استخدام عدة وحدات معالجة رسوميات (GPU) أو وحدات معالجة الموترات (TPU) للمعالجة المتوازية.
الدقة المختلطة (Mixed Precision): استخدام تنسيقات أرقام بدقة أقل (مثل 16 بت بدلاً من 32 بت) لتسريع الحسابات وتقليل استخدام الذاكرة.
نقاط فحص التدرج (Gradient Checkpointing): تقنية لتوفير الذاكرة عن طريق إعادة حساب بعض التنشيطات الوسيطة بدلاً من تخزينها.
توازي النموذج (Model Parallelism): توزيع النموذج نفسه على عدة أجهزة.

يمكن أن يستغرق تدريب نموذج مثل GPT-3 عدة أشهر على آلاف من وحدات معالجة الرسوميات.

Scaling laws - قوانين التوسع

أظهرت الأبحاث، مثل عمل OpenAI (Kaplan et al., 2020)، أن أداء النماذج اللغوية يتحسن بشكل يمكن التنبؤ به مع زيادة ثلاثة عوامل:

حجم النموذج (عدد المعلمات).
حجم البيانات.
الموارد الحاسوبية.

هذه العلاقات التجريبية، المعروفة باسم قوانين التوسع، تعمل كدليل للمطورين عند تصميم وتدريب نماذج أكبر وأكثر قوة، مما يسمح بتخصيص الميزانية الحاسوبية على النحو الأمثل.

التحديات والإنجازات

التوسع: الإنجاز الرئيسي للتدريب المسبق هو القدرة على موازنة حجم النموذج والبيانات والحوسبة لتحقيق الأداء الأمثل.
جودة البيانات: يعد ضمان نقاء وتنوع بيانات التدريب وخلوها من التحيز تحديًا رئيسيًا.
الكفاءة: تطوير طرق لتقليل التكاليف الحاسوبية، مثل التدريب المسبق المستمر أو البنى الهندسية الأكثر كفاءة.
التعددية اللغوية: يتطلب إنشاء نماذج قادرة على معالجة لغات متعددة بفعالية اختيارًا دقيقًا وموازنة للبيانات.

انظر أيضًا

Large language models
BERT
GPT

Pre-training of large language models — التدريب المسبق

Contents

ما هو التدريب المسبق؟

بيانات التدريب المسبق

أمثلة على توزيع البيانات

المستودعات النصية شائعة الاستخدام

تقنيات التدريب

Scaling laws - قوانين التوسع

التحديات والإنجازات

انظر أيضًا

Navigation menu

Pre-training of large language models — التدريب المسبق

ما هو التدريب المسبق؟

بيانات التدريب المسبق

أمثلة على توزيع البيانات

المستودعات النصية شائعة الاستخدام

تقنيات التدريب

Scaling laws - قوانين التوسع

التحديات والإنجازات

انظر أيضًا

Navigation menu

Search