Encoder-only models — نماذج المشفر فقط
نماذج المشفر فقط (Encoder-Only Models) — هي فئة من معماريات نماذج اللغة الكبيرة (LLM) تعتمد حصريًا على الجزء المُشفِّر (encoder) من معمارية المحوّل (Transformer)'. على عكس النماذج التي تستخدم مفكك الشفرة (decoder) أو معمارية المشفر-مفكك الشفرة الكاملة، تتخصص هذه النماذج في مهام فهم اللغة الطبيعية (Natural Language Understanding, NLU).
النموذج الرائد والمؤسس لهذا النهج هو BERT (Bidirectional Encoder Representations from Transformers)، الذي طورته جوجل في عام 2018.
المفهوم والمعمارية
الفكرة الرئيسية لنماذج المشفر فقط هي إنشاء تمثيلات سياقية (contextualized representations) عميقة، أو ما يعرف بالتضمينات (embeddings)، لكل وحدة رمزية (token) في تسلسل الإدخال. بفضل آلية الانتباه الذاتي (self-attention) في المحوّل، يمكن لكل وحدة رمزية أن "ترى" وتتفاعل مع جميع الوحدات الرمزية الأخرى في التسلسل، مما يسمح للنموذج بالتقاط سياق غني.
الميزة الرئيسية هي ثنائية الاتجاه (bidirectionality): حيث يتم تكوين تمثيل كل وحدة رمزية بناءً على السياق الأيسر والأيمن في نفس الوقت. وهذا يميزها بشكل أساسي عن نماذج مفكك الشفرة فقط ذات الانحدار الذاتي (autoregressive decoder-only models) (مثل GPT)، والتي هي بطبيعتها أحادية الاتجاه.
من الناحية المعمارية، يتكون النموذج من مكدس من طبقة متطابقة من المشفرات. تتكون كل طبقة من طبقتين فرعيتين أساسيتين:
- الانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention): تقوم بحساب التمثيل السياقي لكل وحدة رمزية.
- شبكة عصبونية أمامية التغذية (Feed-Forward Network): تطبق تحويلاً غير خطي على تمثيل كل وحدة رمزية.
عند الخرج، يُولِّد النموذج تسلسلاً من المتجهات بنفس طول تسلسل الإدخال، حيث يمثل كل متجه تمثيلاً غنياً للوحدة الرمزية المدخلة المقابلة له.
مهام التدريب المسبق
لتعليم النموذج فهم اللغة في سياق ثنائي الاتجاه، يتم استخدام مهام تدريب مسبق خاصة ذاتية الإشراف (self-supervised):
نمذجة اللغة المقنَّعة (Masked Language Modeling, MLM)
هذه هي المهمة الأساسية والأكثر أهمية لنماذج المشفر فقط، وقد تم تقديمها لأول مرة في BERT.
- مبدأ العمل: يتم إخفاء (تقنيع) نسبة صغيرة من الوحدات الرمزية (عادة 15%) بشكل عشوائي من تسلسل الإدخال. وتكون مهمة النموذج هي التنبؤ بالقيم الأصلية لهذه الوحدات الرمزية المقنَّعة باستخدام السياق ثنائي الاتجاه المحيط بها.
- الهدف: تجبر هذه المهمة النموذج على تعلم الروابط الدلالية والنحوية العميقة بين الكلمات.
التنبؤ بالجملة التالية (Next Sentence Prediction, NSP)
تم تصميم هذه المهمة (وهي أيضاً من نموذج BERT الأصلي) لتعليم النموذج فهم العلاقات بين الجمل.
- مبدأ العمل: يُقدَّم للنموذج زوج من الجمل، ويجب عليه تحديد ما إذا كانت الجملة الثانية هي استمرار منطقي للجملة الأولى في النص الأصلي.
- الحالة: أظهرت الأبحاث اللاحقة (على سبيل المثال، في نموذج RoBERTa) أن مهمة NSP أقل فعالية من MLM، وغالباً ما يتم استبدالها بمهام أخرى أو إزالتها بالكامل.
التطبيقات
نماذج المشفر فقط غير مصممة لتوليد النصوص بشكل حر، لأنها تفتقر إلى مفكك شفرة ذاتي الانحدار. تكمن قوتها في تحليل وفهم النص. تُستخدم التمثيلات المتجهية الناتجة عن النموذج لحل مجموعة واسعة من مهام فهم اللغة الطبيعية (NLU):
- تصنيف النصوص: للمهام مثل تحليل المشاعر أو تحديد الموضوع، يُستخدم تمثيل الوحدة الرمزية الخاصة `[CLS]`، التي تُضاف في بداية كل تسلسل. يجمع متجهها النهائي معلومات حول التسلسل بأكمله.
- تصنيف الوحدات الرمزية (Token Classification): للمهام مثل تمييز الكيانات المسماة (NER) أو تحديد أقسام الكلام (POS-tagging)، تُستخدم التمثيلات المتجهية لكل وحدة رمزية على حدة.
- الإجابة على الأسئلة (Question Answering): في المهام التي يكون فيها الجواب جزءاً من النص المُعطى (extractive QA)، يتم تدريب النموذج على التنبؤ بالوحدات الرمزية التي تبدأ وتنتهي بها الإجابة.
- استخلاص التضمينات (Embeddings): كثيراً ما تُستخدم نماذج المشفر كمشفّرات نصوص عالمية للحصول على تضمينات عالية الجودة للجمل أو المستندات، والتي يمكن استخدامها بعد ذلك في محركات البحث أو لمهام التشابه الدلالي.
النماذج الرئيسية وتطورها
- BERT (2018): رائد هذه المعمارية، والذي حقق أرقاماً قياسية جديدة في العديد من مقاييس أداء معالجة اللغات الطبيعية.
- RoBERTa (2019): "BERT مُحسَّن بقوة". أظهر هذا النموذج أنه يمكن تحسين أداء BERT بشكل كبير من خلال التدريب لفترة أطول على كمية أكبر من البيانات والتخلي عن مهمة NSP.
- ALBERT (2019): "A Lite BERT" (بيرت الخفيف). نموذج بعدد أقل بكثير من المعلمات بفضل تقنيات مثل تحليل التضمينات (embedding factorization) ومشاركة المعلمات عبر الطبقات.
- DistilBERT (2019): نسخة مصغرة من BERT تم إنشاؤها باستخدام تقطير المعرفة (knowledge distillation)، وهي أسرع وأخف وزناً ولكنها تحتفظ بمعظم أداء النموذج الأصلي.
- ELECTRA (2020): قدمت مهمة تدريب مسبق أكثر كفاءة، وهي اكتشاف الوحدات الرمزية المستبدلة (replaced token detection)، حيث يتعلم النموذج التمييز بين الوحدات الرمزية الأصلية و"المزيفة" التي تم توليدها بواسطة نموذج مُولِّد صغير.
- DeBERTa (2020): أدخلت آلية "الانتباه المفكك" (disentangled attention)، التي تشفر المحتوى والمواضع النسبية للوحدات الرمزية بشكل منفصل.
انظر أيضًا
- BERT