BERT (language model) — بيرت
BERT (اختصار لـ Bidirectional Encoder Representations from Transformers، وتعني تمثيلات المُشفِّر ثنائية الاتجاه من المُحوِّلات) هو نموذج لغة كبير (LLM) لفهم اللغة الطبيعية، طوره باحثون في جوجل وقُدِّم في عام 2018. دشّن BERT حقبة جديدة في معالجة اللغات الطبيعية (NLP)، حيث أظهر أداءً غير مسبوق في مجموعة واسعة من المهام، ورسّخ نموذج «التدريب المسبق + الضبط الدقيق» (pre-train & fine-tune) كمعيار في هذا المجال.
الابتكار الرئيسي في BERT هو بنيته المعمارية ثنائية الاتجاه بعمق، والتي تسمح للنموذج بأخذ سياق الكلمة من اليسار واليمين في آن واحد عبر جميع طبقات الشبكة. يتم تحقيق ذلك من خلال مهمة تدريب مسبق جديدة تُعرف باسم نمذجة اللغة المقنَّعة (Masked Language Modeling - MLM).
التسمية ومبدأ العمل
إن اختصار BERT هو Bidirectional Encoder Representations from Transformers.
- Bidirectional (ثنائي الاتجاه): يشير إلى الميزة الأساسية للنموذج، وهي القدرة على معالجة سياق الكلمة في كلا الاتجاهين (من اليسار إلى اليمين ومن اليمين إلى اليسار) في وقت واحد. على عكس النماذج أحادية الاتجاه (مثل GPT) التي ترى السياق السابق للكلمة فقط عند معالجتها، يرى BERT التسلسل بأكمله، مما يسمح له بتكوين فهم أعمق وأكثر دقة لمعنى الكلمة.
- Encoder (المُشفِّر): يعني أن BERT يستخدم فقط الجزء الخاص بـالتشفير من بنية المحوِّل (Transformer). تتمثل مهمة المُشفِّر في قراءة تسلسل النص المُدخل وإنشاء تمثيل سياقي غني (متجه) لكل رمز (token). لم يتم تصميم BERT لتوليد النصوص بشكل حر مثل نماذج المُفكِّك (decoder).
- Representations (التمثيلات): يتم تدريب النموذج على إنشاء تمثيلات رقمية عالية الجودة (متجهات أو تضمينات) للكلمات والجمل، والتي يمكن استخدامها بعد ذلك لحل مهام مختلفة في معالجة اللغات الطبيعية.
- from Transformers: يشير إلى أن بنية النموذج تعتمد بالكامل على المحوِّل (Transformer).
تاريخ التطوير
جاء تطوير BERT نتيجة لعدة إنجازات رئيسية في مجال معالجة اللغات الطبيعية:
- التضمينات السياقية (Contextual embeddings): قامت نماذج مثل Word2vec و GloVe بإنشاء متجهات ثابتة للكلمات دون مراعاة السياق. كانت نموذج ELMo (2018) خطوة إلى الأمام، حيث أنتج تمثيلات تعتمد على السياق باستخدام شبكات LSTM ثنائية الاتجاه، ولكن هذه الثنائية كانت «سطحية» (ناتجة عن دمج نموذجين أحاديي الاتجاه).
- التعلم بالنقل و GPT: في منتصف عام 2018، قدمت OpenAI نموذج GPT، الذي أظهر فعالية التدريب المسبق لنموذج محوِّل كبير على بيانات غير موسومة، يليه الضبط الدقيق (fine-tuning) على مهام محددة. ومع ذلك، كان GPT أحادي الاتجاه تمامًا (من اليسار إلى اليمين)، مما حد من قدراته في المهام التي تتطلب فهمًا للسياق الكامل.
إدراكًا لهذه القيود، طور باحثو جوجل بقيادة جاكوب ديفلين نموذج BERT لإنشاء نموذج ثنائي الاتجاه بعمق حقيقي. نُشرت الورقة البحثية حول BERT على arXiv في أكتوبر 2018، وتم توفير الكود المصدري والنماذج المدربة مسبقًا للعموم، مما أثار اهتمامًا هائلاً في المجتمع العلمي. حطم BERT الأرقام القياسية في 11 معيارًا رئيسيًا في معالجة اللغات الطبيعية، بما في ذلك GLUE و SQuAD، وأُطلق عليه اسم «لحظة ImageNet» في مجال معالجة اللغات الطبيعية، حيث يمكن تكييف نموذج واحد متعدد الاستخدامات بسهولة لأداء مهام متعددة.
البنية المعمارية
يعتمد BERT بالكامل على جزء التشفير (encoder) من بنية المحوِّل (Transformer). وهو يتألف من عدة طبقات متطابقة مكدسة فوق بعضها البعض. يوجد إصداران رئيسيان:
- BERT-Base: 12 طبقة، 12 رأس انتباه، حجم الحالة المخفية 768، إجمالي عدد المعلمات حوالي 110 مليون.
- BERT-Large: 24 طبقة، 16 رأس انتباه، حجم الحالة المخفية 1024، إجمالي عدد المعلمات حوالي 340 مليون.
تحتوي كل طبقة على طبقتين فرعيتين أساسيتين:
- آلية الانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention): تسمح لكل رمز (token) في تسلسل الإدخال بـ«الانتباه» إلى جميع الرموز الأخرى، مع ترجيح أهميتها لتحديد قيمته السياقية الخاصة.
- شبكة عصبية أمامية التغذية (Feed-Forward Network): تُطبَّق على كل رمز بشكل منفصل.
بيانات الإدخال
لكي يعمل BERT بشكل صحيح، فإنه يتطلب تنسيقًا خاصًا لبيانات الإدخال. يبدأ تسلسل الرموز المُدخل دائمًا برمز خاص هو `[CLS]` (تصنيف)، والذي يستخدم لمهام تصنيف النص بأكمله. إذا كان الإدخال عبارة عن زوج من الجمل (على سبيل المثال، في مهام أنظمة الإجابة على الأسئلة)، يتم فصلهما بالرمز `[SEP]` (فاصل).
التمثيل النهائي لكل رمز عند الإدخال هو مجموع ثلاثة أنواع من التضمينات (embeddings):
- تضمين الرمز (Token embedding): متجه يقابل رمزًا معينًا من القاموس (يستخدم BERT تقنية ترميز WordPiece).
- تضمين المقطع (Segment embedding): يحدد الجملة التي ينتمي إليها الرمز (الأولى أو الثانية).
- تضمين الموضع (Positional embedding): يشير إلى موضع الرمز في التسلسل، حيث أن بنية المحوِّل لا تأخذ ترتيب الكلمات في الاعتبار بطبيعتها.
مهام التدريب المسبق
لضمان الثنائية العميقة في الاتجاه، يتم تدريب BERT على مهمتين فريدتين في وقت واحد.
Masked Language Modeling (MLM) - نمذجة اللغة المقنَّعة
هذا هو الابتكار الرئيسي في BERT. فبدلاً من التنبؤ بالكلمة التالية كما هو الحال في نماذج اللغة القياسية، يتنبأ BERT بكلمات «مقنَّعة» عشوائيًا في الجملة. تبدو العملية كالتالي:
- يتم اختيار 15% من الرموز عشوائيًا من تسلسل الإدخال.
- من هذه الـ 15%:
- 80% تُستبدل بالرمز الخاص `[MASK]`.
- 10% تُستبدل برمز عشوائي من القاموس.
- 10% تبقى دون تغيير.
- مهمة النموذج هي التنبؤ بالقيم الأصلية لهذه الـ 15% من الرموز، بناءً على سياقها المحيط (الأيسر والأيمن).
هذا المخطط يجبر النموذج على تعلم الروابط الدلالية والنحوية العميقة بين الكلمات ويسمح له بأن يكون ثنائي الاتجاه بشكل حقيقي.
Next Sentence Prediction (NSP) - التنبؤ بالجملة التالية
صُممت هذه المهمة لتعليم BERT فهم العلاقات بين الجمل، وهو أمر بالغ الأهمية لمهام مثل أنظمة الإجابة على الأسئلة أو تحليل الاستلزام النصي (NLI). يُعطى النموذج زوجًا من الجمل (A و B)، ويجب عليه التنبؤ بما إذا كانت الجملة B هي التكملة المنطقية للجملة A.
- في 50% من الحالات، تكون B هي بالفعل الجملة التالية من النص الأصلي.
- في 50% من الحالات، تكون B جملة عشوائية مأخوذة من مكان آخر في المجموعة النصية (corpus).
أظهرت الأبحاث اللاحقة (على سبيل المثال، في نموذج RoBERTa) أن مهمة NSP أقل أهمية من MLM، وأنه يمكن التخلي عنها لصالح مخططات تدريب أكثر كفاءة، لكنها لعبت دورًا مهمًا في نموذج BERT الأصلي.
التطبيق والضبط الدقيق (Fine-Tuning)
تكمن قوة BERT في نموذج التعلم بالنقل. بعد التدريب المسبق المكثف والمكلف على مجموعات نصية ضخمة (Wikipedia + BooksCorpus)، يمكن ضبط النموذج المدرب مسبقًا (fine-tune) بسهولة وسرعة لحل مهمة تطبيقية محددة.
عادةً ما تبدو عملية الضبط الدقيق كما يلي: 1. تُضاف طبقة صغيرة غير مدربة خاصة بالمهمة إلى بنية BERT المدربة مسبقًا (على سبيل المثال، مصنف لتحليل المشاعر). 2. يتم تدريب النموذج بأكمله (بما في ذلك أوزان BERT والطبقة الجديدة) على مجموعة بيانات صغيرة وموسومة مخصصة لهذه المهمة المحددة.
أمثلة على المهام التي يتم تكييف BERT لها:
- تصنيف النصوص (تحليل المشاعر، مرشحات البريد العشوائي): يُضاف مصنف إلى مخرجات الرمز `[CLS]`.
- أنظمة الإجابة على الأسئلة (مثل SQuAD): يتم تدريب النموذج على التنبؤ برموز البداية والنهاية للإجابة ضمن نص معين.
- التعرف على الكيانات المسماة (NER): يُضاف مصنف إلى مخرجات كل رمز، ليحدد ما إذا كان الرمز جزءًا من اسم، أو منظمة، أو تاريخ، إلخ.
النماذج المتفرعة والمشتقة
أدى نجاح BERT إلى ظهور عائلة كاملة من النماذج القائمة على أفكاره:
- RoBERTa (من Facebook AI): هو «BERT محسن بقوة». ليس بنية جديدة، بل هو نتيجة لتدريب BERT بشكل أكثر دقة وأطول: على بيانات أكثر، بدون مهمة NSP، ومع تقنيع ديناميكي. أظهر RoBERTa أن BERT الأصلي كان «غير مدرب كفاية»، وتفوق عليه في جميع المعايير الرئيسية.
- DistilBERT (من Hugging Face): نسخة مصغرة من BERT، تم إنشاؤها باستخدام تقنية تقطير المعرفة (knowledge distillation). DistilBERT أصغر بنسبة 40%، وأسرع بنسبة 60%، ويحتفظ بـ 97% من أداء BERT، مما يجعله مثاليًا للاستخدام في بيئات الإنتاج وعلى الأجهزة ذات الموارد المحدودة.
- ALBERT (A Lite BERT، من Google): نسخة محسنة لتقليل عدد المعلمات. تستخدم تقنيتين رئيسيتين: تحليل التضمينات (embedding factorization) ومشاركة المعلمات عبر الطبقات (cross-layer parameter sharing). وهذا يسمح بإنشاء نماذج أكبر بكثير بعدد أقل من المعلمات.
- mBERT (Multilingual BERT): نسخة من BERT مدربة مسبقًا على 104 لغات في وقت واحد. أظهرت قدرة مدهشة على نقل المعرفة عبر اللغات.
- نماذج متخصصة بالمجال: العديد من النماذج التي تم ضبطها بدقة على بيانات من مجالات محددة، مثل BioBERT (الطب الحيوي)، وSciBERT (النصوص العلمية)، وFinBERT (المالية).
- ModernBERT (2024-2025): جيل جديد من النماذج الشبيهة بـ BERT من شركات Answer.AI و LightOn، يتضمن تحسينات معمارية حديثة مثل RoPE (Rotary Position Embeddings) ودعمًا لسياقات أطول (تصل إلى 8192 رمزًا)، مع الحفاظ على المبادئ الأساسية لـ BERT.
مقارنة مع النماذج الأخرى
| النموذج | المطور | البنية المعمارية | اتجاه السياق | المهمة الأساسية |
|---|---|---|---|---|
| BERT | مُشفِّر (Encoder) | ثنائي الاتجاه | فهم النصوص، التصنيف، الاستخراج | |
| GPT | OpenAI | مُفكِّك (Decoder) | أحادي الاتجاه (من اليسار إلى اليمين) | توليد النصوص، إكمال التسلسلات |
| XLNet | Google / CMU | انحدار ذاتي (تبديلي) | ثنائي الاتجاه (نظريًا) | فهم النصوص (بديل لـ MLM) |
| T5 | مُشفِّر-مُفكِّك (Encoder-Decoder) | ثنائي الاتجاه (المُشفِّر) + أحادي الاتجاه (المُفكِّك) | تحويل «نص-إلى-نص» متعدد الاستخدامات |
التأثير
أحدث BERT ثورة حقيقية في مجال معالجة اللغات الطبيعية ووضع الأساس للعديد من التطورات اللاحقة:
- رسّخ نموذج «التدريب المسبق + الضبط الدقيق» كنهج مهيمن في معالجة اللغات الطبيعية.
- أثبت أهمية السياق ثنائي الاتجاه بعمق لفهم اللغة.
- خفض عتبة الدخول لإنشاء أنظمة معالجة لغات طبيعية عالية الأداء، حيث لم يعد الباحثون والمطورون بحاجة إلى بناء بنيات معمارية معقدة من الصفر لكل مهمة.
- تم دمجه في بحث جوجل، مما شكل أحد أكبر التحديثات لمحرك البحث في تاريخه وأظهر بوضوح الفائدة العملية للنموذج.
- أدى إلى ظهور نظام بيئي كامل من النماذج المشتقة والأدوات والأبحاث («BERTology»)، ليصبح واحدًا من أكثر الأعمال استشهادًا بها في مجال الذكاء الاصطناعي.
على الرغم من أن النماذج الأحدث والأكبر، مثل GPT-3 و GPT-4، قد تفوقت على BERT في العديد من المعايير (خاصة في المهام التوليدية)، إلا أن BERT ومتغيراته لا تزال أداة قوية ومستخدمة على نطاق واسع للمهام التي تتطلب فهمًا عميقًا للنص.
روابط خارجية
- مستودع BERT الرسمي على GitHub
- إعلان BERT في مدونة Google AI
- The Illustrated BERT — شرح مرئي لبنية BERT
المراجع والمؤلفات
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
- Peters, M. E. et al. (2018). Deep Contextualized Word Representations. arXiv:1802.05365.
- Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.
- Lan, Z. et al. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv:1909.11942.
- Sanh, V. et al. (2020). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108.
- Yang, Z. et al. (2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding. arXiv:1906.08237.
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv:1910.10683.
- Lee, J. et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. arXiv:1901.08746.
- Warner, B. et al. (2024). Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference. arXiv:2412.13663.