Encoder (Transformer) — مُرَمِّز

From Systems analysis wiki
Jump to navigation Jump to search

المُرَمِّز (بالإنجليزية: Encoder) — في مجال تعلم الآلة والتعلم العميق، هو أحد مكونات الشبكة العصبية، ومهمته الأساسية هي تحويل تسلسل بيانات الإدخال (مثل نص أو صورة) إلى تمثيل رقمي غني، يُطلق عليه عادةً الحالة الخفية، أو متجه السياق، أو التضمين. يلتقط هذا التمثيل الخصائص والمفاهيم الدلالية الرئيسية لبيانات الإدخال في شكل مناسب للمعالجة اللاحقة.

بمعنى أوسع، في نظرية المعلومات، المُرَمِّز هو أي جهاز أو خوارزمية تقوم بتحويل المعلومات من صيغة إلى أخرى، غالبًا بهدف الضغط أو النقل.

المفهوم والغرض

الهدف الأساسي للمُرَمِّز في الشبكات العصبية هو استخلاص الميزات المفيدة من بيانات الإدخال و"ترميزها" في متجه كثيف ذي طول ثابت. يمكن اعتبار هذه العملية شكلاً من أشكال تقليص الأبعاد غير الخطي، حيث يتم تحويل بيانات الإدخال عالية الأبعاد والمتفرقة (مثل النصوص المُمَثَّلة بمتجهات التشفير الأحادي one-hot) إلى فضاء متجهي منخفض الأبعاد ولكنه غني بالمعلومات (الفضاء الكامن).

يمكن بعد ذلك استخدام هذا المتجه المُرَمَّز من خلال:

  • مُفَكِّك الرُّموز لتوليد تسلسل جديد (على سبيل المثال، في الترجمة الآلية).
  • مُصَنِّف لحل مهام التحليل (مثل تحديد المشاعر في نص ما).
  • للمهام التي تتطلب فهم سياق الإدخال بأكمله.

المُرَمِّز في البنى المختلفة

المُرَمِّز في المُرَمِّز التلقائي

أحد الأمثلة الكلاسيكية هو بنية المُرَمِّز التلقائي. يتكون من جزأين:

  1. المُرَمِّز: يضغط بيانات الإدخال إلى تمثيل خفي ذي أبعاد أقل (الكود الكامن).
  2. مُفَكِّك الرُّموز: يحاول استعادة البيانات الأصلية من هذا التمثيل المضغوط.

بتدريب هذه الشبكة على تقليل خطأ الاستعادة، يتعلم المُرَمِّز استخلاص أهم الميزات من البيانات.

المُرَمِّز في الشبكات العصبية المتكررة (RNN/LSTM)

قبل ظهور بنية المُحَوِّل (Transformer)، كانت المُرَمِّزات في مهام معالجة التسلسلات (seq2seq) تُبنى على أساس الشبكات العصبية المتكررة (RNN) أو نسختها المحسّنة LSTM.

  • مبدأ العمل: يعالج مُرَمِّز RNN تسلسل الإدخال رمزًا تلو الآخر. في كل خطوة، يحدّث حالته الخفية، مدمجًا المعلومات حول الرمز الحالي والحالة السابقة. تعتبر الحالة الخفية النهائية، التي يتم الحصول عليها بعد معالجة التسلسل بأكمله، بمثابة متجه يرمّز معنى تسلسل الإدخال بأكمله. غالبًا ما يطلق على هذا المتجه اسم متجه السياق أو "متجه الفكرة" (thought vector).

المُرَمِّز في بنية المُحَوِّل (Transformer)

ارتبطت الثورة في معالجة اللغة الطبيعية بظهور المُرَمِّز القائم على بنية المُحَوِّل (Transformer). على عكس RNN، فإنه يعالج جميع رموز التسلسل بالتوازي.

يتكون مُرَمِّز المُحَوِّل من مكدس من (N) طبقات متطابقة. تحتوي كل طبقة على طبقتين فرعيتين أساسيتين:

  1. الانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention): تتيح هذه الآلية لكل رمز في تسلسل الإدخال أن "ينتبه" إلى جميع الرموز الأخرى ويقيم أهميتها لتشكيل تمثيله السياقي الخاص. هذا يسمح للنموذج بالتقاط التبعيات المعقدة بين الكلمات، بغض النظر عن موقعها.
  2. شبكة عصبية أمامية التغذية (Feed-Forward Network): تُطبق على تمثيل كل رمز بشكل منفصل لمزيد من التحويل غير الخطي.

يكمن الاختلاف الرئيسي بين مُرَمِّز المُحَوِّل ومُرَمِّز RNN في أنه يُنتج عند المخرج ليس متجه سياق واحدًا، بل تسلسلًا من المتجهات المُسيَّقَة — واحد لكل رمز إدخال. يحتوي كل متجه من هذا القبيل على معلومات حول رمزه الخاص في سياق التسلسل بأكمله.

أنواع النماذج القائمة على المُرَمِّز

نماذج المُرَمِّز-مُفَكِّك الرُّموز

هذه هي البنية الكلاسيكية لمهام تحويل تسلسل إلى تسلسل (seq2seq)، مثل الترجمة الآلية أو التلخيص.

  • مبدأ العمل: يعالج المُرَمِّز تسلسل الإدخال بأكمله (على سبيل المثال، جملة باللغة المصدر). ثم يتم تمرير تمثيلاته الناتجة إلى مُفَكِّك الرُّموز، الذي يستخدمها لتوليد تسلسل الإخراج بشكل تراجعي ذاتي (جملة باللغة الهدف). "ينظر" مُفَكِّك الرُّموز إلى مخرجات المُرَمِّز باستخدام آلية خاصة تسمى الانتباه المتقاطع (cross-attention).
  • أمثلة: المُحَوِّل الأصلي، T5، BART.

نماذج المُرَمِّز فقط (Encoder-Only)

تستخدم هذه النماذج مكدس مُرَمِّزات المُحَوِّل حصرًا.

  • مبدأ العمل: هي مصممة للمهام التي تتطلب فهمًا عميقًا لسياق النص المُدخَل بأكمله. بفضل الطبيعة ثنائية الاتجاه لآلية الانتباه الذاتي، فإنها تنشئ تمثيلات سياقية غنية لكل رمز.
  • التطبيق: مثالية لمهام تحليل وفهم اللغة (NLU)، مثل:
    • تصنيف النصوص (على سبيل المثال، تحليل المشاعر).
    • التعرّف على الكيانات المسماة (NER).
    • الإجابة على الأسئلة (Question Answering)، حيث يكون الجواب جزءًا من النص.
  • مثال: BERT ومشتقاته (RoBERTa, ALBERT).

العلاقة مع مُفَكِّك الرُّموز

في بنية المُرَمِّز-مُفَكِّك الرُّموز، يؤدي المُرَمِّز ومُفَكِّك الرُّموز أدوارًا متكاملة:

  • المُرَمِّز مسؤول عن فهم تسلسل الإدخال.
  • مُفَكِّك الرُّموز مسؤول عن توليد تسلسل الإخراج.

الرابط الأساسي بينهما هو آلية الانتباه المتقاطع (cross-attention) داخل مُفَكِّك الرُّموز. في كل خطوة من خطوات التوليد، يُنشئ مُفَكِّك الرُّموز استعلامًا (Query) بناءً على الجزء الذي تم إنشاؤه بالفعل من تسلسل الإخراج ويستخدمه "للانتباه" إلى تمثيلات مخرجات المُرَمِّز (التي تعمل كمفاتيح وقيم — Key and Value). هذا يسمح لمُفَكِّك الرُّموز بالتركيز على الأجزاء الأكثر صلة من تسلسل الإدخال لتوليد الرمز التالي.

المراجع

  • Hinton, G. E.; Salakhutdinov, R. R. (2006). Reducing the Dimensionality of Data with Neural Networks. Science. DOI:10.1126/science.1127647.
  • Cho, K. et al. (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. arXiv:1406.1078.
  • Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. arXiv:1409.3215.
  • Bahdanau, D.; Cho, K.; Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473.
  • Kingma, D. P.; Welling, M. (2014). Auto-Encoding Variational Bayes. arXiv:1312.6114.
  • Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
  • Dai, Z. et al. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. arXiv:1901.02860.
  • Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv:1910.10683.
  • Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
  • Dosovitskiy, A. et al. (2020). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. arXiv:2010.11929.

انظر أيضًا

  • BERT