Decoder-only models (architecture) — نماذج مُفَكِّك الشفرة فقط

From Systems analysis wiki
Jump to navigation Jump to search

نماذج المُحلِّل فقط (بالإنجليزية: Decoder-Only Models) هي الفئة السائدة من معماريات نماذج اللغة الكبيرة (LLM)، والتي تعتمد حصراً على جزء المُحلِّل (decoder) من معمارية المُحوِّل. تتخصص هذه النماذج في مهام توليد النصوص وتشكل الأساس لمعظم روبوتات الدردشة ومساعدي الذكاء الاصطناعي المعاصرين.

السلسلة الرائدة التي شاعت هذا النهج هي سلسلة نماذج GPT من OpenAI.

المفهوم والمعمارية

الفكرة الأساسية لنماذج المُحلِّل فقط تكمن في التوليد ذاتي الانحدار (autoregressive generation) للتسلسلات. هذا يعني أن النموذج يتنبأ بالرمز (token) التالي بناءً على جميع الرموز السابقة التي تم توليدها قبله. يُعامل المُوجِّه (prompt) (طلب المستخدم) والنص الذي تم توليده بالفعل كتسلسل واحد يستمر النموذج في إكماله.

من الناحية المعمارية، يتكون النموذج من مكدس من N طبقة متطابقة من المُحلِّل. كل طبقة، على عكس المُشفِّر أو المُحلِّل الكامل، تحتوي على طبقتين فرعيتين أساسيتين فقط:

  1. الانتباه الذاتي متعدد الرؤوس المُقنَّع (Masked Multi-Head Self-Attention): هذه هي الآلية الرئيسية التي تضمن خاصية الانحدار الذاتي. أثناء معالجة التسلسل، يمنع القناع السببي (causal mask) الخاص كل رمز من «النظر» إلى الرموز اللاحقة. وبالتالي، يعتمد التنبؤ للموضع i فقط على الرموز في المواضع <i.
  2. الشبكة العصبونية أمامية التغذية (Feed-Forward Network): تطبق تحويلاً غير خطي على تمثيل كل رمز.

تفتقر نماذج المُحلِّل فقط إلى آلية الانتباه المتقاطع (cross-attention)، حيث لا يوجد مُشفِّر يمكن «الانتباه إليه».

مهام التدريب المسبق

يتم تدريب نماذج المُحلِّل فقط على مهمة واحدة، ولكنها قوية جدًا، وهي مهمة ذاتية الإشراف:

Causal Language Modeling (CLM) - النمذجة اللغوية السببية

  • مبدأ العمل: يتم تدريب النموذج على التنبؤ بالرمز التالي في التسلسل. في كل خطوة تدريب، يتلقى النموذج جزءًا من النص كمدخل ويجب عليه توليد توزيع احتمالي للرمز التالي.
  • الهدف: تعظيم احتمالية الرمز التالي الصحيح عبر كميات هائلة من البيانات النصية. هذه المهمة، التي تبدو بسيطة للوهلة الأولى، تجبر النموذج على تعلم القواعد النحوية، وبناء الجمل، والحقائق عن العالم، والأنماط اللغوية المعقدة.

التطبيقات

بفضل طبيعتها ذاتية الانحدار، تعد نماذج المُحلِّل فقط مثالية لأي مهمة تتطلب توليد النصوص:

  • توليد النصوص الحرة: كتابة المقالات، القصائد، السيناريوهات، إلخ.
  • أنظمة الحوار وروبوتات الدردشة: الرد على أسئلة المستخدمين بأسلوب حواري.
  • التلخيص: إنشاء ملخصات قصيرة للنصوص الطويلة.
  • الترجمة الآلية: على الرغم من أن نماذج المُشفِّر-المُحلِّل تُستخدم غالبًا لهذا الغرض، إلا أن نماذج المُحلِّل فقط يمكنها أيضًا التعامل مع الترجمة إذا تمت صياغة المهمة في المُوجِّه (على سبيل المثال، «ترجم من الإنجليزية إلى العربية: ...»).
  • كتابة الشيفرة البرمجية: توليد الشيفرة البرمجية بناءً على وصف نصي.
  • التعلّم ضمن السياق (In-context learning): بفضل حجمها الكبير، تُظهر نماذج المُحلِّل الكبيرة القدرة على حل مهام جديدة من خلال تزويدها ببضعة أمثلة فقط (few-shot) أو حتى بدون أمثلة (zero-shot) مباشرةً في المُوجِّه، دون الحاجة إلى إعادة تدريب دقيقة (fine-tuning).

النماذج الرئيسية وتطورها

  • سلسلة GPT (2018-حتى الآن): رائدة هذا النهج ومن ساهم في انتشاره. أظهر GPT-1 فعالية التدريب المسبق، وأبرز GPT-2 قوة التوسع، بينما كشف GPT-3 عن ظهور قدرات few-shot. جعل ChatGPT وGPT-4 هذه المعمارية معيارًا لمساعدي الذكاء الاصطناعي.
  • LLaMA (2023-حتى الآن): سلسلة من النماذج المفتوحة من شركة Meta، والتي أتاحت الوصول الديمقراطي إلى نماذج اللغة الكبيرة القوية وحفزت موجة من الابتكارات في المجتمع.
  • Claude (2023-حتى الآن): عائلة من النماذج من شركة Anthropic، تركز على الأمان والقدرة على التحكم باستخدام Constitutional AI.
  • PaLM و Gemini (2022-حتى الآن): النماذج الرائدة من Google. يُعد Gemini أيضًا نموذجًا متعدد الوسائط أصلاً يعتمد على معمارية المُحلِّل فقط.

مقارنة مع المعماريات الأخرى

مقارنة بين المعماريات الرئيسية المعتمدة على المُحوِّل
المعمارية المهمة الأساسية اتجاه السياق نماذج نموذجية
المُحلِّل فقط توليد النصوص أحادي الاتجاه (من اليسار إلى اليمين) GPT, LLaMA, Claude, Gemini
المُشفِّر فقط فهم النصوص ثنائي الاتجاه BERT, RoBERTa
مُشفِّر-مُحلِّل تحويل تسلسل إلى تسلسل ثنائي الاتجاه (المُشفِّر) + أحادي الاتجاه (المُحلِّل) T5, BART, المحوِّل الأصلي

انظر أيضًا

  • GPT