Temperature (LLM) — درجة الحرارة (LLM)

From Systems analysis wiki
Jump to navigation Jump to search

Temperature - درجة الحرارة في سياق نماذج اللغة الكبيرة (LLM) هي معلمة فائقة (hyperparameter) تتحكم في مستوى العشوائية و«الإبداع» عند توليد النصوص. وهي تنظم «حدة» أو، على العكس، «سلاسة» التوزيع الاحتمالي للرمز (token) التالي في كل خطوة من خطوات فك التشفير (decoding). من خلال التحكم في درجة الحرارة، يمكن إدارة التوازن بين قابلية التنبؤ (الاتساق) والتنوع (الإبداع) في النص المُولَّد.

التعريف النظري والرياضيات

رياضيًا، يتم إدخال درجة الحرارة (T) كقاسم في دالة softmax، التي تحول مخرجات اللوغاريتمات (logits) للنموذج (ui) إلى توزيع احتمالي (Pi). الصيغة هي كما يلي:

Pi(T)=eui/Tjeuj/T

حيث:

  • Pi(T) — هو الاحتمال النهائي للرمز i عند درجة حرارة T.
  • ui — هو اللوغاريتم (logit) (التقييم غير المُطَبَّع) للرمز i الذي يخرجه النموذج.
  • T — هي معلمة درجة الحرارة.

تأثير قيمة درجة الحرارة

  • T=1 (القيمة الافتراضية): يبقى التوزيع الاحتمالي دون تغيير. هذه هي دالة softmax القياسية التي تعكس التنبؤات الأصلية للنموذج.
  • T<1 (درجة حرارة منخفضة، مثل 0.20.7): يصبح التوزيع أكثر حدة أو ذروةً. تزداد احتمالات الرموز الأكثر ترجيحًا، بينما تقل احتمالات الرموز الأقل ترجيحًا. هذا يجعل عملية التوليد أكثر حتمية وقابلية للتنبؤ. يميل النموذج إلى اختيار الكلمات الواضحة وذات التكرار العالي، مما يعزز اتساق النص وصحته النحوية، ولكنه يقلل من تنوعه.
  • T>1 (درجة حرارة مرتفعة، مثل 1.01.5): يصبح التوزيع أكثر سلاسة أو انتظامًا. يتم تخفيف الفرق بين احتمالات الرموز، مما يزيد من فرصة اختيار الرموز الأقل احتمالًا (والأكثر «إثارة للدهشة»). هذا يجعل النص أكثر إبداعًا وتنوعًا وغير متوقع، ولكنه يزيد من خطر توليد عبارات غير مترابطة أو غير صحيحة نحويًا.

الحالات الحدية

  • T0: في الحالة القصوى عندما تقترب درجة الحرارة من الصفر، تتحول دالة softmax إلى argmax. سيختار النموذج دائمًا الرمز ذي اللوغاريتم الأعلى. هذا الوضع يعادل فك التشفير الجشع (greedy decoding) وهو حتمي تمامًا. غالبًا ما يؤدي إلى نص متكرر ونمطي.
  • T: عندما تقترب درجة الحرارة من اللانهاية، يصبح التوزيع الاحتمالي منتظمًا. تصبح جميع الرموز في المفردات متساوية في الاحتمال، ويقوم النموذج بتوليد «تيار وعي» عشوائي، فاقدًا للاتساق تمامًا.

التطبيق العملي والتوصيات

يعد الاختيار الصحيح لدرجة الحرارة أمرًا بالغ الأهمية ويعتمد على المهمة المحددة.

  • للمهام الإبداعية (كتابة القصص، القصائد، الشعارات التسويقية):
    • يوصى بدرجة حرارة أعلى (T0.71.2).
    • هذا يحفز النموذج على توليد أفكار غير متوقعة وأكثر إبداعًا، واستخدام مفردات متنوعة، وتجنب العبارات النمطية.
  • للمهام التي تتطلب الدقة والحقائق (الإجابة على الأسئلة، التلخيص، توليد الأكواد البرمجية):
    • يوصى بدرجة حرارة منخفضة (T0.00.4).
    • هذا يقلل من «الهلوسات» ويجبر النموذج على الالتزام بالتكميلات الأكثر احتمالًا، والتي تكون عادةً أكثر دقة وصلة بالموضوع. في واجهة برمجة تطبيقات OpenAI (API)، غالبًا ما يُوصى بضبط T=0 للمهام التي تتطلب دقة عالية.
  • لأنظمة الحوار وروبوتات الدردشة (chatbots):
    • يوصى بدرجة حرارة معتدلة (T0.50.8).
    • يسمح هذا بتحقيق التوازن: تظل الإجابات مترابطة وذات صلة بالموضوع، ولكنها في نفس الوقت لا تصبح جافة ورتيبة للغاية. على سبيل المثال، في ChatGPT، تُستخدم درجة حرارة تبلغ حوالي 0.7 للمحادثات العادية.

Comparison with Top-k and Top-p - مقارنة مع Top-k و Top-p

درجة الحرارة، على عكس طرق القطع مثل Top-k وTop-p (nucleus sampling)، تعمل بشكل مختلف:

  • درجة الحرارة تعيد توزيع الاحتمالات بين جميع الرموز في المفردات، لكنها لا تستبعد أيًا منها. حتى عند درجة حرارة منخفضة جدًا، تظل هناك فرصة ضئيلة ولكن غير صفرية لاختيار الرموز غير المحتملة.
  • Top-k وTop-p تقدمان قطعًا صارمًا، حيث يتم استبعاد الرموز التي لم تقع ضمن نواة العينة تمامًا. هذه طريقة أكثر موثوقية لمنع توليد كلمات غير ملائمة على الإطلاق.

في الممارسة العملية، غالبًا ما تُستخدم هذه المعلمات معًا. على سبيل المثال، يمكن ضبط درجة حرارة معتدلة (مثلًا، T=0.8) للأسلوب العام وإضافة Top-p (مثلًا، p=0.9) لقطع «ذيل» التوزيع وتجنب الأخطاء الفادحة.

المراجع

  • Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
  • Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
  • Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
  • Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
  • Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
  • O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
  • Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
  • Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
  • Ravfogel, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
  • Sen, J. et al. (2025). Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs. arXiv:2506.05387.

انظر أيضًا

  • Large language models