Direct Preference Optimization (DPO) — التحسين المباشر للتفضيلات
Direct Preference Optimization (DPO) — هو أسلوب لمواءمة النماذج اللغوية الكبيرة (LLM) مع التفضيلات البشرية، ويُقترح كبديل أبسط وأكثر استقرارًا للتعلم المعزز من خلال ردود الفعل البشرية (RLHF). تم تقديم هذا الأسلوب في عام 2023 من قبل مجموعة من الباحثين من جامعة ستانفورد بقيادة رافائيل رافايلوف[1].
يكمن الاختلاف الرئيسي لـ DPO في أنه يقوم بتحسين النموذج اللغوي مباشرةً ليتوافق مع التفضيلات البشرية، متجاوزًا الحاجة إلى تدريب نموذج مكافأة (reward model) منفصل بشكل صريح ومرحلة التعلم المعزز (RL) المعقدة، مما يجعل عملية ضبط النماذج اللغوية الكبيرة أسهل وأسرع وأكثر استقرارًا بشكل ملحوظ[2].
الخلفية: قيود RLHF
يتكون الأسلوب القياسي لـ Reinforcement Learning from Human Feedback (RLHF) من ثلاث مراحل رئيسية:
- Supervised Fine-Tuning (SFT): تدريب إضافي أساسي للنموذج على أمثلة عالية الجودة.
- تدريب نموذج المكافأة: إنشاء نموذج منفصل يتعلم إعطاء "تقييم" للإجابات بناءً على مقارنات زوجية يقدمها البشر (على سبيل المثال، الإجابة "أ" أفضل من الإجابة "ب").
- تحسين السياسة باستخدام RL: تدريب إضافي للنموذج الرئيسي باستخدام خوارزميات التعلم المعزز (RL) (مثل PPO)، بحيث يولد استجابات تزيد من التقييم الذي يمنحه نموذج المكافأة.
على الرغم من فعاليته، يُعد RLHF عملية معقدة ومكلفة وغير مستقرة. وهو عرضة لمشكلات مثل اختراق المكافأة (reward hacking) (عندما "يخدع" النموذج نموذج المكافأة)، ويتطلب ضبطًا دقيقًا للعديد من المعلمات الفائقة (hyperparameters)[1]. تم تطوير DPO للتغلب على هذه القيود.
مبدأ عمل DPO
يستبدل أسلوب DPO مسار RLHF متعدد المراحل بمرحلة تدريب واحدة يمكن اعتبارها ضبطًا دقيقًا مُشرَفًا عليه.
- جمع بيانات التفضيلات. كما هو الحال في RLHF، يتم جمع مجموعة بيانات تحتوي على استجابتين لكل استعلام `x`: واحدة مفضلة (`y_w`، الفائزة) وأخرى مرفوضة (`y_l`، الخاسرة).
- التحسين المباشر. بدلاً من تدريب نموذج مكافأة، يستخدم DPO هذه البيانات مباشرة لتحديث النموذج اللغوي نفسه. الهدف من التحسين هو زيادة احتمالية توليد الاستجابة المفضلة `y_w` وفي نفس الوقت تقليل احتمالية توليد الاستجابة المرفوضة `y_l`.
من الناحية الرياضية، يتلخص هذا في تقليل دالة الخسارة التي تعتمد على الانحدار اللوجستي المطبق على الفرق بين الاحتمالات اللوغاريتمية للاستجابات. ولكي لا "ينسى" النموذج معرفته الأصلية، يستخدم DPO، مثله مثل RLHF، نموذجًا مرجعيًا (reference model، عادةً ما يكون نسخة SFT) للتنظيم (regularization)، مما يمنع الانحراف الشديد عن التوزيع الأصلي للاستجابات[2].
المزايا مقارنة بـ RLHF
- البساطة والاستقرار: يلغي DPO الحاجة إلى تدريب نموذج مكافأة منفصل والضبط المعقد للتعلم المعزز. تصبح العملية أبسط وأكثر قابلية للتنبؤ وأقل عرضة للأخطاء[3].
- الكفاءة والسرعة: إن استبعاد مرحلتين يقلل بشكل كبير من التكاليف الحسابية (ساعات عمل وحدات معالجة الرسومات) والوقت اللازم لضبط النموذج. تشير بعض التقديرات إلى أن DPO أكثر اقتصادًا بنسبة 50-60% من RLHF[4].
- جودة النتائج: أظهرت التجارب أن DPO لا يقل جودة عن RLHF، وفي بعض المهام، مثل التحكم في نبرة الاستجابة، يتفوق عليه. تظهر النماذج المدربة باستخدام DPO توافقًا أفضل مع التفضيلات البشرية[1].
- عدم تدهور المهارات الأساسية: يؤثر ضبط DPO بشكل ضئيل على القدرات العامة للنموذج (مثل المعرفة الواقعية أو المنطق)، على عكس RLHF، الذي يمكن أن يؤدي أحيانًا إلى تدهور المقاييس الأساسية[5].
التطبيق والانتشار
بفضل كفاءته وبساطته، اكتسب DPO انتشارًا واسعًا بسرعة. تم تنفيذه في المكتبات الرائدة مفتوحة المصدر مثل Hugging Face TRL و OpenRLHF.
تم تدريب العديد من النماذج المفتوحة الناجحة باستخدام DPO، بما في ذلك Zephyr-7B و TÜLU 2. أظهرت هذه النماذج أداءً عاليًا في معايير تقييم جودة الإجابات، مما يؤكد فعالية DPO للنماذج واسعة النطاق[5].
قام رواد الصناعة أيضًا بدمج DPO في منصاتهم. على سبيل المثال، أضافت Microsoft دعمًا للتدريب الإضافي باستخدام DPO في خدمة Azure OpenAI الخاصة بها، مما يسمح للمستخدمين بضبط النماذج، بما في ذلك GPT-4، على بيانات التفضيلات الخاصة بهم[6].
القيود
على الرغم من مزاياه، يرث DPO بعض القيود من نهج التعلم القائم على التفضيلات نفسه:
- الحساسية للبيانات: تعتبر جودة وتنوع بيانات التفضيلات المجمعة أمرًا بالغ الأهمية. إذا كانت البيانات متحيزة (على سبيل المثال، تحتوي على لغة أو أسلوب واحد فقط)، فقد يتجه النموذج إلى فرط التخصيص (overfitting) ويتدهور أداؤه في مجالات أخرى[7].
- ثبات عملية التدريب: مثل RLHF، يتم تدريب DPO على مجموعة بيانات ثابتة ولا يتضمن تفاعلًا ديناميكيًا مع البيئة. هذا الأسلوب مناسب تمامًا للمواءمة في خطوة واحدة، ولكنه ليس مناسبًا للمهام التي تتطلب التعلم من خلال إجراءات متسلسلة.
روابط
المراجع
- Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290.
- Hong, J.; Lee, N.; Thorne, J. (2024). ORPO: Monolithic Preference Optimization without Reference Model. arXiv:2403.07691.
- Sun, L. et al. (2025). BPO: Revisiting Preference Modeling in Direct Preference Optimization. arXiv:2506.03557.
- Yin, Y. et al. (2024). Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment. arXiv:2405.20830.
- Wu, Y. et al. (2024). Self-Play Preference Optimization for Language Model Alignment. arXiv:2405.00675.
- Li, P. et al. (2024). ROPO: Robust Preference Optimization for Large Language Models. arXiv:2404.04102.
- Tunstall, L. et al. (2023). Zephyr: Direct Distillation of LM Alignment. arXiv:2310.16944.
- Wu, F. et al. (2023). Diffusion-DPO: Diffusion Model Alignment Using Direct Preference Optimization. arXiv:2311.12908.
- Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
- Rafailov, R.; Sharma, A.; Mitchell, E.; Manning, C. D.; Finn, C. (2024). Direct Preference Optimization (v3): Enhanced Experiments and Analysis. arXiv:2305.18290v3.
ملاحظات
- ↑ 1.0 1.1 1.2 Rafailov, R., et al. «Direct Preference Optimization: Your Language Model is Secretly a Reward Model». arXiv:2305.18290. [١]
- ↑ 2.0 2.1 «Simplifying Alignment: From RLHF to Direct Preference Optimization (DPO)». Hugging Face Blog. [٢]
- ↑ «What is direct preference optimization (DPO)?». SuperAnnotate Blog. [٣]
- ↑ «RLHF vs DPO: A Closer Look into the Process and Methodology». Arbisoft Blog. [٤]
- ↑ 5.0 5.1 «RLHF without RL - Direct Preference Optimization». ICLR Blogposts 2024. [٥]
- ↑ «Direct preference optimization». Azure OpenAI | Microsoft Learn. [٦]
- ↑ «Direct Preference Optimization (DPO): A Lightweight Counterpart to RLHF». Toloka AI Blog. [٧]