Self-Refine Prompting — توجيه الصقل الذاتي

From Systems analysis wiki
Jump to navigation Jump to search

Self-Refine (الصقل الذاتي أو التصحيح الذاتي) هو نهج في مجال هندسة الموجهات، يسمح لـنماذج اللغة الكبيرة (LLM) بتحسين الاستجابة التي تم إنشاؤها بشكل تكراري بناءً على التغذية الراجعة الذاتية[1]. تم اقتراح الفكرة من قبل مجموعة من الباحثين بقيادة أمان مادان في عام 2023 وتستند إلى ملاحظة أنه، على غرار البشر، لا تولد نماذج اللغة دائمًا أفضل نتيجة من المحاولة الأولى.

في هذا الأسلوب، يقوم نفس نموذج اللغة الكبير (LLM) بأداء ثلاثة أدوار بشكل متسلسل:

  1. المُوَلِّد (Generator): ينشئ إجابة أولية مسودة للطلب.
  2. الناقد (Feedback): يقيّم إجابته الخاصة ويقدم تغذية راجعة بنّاءة.
  3. المُنَقِّح (Refiner): يستخدم هذه التغذية الراجعة لإنشاء نسخة محسنة من الإجابة.

هذه الدورة التكرارية "توليد ← تغذية راجعة ← تحسين" يمكن أن تتكرر عدة مرات حتى يتم الوصول إلى الجودة المطلوبة أو تحقيق شرط التوقف.

من المهم ملاحظة أن Self-Refine لا يتطلب تدريبًا إضافيًا للنموذج، أو ضبطًا دقيقًا، أو بيانات خارجية — حيث يتم التحكم في العملية بأكملها حصريًا من خلال الموجهات في مرحلة الاستدلال (inference)[1].

آلية التنفيذ

يتم تنفيذ أسلوب Self-Refine من خلال سلسلة من الموجهات المصممة خصيصًا لتوجيه سلوك النموذج.

  1. التوليد الأولي. يتلقى النموذج الموجه الأصلي ويقوم بتوليد إجابة أولية.
  2. إنشاء التغذية الراجعة. يتلقى النموذج تعليمات لتحليل إجابته السابقة وتحديد عيوبها. على سبيل المثال، قد يلاحظ أن الإجابة ليست مفصلة بما فيه الكفاية أو تحتوي على خطأ منطقي. تكون النتيجة تغذية راجعة نصية تحتوي على ملاحظات وتوصيات محددة.
  3. التحسين التكراري. يتلقى النموذج الطلب الأصلي، وإجابته الأولية، والتغذية الراجعة التي تم إنشاؤها كموجه جديد. بناءً على ذلك، يقوم بإنشاء نسخة محسنة من الإجابة.

يمكن تنفيذ هذه الدورة المكونة من خطوتين "نقد ← تنقيح" عدة مرات. يتم تضمين الإصدارات السابقة من الإجابة والتعليقات في سياق كل تكرار جديد، مما يساعد النموذج على تجنب تكرار الأخطاء[2]. للتحكم في سلوك النموذج، غالبًا ما تُستخدم تقنيات few-shot prompting، حيث يتم تضمين أمثلة على التنسيق المرغوب للتغذية الراجعة والتصويبات في الموجه.

الفعالية والتطبيق

أثبت أسلوب Self-Refine فعاليته في عدد من المهام التي تتطلب تنقيحًا متكررًا، مثل:

  • توليد الردود الحوارية.
  • الاستكمال الإبداعي للقصص.
  • حل المسائل الرياضية بالاستدلال خطوة بخطوة.
  • تحسين شيفرة البرمجيات.

في البحث الأصلي، كانت الإجابات التي تم الحصول عليها باستخدام Self-Refine مفضلة بنسبة ~20% أكثر في المتوسط حسب تقييمات البشر والمقاييس الآلية مقارنةً بالتوليد أحادي المرحلة[1]. تم تحقيق التحسين حتى مع أحدث النماذج، مثل GPT-4، مما يشير إلى أنه حتى نماذج LLM القوية غالبًا ما تحتاج فقط إلى خطوة إضافية من التفكير لتصحيح أخطائها.

كما أظهرت أساليب مشابهة، مثل RCI (Recursive Criticism and Improvement)، فعالية عالية في المهام التفاعلية، على سبيل المثال، في التحكم بالكمبيوتر وحل المسائل المنطقية. وقد أدى الجمع بين RCI وتقنية "سلسلة الأفكار" (Chain-of-Thought) إلى تأثير تآزري، مما أدى إلى تحسين ملحوظ في قدرة النموذج على حل المشكلات المعقدة من خلال خطوة مدمجة للتحقق الذاتي[3].

القيود والأبحاث الحالية

على الرغم من النجاحات الواعدة، تظهر الأبحاث أن التحسين الذاتي التكراري له عدد من القيود.

  • التحيز الذاتي (self-bias): تواجه النماذج صعوبة في الحكم على إجاباتها بموضوعية. تميل نماذج LLM إلى تقييم النصوص التي تولدها بشكل إيجابي وعدم تقييمها بشكل نقدي كافٍ، مما قد يؤدي إلى ركود أو حتى تدهور في الجودة بعد عدة تكرارات[4].
  • الثقة المفرطة: لوحظ أنه مع زيادة عدد تكرارات التصحيح الذاتي، قد يكتسب النموذج ثقة مفرطة في إجاباته، حتى لو لم تصبح أكثر دقة. وهذا يؤدي إلى زيادة مؤشر Expected Calibration Error (ECE) — وهو التباين بين ثقة النموذج ودقته الفعلية[5].
  • التكاليف الحاسوبية: يتطلب الأسلوب عدة استدعاءات لنموذج LLM للحصول على إجابة نهائية واحدة، مما يزيد بشكل كبير من زمن الاستجابة والتكلفة مقارنةً بالتوليد أحادي المرور.

تهدف الأبحاث الحالية إلى حل هذه المشكلات. أحد الاتجاهات هو إدخال آليات لمعايرة الثقة في كل خطوة من خطوات التكرار. واتجاه آخر هو الاستعانة بمصادر معلومات أو أدوات خارجية (مثل تنفيذ الشيفرة البرمجية، البحث عن البيانات) لإجراء تقييم ذاتي أكثر موضوعية[6].

المقارنة مع التقنيات الأخرى

  • Chain-of-Thought (CoT): يركز CoT على توليد سلسلة خطية من الاستدلالات للوصول إلى إجابة. أما Self-Refine، فيركز على التحسين التكراري لإجابة تم إنشاؤها بالفعل (والتي قد تتضمن CoT).
  • Tree of Thoughts (ToT): يستكشف ToT مسارات استدلال متوازية متعددة على شكل شجرة، بينما يقوم Self-Refine بتحسين مسار واحد بشكل تكراري. ToT هي تقنية لاستكشاف فضاء الحلول، بينما Self-Refine هي تقنية لتحسين حل معين.

روابط خارجية

الأدبيات

  • Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
  • Kim, G. et al. (2023). Language Models Can Solve Computer Tasks. arXiv:2303.17491.
  • Gou, Z. et al. (2023). CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing. arXiv:2305.11738.
  • Huang, J. et al. (2023). Large Language Models Cannot Self-Correct Reasoning Yet. arXiv:2310.01798.
  • Pan, L. et al. (2023). Automatically Correcting Large Language Models: Surveying the Landscape of Diverse Self-Correction Strategies. arXiv:2308.03188.
  • Jiang, C. et al. (2024). Importance Weighting Can Help Large Language Models Self-Improve. arXiv:2408.09849.
  • Liang, X. et al. (2024). Internal Consistency and Self-Feedback in Large Language Models: A Survey. arXiv:2407.14507.
  • Zhu, D. et al. (2025). Beyond Accuracy: The Role of Calibration in Self-Improving Large Language Models. arXiv:2504.02902.
  • Hao, Q. et al. (2025). RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning. arXiv:2505.14140.
  • Cui, Y. et al. (2023). Check Your Facts and Try Again: Improving Large Language Models by Reducing Hallucination. arXiv:2302.12813.
  • Wei, Z. et al. (2024). ReSearch: Iterative Self-Reflection for Better LLM Calibration. arXiv:2405.13022.

المراجع

  1. 1.0 1.1 1.2 Madaan, Aman; et al. «Self-Refine: Iterative Refinement with Self-Feedback». arXiv. [١]
  2. «Self-Refine: Iterative Refinement with Self-Feedback». Официальный сайт проекта. [٢]
  3. Kim, Geunwoo; et al. «Language Models can Solve Computer Tasks». arXiv. [٣]
  4. Huang, Jie; et al. «Large Language Models Cannot Self-Correct Reasoning Yet». arXiv. [٤]
  5. Zhu, D., et al. (2025). «Beyond Accuracy: The Role of Calibration in Self-Improving Large Language Models». arXiv. [٥]
  6. «Beyond Accuracy: The Role of Calibration in Self-Improving Large Language Models». arXiv. [٦]