Chain-of-Thought Prompting — توجيه سلسلة الأفكار

From Systems analysis wiki
Jump to navigation Jump to search

Chain-of-Thought Prompting (CoT، أو توجيه «سلسلة الأفكار») هي تقنية في هندسة الموجهات تهدف إلى تحسين قدرات نماذج اللغة الكبيرة (LLM) على حل المشكلات المعقدة التي تتطلب تفكيراً متعدد الخطوات. فبدلاً من إنشاء الإجابة مباشرةً، يحفز توجيه CoT النموذج على أن يستعرض أولاً وبشكل صريح سلسلة من خطوات التفكير الوسيطة التي تؤدي إلى الاستنتاج النهائي.

هذا النهج، الذي يحاكي عملية التفكير البشري، يزيد بشكل كبير من دقة النماذج في المهام الحسابية والمنطقية والرمزية.

الفكرة الرئيسية

المبدأ الأساسي لـ CoT هو إجبار النموذج على «التفكير بصوت عالٍ» بلغة طبيعية قبل تقديم الإجابة النهائية. إنشاء هذه الخطوات الوسيطة يسمح بما يلي:

  • تجزئة المهام المعقدة: يقوم النموذج بتقسيم المشكلة المعقدة إلى مهام فرعية أصغر وأكثر قابلية للإدارة، مع التركيز على كل منها على حدة.
  • تقليل الأخطاء: تقلل العملية التدريجية من احتمالية حدوث أخطاء منطقية، والتي غالباً ما تظهر عند محاولة تقديم الإجابة في خطوة واحدة.
  • تحسين الشفافية والقابلية للتفسير: يمكن للمستخدمين والمطورين رؤية منطق النموذج، مما يسهل تصحيح الأخطاء والتحقق من النتائج وبناء الثقة بها.

السياق التاريخي

قُدّمت تقنية CoT لأول مرة في 28 يناير 2022 من قبل باحثين من Google Research في ورقتهم البحثية «Chain of Thought Prompting Elicits Reasoning in Large Language Models» (Jason Wei, Denny Zhou et al.)[1]. اكتشفوا أن تزويد النموذج بأمثلة قليلة للمسائل مع حلولها خطوة بخطوة (few-shot CoT) يزيد بشكل حاد من أدائه في المهام المعقدة.

أظهر هذا الاكتشاف أن القدرة على التفكير متعدد الخطوات هي خاصية انبثاقية للنماذج الكبيرة. وكما لوحظ في الورقة الأصلية، فإن CoT لا يحقق تحسناً في الأداء إلا في النماذج التي وصلت إلى حجم معين (حوالي 100 مليار مُعلَمة أو أكثر)، ويكاد يكون غائباً في النماذج الأصغر حجماً، والتي قد تولّد عند استخدام CoT استدلالات غير منطقية وتُظهر نتائج أسوأ.

أنواع توجيه CoT

Few-Shot CoT - التوجيه بأمثلة قليلة

هذه هي الطريقة الأصلية والأكثر موثوقية في CoT.

  • المبدأ: يُقدَّم للنموذج عدد قليل من الأمثلة (عادة من 2 إلى 8)، يتكون كل منها من مجموعة: سؤال — سلسلة تفكير — إجابة.
  • المزايا: دقة عالية، حيث يتعلم النموذج أسلوب وشكل التفكير المحدد.
  • العيوب: يتطلب إنشاء أمثلة عالية الجودة ومتنوعة بشكل يدوي.

Zero-Shot CoT - التوجيه بدون أمثلة «دعنا نفكر خطوة بخطوة»

اقتُرحت هذه الطريقة لاحقاً في 24 مايو 2022، في ورقة بحثية بعنوان «Large Language Models are Zero-Shot Reasoners» (Takeshi Kojima et al.)[2]، وهي نسخة أبسط بكثير.

  • المبدأ: تُضاف عبارة تحفيزية بسيطة إلى الطلب الأصلي، مثل «دعنا نفكر خطوة بخطوة» (بالإنجليزية: "Let's think step by step").
  • المزايا: البساطة والمرونة وعدم الحاجة إلى أمثلة.
  • العيوب: قد يكون أقل دقة من Few-Shot CoT في المهام شديدة التخصص.

Automatic CoT (Auto-CoT) - توجيه CoT التلقائي

هذا النهج، الذي اقترحه Zhang et al. (2022)[3]، يقوم بأتمتة إنشاء العروض التوضيحية لـ Few-Shot CoT.

  • المبدأ:
  1. تُجمَّع الأسئلة من مجموعة البيانات الجديدة في عناقيد.
  2. يُختار سؤال تمثيلي من كل عنقود.
  3. تُولَّد سلسلة تفكير لهذه الأسئلة باستخدام Zero-Shot CoT.
  4. تُستخدم العروض التوضيحية الناتجة لتشكيل الموجّه.
  • الهدف: تقليل الجهد اليدوي وتوسيع نطاق تطبيق CoT، مع تحقيق أداء يضاهي إنشاء الأمثلة يدوياً.

CoT متعدد الوسائط

تطبيق CoT على المهام التي تتضمن بيانات من وسائط متعددة (نص وصور).

  • المبدأ: يقوم النموذج بتوليد سلسلة تفكير تربط بين المعلومات النصية والبصرية.
  • التطبيق: تحليل الرسوم البيانية، حل الألغاز البصرية.

الآليات والفعالية

  • تحسين الاستدلال: يوجه CoT النموذج عبر عملية حل منظمة، مما يقلل من الأخطاء المنطقية ويسمح باستخدام قاعدة معارفه بشكل أكثر كفاءة.
  • الأدلة التجريبية: تبرز فعالية CoT بشكل خاص في معايير القياس (benchmarks) المعقدة. على سبيل المثال، في معيار القياس الحسابي GSM8K، رفعت طريقة Few-Shot CoT الأساسية دقة نموذج PaLM-540B من 17.9% إلى 58.1%. أما تطبيق التقنيات الأكثر تقدماً المبنية على CoT (مثل Self-Consistency)، فيسمح بتحقيق دقة تتراوح بين 74% و78%.
  • دور تنسيق التفكير: أظهرت الأبحاث أنه حتى الأمثلة ذات الخطوات الوسيطة غير الصحيحة يمكن أن تحسن النتيجة إذا تم الحفاظ على الهيكل العام للتفكير. وهذا يشير إلى أن CoT يعلّم النموذج في المقام الأول تنسيق التفكير خطوة بخطوة.

الارتباط بالتقنيات الأخرى

يُعد CoT مكوناً أساسياً لتقنيات أكثر تقدماً:

  • Self-Consistency: توليد عدة سلاسل CoT مختلفة لنفس السؤال واختيار الإجابة الأكثر تكراراً عن طريق التصويت. هذا يزيد بشكل كبير من الموثوقية، مما يحقق زيادة في الدقة على معايير القياس GSM8K[4] (+17.9%)[5]، وSVAMP[6] (+11.0%)[1]، وAQuA[7] (+12.2%)[1].
  • Tree of Thoughts (ToT): تعميم لـ CoT، حيث لا يستكشف مساراً واحداً للتفكير بل شجرة كاملة من المسارات الممكنة. على عكس سلسلة CoT الخطية، يسمح ToT للنموذج باستكشاف فروع متعددة، وتقييم «الأفكار» الوسيطة، والتراجع (backtracking) عند اكتشاف مسار غير واعد. وهذا يتيح حل مهام أكثر تعقيداً حيث لا يكون التفكير الخطي البسيط كافياً (على سبيل المثال، زيادة دقة حل مسألة «لعبة 24»[8] من 4% إلى 74%)[9].

انظر أيضاً

  • نماذج اللغة الكبيرة
  • هندسة الموجهات
  • الانبثاق

مراجع

  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
  • Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
  • Zhou, D. et al. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  • Lyu, Q. et al. (2023). Faithful Chain-of-Thought Reasoning. arXiv:2301.13379.
  • Wang, X. et al. (2023). Deductive Verification of Chain-of-Thought Reasoning. arXiv:2306.03872.
  • Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.
  • Lightman, H. et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050.
  • Yang, B. et al. (2025). Hallucination Detection in Large Language Models with Metamorphic Relations. arXiv:2502.15844.


ملاحظات

  1. 1.0 1.1 1.2 Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, и Denny Zhou. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv, 10 январь 2023 г. https://doi.org/10.48550/arXiv.2201.11903.[١]
  2. Kojima, Takeshi, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, и Yusuke Iwasawa. «Large Language Models are Zero-Shot Reasoners». arXiv, 29 январь 2023 г. https://doi.org/10.48550/arXiv.2205.11916.[٢]
  3. Zhang, Zhuosheng, Aston Zhang, Mu Li, и Alex Smola. «Automatic Chain of Thought Prompting in Large Language Models». arXiv, 7 октябрь 2022 г. https://doi.org/10.48550/arXiv.2210.03493.[٣]
  4. «openai/gsm8k · Datasets at Hugging Face», 17 июль 2023 г. https://huggingface.co/datasets/openai/gsm8k.[٤]
  5. Wang, Xuezhi, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, и Denny Zhou. «Self-Consistency Improves Chain of Thought Reasoning in Language Models». arXiv, 7 март 2023 г. https://doi.org/10.48550/arXiv.2203.11171.[٥]
  6. Patel, Arkil. «arkilpatel/SVAMP». Python, 30 май 2025 г. https://github.com/arkilpatel/SVAMP.[٦]
  7. «autonlab/aqua». Jupyter Notebook. 2022. Reprint, Auton Lab, Carnegie Mellon University, 12 июнь 2025 г. https://github.com/autonlab/aqua.[٧]
  8. «24 (Puzzle)». В Wikipedia [٨]
  9. Yao, Shunyu, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, и Karthik Narasimhan. «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv, 3 декабрь 2023 г. https://doi.org/10.48550/arXiv.2305.10601.[٩]