Least-to-most Prompting — التوجيه من الأقل إلى الأكثر

Least-to-Most Prompting (LtM) — هي طريقة لتصميم المُوجِّهات لـنماذج اللغة الكبيرة (LLM)، تتيح حل المشكلات المعقدة عن طريق تفكيكها إلى مراحل أبسط، ومن ثم حل هذه المهام الفرعية بشكل متسلسل^[1]. تم اقتراح هذا النهج في عام 2022 من قبل مجموعة من الباحثين في Google Brain بقيادة ديني تشو (Denny Zhou) وقُدِّم في مؤتمر ICLR 2023^[2]. الهدف الرئيسي من هذه الطريقة هو التغلب على قيود مُوجِّهات سلسلة الفكر (Chain-of-Thought)، التي لا تؤدي أداءً جيدًا في المهام الأكثر تعقيدًا من الأمثلة التي عُرضت على النموذج أثناء التدريب على المُوجِّهات^[2]. يسمح أسلوب التوجيه من الأقل إلى الأكثر للنموذج بالتعميم على المهام ذات التعقيد المتزايد، مع الحفاظ على قابليته للتفسير ودون الحاجة إلى تدريب إضافي للشبكة العصبية^[2]. اسم الطريقة مستعار من علم النفس التربوي، حيث يشير مصطلح «least to most prompting» إلى تقديم سلسلة من التلميحات للطالب بمستويات مساعدة متزايدة لتمكينه من إتقان مهارة جديدة^[3].

وصف الطريقة

تُنفذ طريقة التوجيه من الأقل إلى الأكثر على مرحلتين^[2]، تُحدد كل منهما لنموذج اللغة نفسه من خلال مُوجِّهات مصممة بعناية (carefully-crafted prompts) (بدون أي تدريب إضافي للنموذج):

تفكيك المشكلة. في المرحلة الأولى، يتلقى النموذج تعليمات وأمثلة توضح كيفية تقسيم المشكلة المعقدة إلى سلسلة من المهام الفرعية الأبسط. بعد ذلك، يُطرح على النموذج سؤال معقد محدد، ويجب عليه استنتاج قائمة من الأسئلة الوسيطة المبسطة^[2]. على سبيل المثال، لمشكلة معقدة، يمكن للنموذج أن يصوغ بنفسه سؤالًا فرعيًا توضيحيًا يتناول جزءًا من المشكلة الأصلية.
الحل المتسلسل للمهام الفرعية. في المرحلة الثانية، يحل النموذج المهام الفرعية الناتجة واحدة تلو الأخرى — من الأبسط إلى الأكثر تعقيدًا. لتحقيق ذلك، يسبق كل مهمة فرعية سياق: أمثلة لحلول لمشكلات فرعية مشابهة، بالإضافة إلى (إن وجدت) المهام الفرعية السابقة التي تم حلها بالفعل مع إجاباتها^[4]. بعد حل المهمة الفرعية الأولى، يضيف النموذج إجابتها إلى نص المُوجِّه ويتلقى المهمة الفرعية التالية، مستخدمًا الحلول السابقة كسياق^[4]. يستمر هذا النهج حتى يتم حل المهمة الفرعية النهائية والأكثر تعقيدًا، والتي تجيب مباشرة على السؤال الأصلي.

مثال: يتم تقسيم مشكلة نصية أصلية إلى مرحلتين باستخدام طريقة "من الأقل إلى الأكثر". أولاً، يصوغ النموذج ويحل سؤالاً وسيطاً ("How long does each trip take?" - "كم من الوقت تستغرق كل رحلة؟")، ويحصل على الإجابة "each trip takes 5 minutes" ("كل رحلة تستغرق 5 دقائق"). تُدرج هذه الإجابة في مُوجِّه جديد مع المهمة الفرعية التالية – وهي السؤال الأصلي ("How many times can she slide before it closes?" – "كم مرة يمكنها الانزلاق قبل أن يغلق؟"). باستخدام النتيجة السابقة، يحسب النموذج الإجابة النهائية (في هذا المثال: 3 مرات).

بشكل أساسي، يختلف التوجيه من الأقل إلى الأكثر عن نهج سلسلة الفكر (chain-of-thought) القياسي بكونه يقسم عملية الاستدلال إلى استعلامات منفصلة مع تراكم المعرفة، بدلاً من توليد "سلسلة فكر" واحدة متصلة ضمن إجابة واحدة^[3]. هذا النهج التدريجي والمتكرر يسمح للنموذج بالانتقال تدريجيًا إلى جوانب أكثر تعقيدًا من المشكلة، مما يحل بفعالية مشكلة التعميم من السهل إلى الصعب (easy-to-hard generalization) (عندما يواجه النموذج مشكلة أكثر صعوبة من تلك التي كانت في أمثلة التدريب)^[2]^[3]. تجدر الإشارة إلى أن كلتا مرحلتي طريقة LtM تُنفذان من خلال التوجيه القليل الأمثلة (few-shot prompting) ولا تتطلبان تدريبًا إضافيًا للنموذج أو إعادة تدريبه على بيانات جديدة^[2]. بالإضافة إلى ذلك، تتوافق الطريقة مع تقنيات أخرى لتحسين استدلال نماذج اللغة الكبيرة، على سبيل المثال، يمكن دمجها مع سلسلة الفكر (chain-of-thought) والاتساق الذاتي (self-consistency) (أخذ عينات متسلسلة من عدة حلول) عند توليد الإجابة، على الرغم من أن هذا ليس ضروريًا^[1].

النتائج التجريبية والتطبيقات

في الدراسة التي اقترحت التوجيه من الأقل إلى الأكثر، أُظهر أن هذه الطريقة تتفوق على أساليب التوجيه القياسية (بما في ذلك سلسلة الفكر) في مجموعة من المهام التي تتطلب استدلالًا معقدًا متعدد الخطوات^[1]. وقد أثبتت مزاياها بنجاح في ثلاث فئات رئيسية من المهام:

المهام الرمزية والخوارزمية. على سبيل المثال، في مهمة ربط الحروف الأخيرة من الكلمات (أخذ الحرف الأخير من كل كلمة في قائمة بشكل متسلسل وتكوين كلمة جديدة منها)، عززت طريقة LtM بشكل كبير قدرة النموذج على التعميم إلى سلاسل أطول من الكلمات. بدون تدريب خاص، تمكن نموذج GPT-3 (code-davinci-002) مع مُوجِّهات سلسلة الفكر من حل هذه المهام بشكل صحيح في حوالي 32% فقط من الحالات عندما كانت قائمة الكلمات تتكون من 12 كلمة، بينما مع استخدام التوجيه من الأقل إلى الأكثر، وصلت الدقة إلى ~74%^[1]. مع القوائم القصيرة (ذات الأطوال التي ظهرت في الأمثلة)، أدت كلتا الاستراتيجيتين أداءً جيدًا، ولكن مع زيادة طول السلسلة، انخفضت جودة سلسلة الفكر بشكل حاد، بينما ضمن أسلوب "من الأقل إلى الأكثر" انخفاضًا أكثر سلاسة وحافظ على دقة عالية^[1]. يوضح هذا قدرة طريقة LtM على تعميم منطق الحل على بيانات إدخال أكثر تعقيدًا (أطول).
التعميم التركيبي (compositional generalization). تشمل هذه الفئة من المهام، على سبيل المثال، ترجمة التعليمات النصية إلى سلسلة من الإجراءات (كما في مقياس الأداء SCAN، الذي يتطلب تنفيذ أوامر مثل "jump twice and run" والتعميم على تركيبات أطول)^[4]. سمحت طريقة LtM لنموذج اللغة الكبير بحل حتى أصعب أنواع هذه المهام بنجاح. على وجه الخصوص، حقق نموذج GPT-3 مع مُوجِّهات LtM دقة 99% على جميع متغيرات تقسيم البيانات في مجموعة SCAN (بما في ذلك أصعب تقسيم من حيث الطول، حيث تكون التسلسلات الاختبارية أطول من التدريبية)، باستخدام 14 مثالًا فقط في المُوجِّه^[2]. للمقارنة، لم يحقق نهج سلسلة الفكر القياسي سوى دقة تقارب 16% في ظروف مماثلة^[2]. علاوة على ذلك، تم تحقيق ذلك دون تدريب النموذج على بيانات التدريب، في حين أن أفضل الحلول السابقة لـ SCAN كانت تعتمد على معماريات عصبية-رمزية خاصة أو طرق توسيع البيانات، والتي تتطلب استخدام مجموعة التدريب بأكملها التي تزيد عن 15,000 مثال^[2]^[2]. وهكذا، أظهر التوجيه من الأقل إلى الأكثر قدرة غير مسبوقة للنماذج غير المدربة على التعميم التركيبي.
المسائل الرياضية النصية. تم اختبار الطريقة على مسائل الحساب في النصوص، على سبيل المثال، من مجموعة بيانات GSM8K (مسائل نصية معقدة تتضمن الجمع/الطرح والمنطق)^[2]، وكذلك على عدد من الأسئلة من مجموعة DROP (التي تختبر القدرة على استخلاص المعلومات الرقمية وعدّها في النص)^[2]. وهنا أيضًا، أظهر التوجيه من الأقل إلى الأكثر تحسنًا في الدقة مقارنة بسلسلة الفكر. على سبيل المثال، بالنسبة لـ GSM8K عند استخدام نموذج code-davinci-002، زادت دقة الإجابات من ~60.9% إلى ~62.4%^[2]. في المهام الفرعية لـ DROP، كان التحسن أكثر وضوحًا: على سبيل المثال، في جزء من الأسئلة حول حقائق "كرة القدم"، ارتفعت الدقة من ~59.6% (سلسلة الفكر) إلى ~73.4% عند تطبيق LtM^[2]. على الرغم من أن الزيادة في الجودة في المسائل الرياضية كانت أقل دراماتيكية من تلك التي في SCAN، إلا أن المؤلفين يشيرون إلى نقطة مهمة: يمكن حل أي مسألة من GSM8K تقريبًا بشكل صحيح إذا حصل النموذج على التفكيك الصحيح للمشكلة^[2]. وهذا يدل على أن مفتاح الحل الناجح هو صياغة أسئلة وسيطة جيدة؛ ويهدف نهج LtM تحديدًا إلى إنشاء هذه الأسئلة تلقائيًا وحلها بشكل متسلسل.

بالمجمل، تؤكد التجارب أن التوجيه من الأقل إلى الأكثر يتفوق بشكل كبير على كل من التوجيه الساذج القليل الأمثلة (few-shot prompting) بدون استدلال، وطريقة سلسلة الفكر في العديد من أنواع المهام التي تتطلب استنتاجًا متعدد الخطوات^[1]. تسمح الطريقة لنماذج اللغة الكبيرة بحل المشكلات الأكثر تعقيدًا من تلك التي تعرف عليها النموذج في البداية من خلال الأمثلة، مما يوسع حدود التعلم ضمن السياق (in-context learning) (التعلم الفوري من خلال المُوجِّهات).

القيود والتوجهات المستقبلية

على الرغم من النجاحات، فإن طريقة التوجيه من الأقل إلى الأكثر لها عدد من القيود. أولاً وقبل كل شيء، تتطلب أنواع مختلفة من المهام مناهج مختلفة للتفكيك. قد لا يكون قالب المُوجِّه الذي يفكك مشكلة رياضية بفعالية مناسبًا على الإطلاق لمشكلة منطقية أو مشكلة تتعلق بالحس السليم^[2]. على سبيل المثال، المُوجِّهات التي علّمت النموذج تقسيم المسائل الرياضية النصية إلى خطوات أثبتت عدم جدواها لسؤال من مجال الحس السليم مثل "هل استخدم أرسطو جهاز كمبيوتر محمول؟" — فمثل هذه المهمة تتطلب استراتيجية تقسيم مختلفة تمامًا^[2]. لذلك، لكل مجال جديد أو نوع جديد من المشكلات، يجب اختيار أمثلة جديدة لتقسيم المهمة إلى مهام فرعية وتشكيل المُوجِّه المقابل الذي يوضح هيكل الحل^[3]. بعبارة أخرى، معرفة كيفية تفكيك المشكلة بشكل صحيح لا يعممها نموذج اللغة الكبير عالميًا، بل يجب تحديدها من خلال أمثلة لفئة معينة من المهام.

علاوة على ذلك، تعتمد فعالية LtM بشكل كبير على مدى قابلية المهمة للتقسيم إلى أهداف فرعية مستقلة. إذا فشل النموذج في صياغة الخطوات الوسيطة بشكل صحيح أو إذا تم إغفال بعض المهام الفرعية الضرورية، فسيكون الحل النهائي غير صحيح أيضًا. ومع ذلك، يشير المطورون أنفسهم إلى أنه في كثير من الحالات يمكن تحويل الفشل إلى نجاح إذا قام شخص ما بتقديم التفكيك الصحيح يدويًا — عندها يحل النموذج كل جزء بسهولة وينجح في دمج الإجابات^[2]. وهذا يسلط الضوء على إمكانية تطوير هذا النهج مستقبلاً: تحسين جودة التوليد التلقائي للمهام الفرعية، وربما، التعلم التفاعلي للنماذج. في الختام، يفترض مؤلفو LtM أن مستقبل أساليب التوجيه قد يكمن في الحوار ثنائي الاتجاه الكامل مع النموذج، حيث يتلقى النموذج ملاحظات فورية وتصحيحات لخطواته الوسيطة^[2]. يمكن اعتبار طريقة التوجيه من الأقل إلى الأكثر خطوة في هذا الاتجاه، حيث تُظهر أن التفاعل المتسلسل مع النموذج من خلال التقسيم والحل التدريجي للمهام يسمح بتوسيع قدراتها على التفكير بشكل كبير دون الحاجة إلى التدريب على بيانات جديدة^[1].

روابط

المراجع

Zhou, D. et al. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625.
Zhou, D. et al. (2023). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. ICLR 2023. OpenReview.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
Kojima, T. et al. (2022). Large Language Models Are Zero-Shot Reasoners. arXiv:2205.11916.
Nye, M. et al. (2021). Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv:2112.00114.
Lake, B. M.; Baroni, M. (2018). Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks. arXiv:1711.00350.
Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168.
Dua, D. et al. (2019). DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs. arXiv:1903.00161.
Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.

الملاحظات

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». ar5iv.org. [١]
↑ ^2.00 ^2.01 ^2.02 ^2.03 ^2.04 ^2.05 ^2.06 ^2.07 ^2.08 ^2.09 ^2.10 ^2.11 ^2.12 ^2.13 ^2.14 ^2.15 ^2.16 ^2.17 ^2.18 ^2.19 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». arXiv. [٢]
↑ ^3.0 ^3.1 ^3.2 ^3.3 «What is least-to-most prompting?». AI Safety Info. [٣]
↑ ^4.0 ^4.1 ^4.2 OXEN AI. «Arxiv Dives Toolformer: Language models can teach themselves to use tools». Medium. [٤]

[arxiv-original-pdf-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». ar5iv.org. [١]

[arxiv-original-2] 2.00 ^2.01 ^2.02 ^2.03 ^2.04 ^2.05 ^2.06 ^2.07 ^2.08 ^2.09 ^2.10 ^2.11 ^2.12 ^2.13 ^2.14 ^2.15 ^2.16 ^2.17 ^2.18 ^2.19 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». arXiv. [٢]

[aisafety-info-3] 3.0 ^3.1 ^3.2 ^3.3 «What is least-to-most prompting?». AI Safety Info. [٣]

[medium-oxenai-4] 4.0 ^4.1 ^4.2 OXEN AI. «Arxiv Dives Toolformer: Language models can teach themselves to use tools». Medium. [٤]

[1]

[2]

[3]

[4]

Least-to-most Prompting — التوجيه من الأقل إلى الأكثر

Contents

وصف الطريقة

النتائج التجريبية والتطبيقات

القيود والتوجهات المستقبلية

روابط

المراجع

الملاحظات

Navigation menu

Least-to-most Prompting — التوجيه من الأقل إلى الأكثر

وصف الطريقة

النتائج التجريبية والتطبيقات

القيود والتوجهات المستقبلية

روابط

المراجع

الملاحظات

Navigation menu

Search