Multi-Agent Debate — مناظرة متعددة الوكلاء

From Systems analysis wiki
Jump to navigation Jump to search

المناظرة متعددة الوكلاء (بالإنجليزية: multi-agent debate) هي نهج في مجال نماذج اللغة الكبيرة (LLM) حيث يقوم العديد من الوكلاء المتفاعلين (نسخ من نموذج اللغة) بمناقشة حل لمهمة معينة بشكل مشترك، عن طريق تبادل الحجج ومحاولات الإجابة. الهدف من هذه العملية هو التوصل بشكل جماعي إلى الإجابة الأكثر صحة وتبريرًا على السؤال المطروح. يستند هذا النهج إلى فكرة "مجتمع العقول"، حيث تقوم النماذج المختلفة بفحص استنتاجات بعضها البعض وتكملتها[1]. أظهرت الأبحاث أن النقاش متعدد الوكلاء يسمح بـزيادة الدقة والموثوقية بشكل كبير مقارنة بتوليد الإجابة بطريقة واحدة: فالإجابة النهائية التي يتم الحصول عليها بعد مناظرات الوكلاء تكون، كقاعدة عامة، أكثر موثوقية من الناحية الواقعية وأفضل في التعامل مع المهام التي تتطلب تفكيرًا منطقيًا[1]. على وجه الخصوص، لوحظ انخفاض في عدد الهلوسات ("حقائق" غير موجودة) وزيادة في النجاح في المهام الاختبارية المعقدة عند استخدام هذه الاستراتيجية[1].

تعود فكرة إشراك العديد من الذكاءات الاصطناعية في المناظرات إلى الأبحاث في مجال سلامة الذكاء الاصطناعي. في عام 2018، اقترحت مجموعة من باحثي OpenAI (ج. إيرفينغ، ب. كريستيانو، د. أمودي) مفهوم سلامة الذكاء الاصطناعي عبر المناظرة (AI safety via debate) – وهو تدريب الوكلاء من خلال مناظرات تنافسية، حيث يقدم خصمان نموذجيان حججًا موجزة بالتناوب، بينما يقرر حكم بشري أي منهما قدم معلومات أكثر صدقًا وفائدة[2]. كان من المفترض أنه مع الاستراتيجية المثلى، ستسمح مثل هذه المناظرات للذكاء الاصطناعي بالإجابة على أسئلة معقدة للغاية، مع مطالبة الحكم فقط بتقييم مصداقية الحجج[2]. في السنوات التالية، ومع ظهور نماذج LLM القوية، بدأ تطبيق مبدأ المناظرة بين النماذج مباشرة لتحسين جودة إجابات النماذج نفسها – هذه المرة دون الحاجة إلى تدخل بشري إلزامي، بل مع اختيار آلي للحل الأفضل. تستخدم أنظمة LLM متعددة الوكلاء الحديثة الحوار بين نسخ من نفس النموذج أو نماذج مختلفة لتصحيح أخطاء بعضها البعض والتوصل بشكل جماعي إلى نتيجة أكثر تبريرًا.

Multi-Agent Debate Procedure - إجراء المناظرة متعددة الوكلاء

في سيناريو المناظرات متعددة الوكلاء، يعمل العديد من الوكلاء النموذجيين على نفس المهمة بالتوازي. كقاعدة عامة، يُعطى كل وكيل في البداية السؤال أو المهمة الأصلية، وبعد ذلك يقوم كل وكيل بتوليد إجابته الخاصة بشكل مستقل. ثم تلي ذلك سلسلة من جولات التواصل بين الوكلاء: في كل جولة، يتبادل جميع المشاركين حلولهم الحالية، ويحصل كل وكيل على إجابات الآخرين كسياق إضافي، يستخدمه لتوضيح أو تحسين إجابته في الجولة التالية[3]. تستمر هذه الدورة لعدة تكرارات (عادةً ما يكون عدد الجولات محددًا مسبقًا أو حتى يتم التوصل إلى اتفاق واضح)، وبعد ذلك تتوقف العملية ويتم تقديم الإجابة النهائية. تحاكي المناظرات النقاش البشري، مما يسمح للنماذج بنقد إجابات بعضها البعض ودمج مهاراتهم في التفكير المنطقي لرفع جودة الحل[3]. على سبيل المثال، استخدم Yilun Du وزملاؤه (من معهد ماساتشوستس للتكنولوجيا وGoogle Brain) في تجاربهم 3 نسخ من نموذج لغوي، ناقشت مشكلة لمدة جولتين (تم تقييد عدد الجولات الأكبر بسبب تكاليف الوقت والحوسبة)؛ وقد تبين أنه حتى مع هذا الحوار المحدود، أصبحت الإجابات النهائية أفضل بشكل ملحوظ، ومع زيادة عدد الوكلاء أو الجولات، استمرت الدقة في الارتفاع (وإن كان ذلك بعائدات متناقصة)[1].

يتم تنفيذ إجراء المناظرة متعددة الوكلاء بالكامل في مرحلة الاستدلال (inference) باستخدام موجّهات خاصة لتنظيم الحوار بين النماذج المدربة مسبقًا. هذا يعني أن هذه الطريقة لا تتطلب إعادة تدريب نماذج LLM نفسها ويمكن تطبيقها حتى على "الصناديق السوداء" - يكفي أن يكون لديك وصول إلى قدرة النماذج على توليد النصوص وتنسيق تواصلها وفقًا لنمط محدد مسبقًا[1][4].

لتحديد الإجابة النهائية بعد عدة جولات، تُستخدم أساليب مختلفة. إحدى أبسط الآليات هي التصويت: يمكن للوكلاء في النهاية تقديم حلولهم النهائية بشكل مستقل، وبعد ذلك يتم اختيار الخيار الذي تدعمه الأغلبية (أو، على سبيل المثال، الإجابة الأكثر تكرارًا)[4]. نهج آخر هو طلب الإجماع، أي مواصلة النقاش حتى تصل جميع النماذج إلى نفس الإجابة[4]. أخيرًا، يمكن إشراك وكيل-حكم منفصل: إما شبكة عصبية منفصلة مدربة على تقييم الإجابات، أو أحد الوكلاء يُمنح وظيفة المحكم. يراقب الحكم سير النقاش ويختار الحجة التي كانت الأكثر إقناعًا أو صحة[4]. يؤثر اختيار آلية اتخاذ القرار على خصائص النظام: فالتصويت أو الإجماع بسيطان في التنفيذ، لكنهما قد يثبّتان أخطاء جماعية، بينما المقيم-الحكم (خاصة إذا كان مدربًا على تحديد الإجابة الصحيحة) قادر نظريًا على استخلاص الحل الصحيح حتى في وجود تناقضات بين الوكلاء. ومع ذلك، يواجه نهج الحكم أيضًا صعوبات – على سبيل المثال، إذا كان النموذج الذي يقوم بدور الحكم هو نفسه الذي يشارك في المناظرة، فقد ينحاز بشكل غير مقصود لصالح أسلوب الحجج المألوف لديه من أحد الوكلاء[4].

Agent Configurations and Communication - تكوينات الوكلاء والتواصل

يمكن أن تختلف الأنظمة متعددة الوكلاء مع نماذج LLM في تكوينها وطريقة تفاعل الوكلاء. يفترض التكوين المتجانس أن جميع الوكلاء هم نسخ من نفس النموذج (أو نماذج ذات مستوى مشابه)، بينما يشمل التكوين غير المتجانس نماذج مختلفة من حيث النوع أو الحجم. في الحالة المتجانسة، يمتلك جميع المشاركين قدرات متماثلة، وستنشأ خلافاتهم فقط بسبب التوليد العشوائي للإجابات أو الظروف الأولية المختلفة (على سبيل المثال، الاختلافات في الموجهات). في النهج غير المتجانس، يمكن استخدام نماذج قوية وضعيفة في نفس الوقت، مما قد يسمح لبعض الوكلاء بتعويض عيوب الآخرين. وهكذا، تظهر الأبحاث أن تفاعل نماذج LLM المختلفة يؤدي إلى تحسين النماذج الأضعف لحلولها من خلال تلقي ردود فعل من النماذج الأقوى[3]. مثال توضيحي هو المناظرة المشتركة بين نموذجي اللغة ChatGPT (GPT-4) وGoogle Bard عند حل مسألة رياضية نصية: كل من هذين النموذجين قدم إجابة خاطئة بشكل فردي، ولكن أثناء النقاش تمكنا من الإشارة إلى أخطاء بعضهما البعض والاتفاق في النهاية على الحل الصحيح، مستفيدين من نقاط القوة لكل منهما[1]. في الوقت نفسه، يحمل التكوين غير المتجانس مخاطر أيضًا: يمكن أن يؤدي عدم التوازن الكبير في القدرات إلى هيمنة نموذج واحد، وإذا كان لدى غالبية الوكلاء مفهوم خاطئ مشترك أو انحياز، فقد تتقارب المناظرات بسرعة إلى إجابة موحدة ولكنها خاطئة – وهي ظاهرة أُطلق عليها اسم تأثير "غرفة الصدى"[4]. أظهر تحليل نظري (Estornell & Liu, NeurIPS 2024) أنه مع النماذج المتشابهة جدًا، قد تتلاشى المناظرة في ديناميكية ثابتة، حيث يكرر جميع المشاركين رأي الأغلبية، حتى لو كان قائمًا على خطأ مشترك في بياناتهم[4]. لذلك، يعد الاختيار الدقيق للوكلاء في الأنظمة غير المتجانسة أمرًا مهمًا – على سبيل المثال، يتم اختيار نماذج ذات مستوى معرفي متقارب حتى لا يهيمن أي منها أو يضلل الآخرين[4].

جانب آخر هو هيكل الاتصال بين الوكلاء. في التطبيقات الأساسية، تُستخدم طوبولوجيا متصلة بالكامل للتواصل: في كل جولة، يتلقى كل وكيل إجابات جميع الوكلاء الآخرين. هذا التبادل من نوع "الكل-إلى-الكل" يزيد من المعلومات المتاحة إلى أقصى حد، ولكنه يولد تكاليف كبيرة – ينمو حجم السياق بما يتناسب مع عدد الوكلاء، مما يثقل كاهل الحسابات. البديل هو طوبولوجيا متفرقة، تحد من الوكلاء الذين يتبادل معهم كل وكيل البيانات مباشرة. على سبيل المثال، يمكن ترتيب الوكلاء في شكل شبكة بيانية (حلقة، شجرة، إلخ)، حيث يتلقى كل وكيل الإجابات فقط من جيرانه. كشفت دراسة أجرتها شركة Google (Li et al., 2024) أن تقييد اتصال شبكة الوكلاء يمكن أن يقلل بشكل كبير من تكاليف التوليد دون تدهور الجودة، وأحيانًا مع تحسينها مقارنة بالنقاش المتصل بالكامل[3]. في التجارب التي أجريت على نموذجي GPT-3.5 وMistral، أعطى المخطط المتفرق للنقاشات "المجاورة" دقة مماثلة أو أعلى في المهام (بما في ذلك الرياضيات)، مع تقليل متوسط عدد الرموز المميزة في السياق لكل خطوة بمقدار عشرة أضعاف[3]. تشير هذه النتيجة إلى أن التبادل المفرط للرسائل ليس ضروريًا دائمًا – يكفي تنظيم التفاعلات الرئيسية بين الوكلاء بشكل صحيح للوصول إلى الحل الصحيح بتكاليف أقل.

إلى جانب الطوبولوجيا، هناك تنسيقات مختلفة لإجراء المناظرات. على سبيل المثال، يمكن تكليف بعض الوكلاء بـأدوار مختلفة: يعمل البعض كـ"مولّدي أفكار"، والبعض الآخر كـ"نقاد" أو "مدققين" للحلول[4]. يسعى هذا النهج القائم على الأدوار إلى محاكاة تقسيم العمل، حيث يتخصص كل وكيل في مهمة معينة (على سبيل المثال، يقترح أحدهم فرضية، ويتحقق الثاني من الحقائق، ويقيم الثالث الاتساق المنطقي). خيار آخر هو المناقشة بالتناوب (round-robin): لا يتحدث الوكلاء في وقت واحد، بل بالترتيب الصارم، حيث يتبادلون أدوار المتحدث والمستجيب بترتيب ثابت[4]. هذا يشبه المناظرات الرسمية، حيث تُمنح الكلمة للمشاركين وفقًا للائحة، مما قد يضمن مشاركة متساوية لجميع الوكلاء. نهج آخر هو التنظيم الديناميكي للخلافات: يمكن للنظام أن يعزز أو يضعف درجة الخلاف بين إجابات الوكلاء في كل جولة بشكل متعمد[4]. على سبيل المثال، يمكن تشجيع تباين الإجابات قدر الإمكان في المراحل الأولى (لتغطية فرضيات مختلفة)، ثم تقريبها مع اقتراب النهاية. تم اقتراح هذه الآلية في عمل Chang (2024) لمنع الاتفاق المبكر: فهي تحافظ على مستوى معتدل من التناقض بين الوكلاء، مما يحفز ظهور حجج جديدة ونقاش أعمق[4].

Advantages and Effectiveness - مزايا وفعالية النهج

جذبت المناظرات متعددة الوكلاء الانتباه بفضل قدرتها على رفع مستوى الأداء لنماذج اللغة في المهام المعقدة. أكدت مجموعة من الدراسات المستقلة في الفترة 2023-2024 أن مجموعة من نماذج LLM المتفاعلة قادرة على التفوق في جودة الإجابة على نموذج فردي يعمل على نفس المهمة. على وجه الخصوص، تم إظهار تحسينات في المجالات التي تتطلب تفكيرًا منطقيًا معقدًا: من الحسابات الرياضية إلى البرمجة وتلخيص النصوص. وهكذا، لاحظ Yin وآخرون (2023)، وChan وآخرون (2023)، وChen وآخرون (2024)، وغيرهم أن الأنظمة متعددة الوكلاء تتفوق بثقة على نماذج LLM الفردية في المهام الحسابية، وتوليد الشيفرات البرمجية، وحتى في إنشاء ملخصات للوثائق[4]. السبب هو تنوع وجهات النظر: يمكن لكل وكيل أن يلاحظ تفاصيل أو أخطاء أغفلها الآخرون، ويقدم ملاحظات لزملائه. يؤدي النقد المتبادل وتبادل الفرضيات المختلفة إلى فحص أكثر شمولاً للمهمة[4]، مما يجعل الإجابة النهائية أكثر دقة وموثوقية.

على سبيل المثال، قدم باحثون من معهد ماساتشوستس للتكنولوجيا وGoogle Brain بقيادة Yilun Du ورقة بحثية في ICML 2024 بعنوان «Improving factuality and reasoning in language models through multiagent debate»، أظهروا فيها تحسنًا كبيرًا في جودة الحلول عند إضافة مناظرات بين ثلاث نسخ من النموذج[1]. وفقًا لنتائجهم، سمح إجراء النقاش متعدد الوكلاء بتحقيق مؤشرات أعلى في عدد من المهام مقارنة بالاستخدام الفردي العادي لنفس النموذج: زادت دقة حل المسائل الرياضية والاستراتيجية، وانخفض عدد الأخطاء الواقعية[1]. على وجه الخصوص، حسّن النهج متعدد الوكلاء نتائج النموذج في اختبارات التفكير الرياضي، والتحقق من الحقائق، وحتى في المهام التي تتطلب تخطيطًا استراتيجيًا[1]. يلاحظ المؤلفون أن "الإجابة النهائية، التي تم إنشاؤها بعد هذا النقاش متعدد الجولات، تكون أكثر صحة من الناحية الواقعية وأكثر نجاحًا في حل مهام التفكير المنطقي"[1]. فيما يلي توضيح يقارن دقة تنفيذ مهام مختلفة بواسطة نموذج بمفرده وباستخدام المناظرات متعددة الوكلاء.

مقارنة الدقة في عدة مهام للتوليد الفردي (باللون الأزرق) ولوضع المناظرة متعددة الوكلاء (باللون الأحمر). يظهر النهج متعدد الوكلاء (multi-agent debate) دقة أعلى في مجالات مختلفة، بما في ذلك الأسئلة الواقعية (السير الذاتية)، واختبار المعرفة MMLU، والتحقق من صحة حركات الشطرنج، وحل التعبيرات الحسابية، والمسائل الرياضية النصية على مستوى المدرسة (GSM8K)، وإيجاد حركة الشطرنج المثلى[1]. وفقًا للرسم البياني، تعزز المناظرات بشكل خاص قدرات النموذج في المهام الاستراتيجية المعقدة (مثل إيجاد الحركة المثلى في الشطرنج) وتقلل بشكل ملحوظ من نسبة الأخطاء في الحسابات الرياضية والأسئلة المتعلقة بالحقائق.

ميزة أخرى للنهج متعدد الوكلاء هي التغلب على قيود المراقبة الذاتية الفردية للنموذج. غالبًا ما تستخدم نماذج LLM الفردية تقنية self-reflection (التأمل الذاتي)، حيث يقوم النموذج نفسه بتقييم وتصحيح إجابته الأولية. ومع ذلك، وجد أن هذه الطريقة عرضة لمشكلة "تدهور الفكر" (degeneration-of-thought): إذا اعتقد النموذج بصحة إجابته الأولية، فإنه أثناء المراجعة الذاتية لا يولد أفكارًا جديدة بشكل جوهري، حتى لو كان الحل الأصلي خاطئًا[5]. بعبارة أخرى، يميل النموذج إلى التشبث بالحل الأول الذي يبتكره، رافضًا البدائل[5]. تساعد المناظرات متعددة الوكلاء في التغلب على هذا التأثير: يمكن لعدة وكلاء متساوين في البداية اقتراح فرضيات مختلفة ثم تحدي حجج بعضهم البعض بشكل متسلسل، مما يحفز البحث عن مسارات تفكير غير تقليدية. أطلق Tian Liang وزملاؤه (EMNLP 2024) على مخططهم متعدد الوكلاء اسم MAD (Multi-Agent Debate) وأظهروا أنه بالفعل يشجع على التفكير التباعدي (المتنوع) للنماذج ويحسن النتائج في المهام التي تتطلب معالجة عميقة للمشكلة[5]. في تطبيقهم، يتجادل عدة وكلاء وفق مبدأ "العين بالعين" (حيث يعارض كل منهم حجج الآخر بالتناوب)، ويشرف على العملية حكم مساعد يدير النقاش ويختار الحل النهائي[5]. أظهرت تجارب Liang وزملائه فعالية هذا النهج على مجموعات اختبار معقدة – في مهام الترجمة القائمة على الفطرة السليمة (ترجمة الجمل مع مراعاة المعنى الضمني) وفي الحسابات المخالفة للحدس (ألغاز رياضية بشروط تبدو غير منطقية) أعطى النقاش متعدد الوكلاء إجابات أكثر صحة من الطرق القياسية[5]. كشف التحليل أيضًا أنه للحصول على أفضل النتائج، يجب إيقاف المناظرات بشكل تكيفي، دون السماح لها بالاستمرار لفترة طويلة جدًا، والحفاظ فقط على مستوى معتدل من الصراع بين الوكلاء – فالسلوك العدواني جدًا أو المتوافق جدًا يسيء إلى النتائج[5].

لم يكن النهج متعدد الوكلاء مفيدًا فقط للمهام التقليدية من نوع سؤال-جواب. يجد تطبيقات في مجالات أخرى، على سبيل المثال، من أجل سلوك أكثر أمانًا وتوافقًا للنماذج. تستخدم دراسات منفصلة مناظرات الوكلاء في مهام الإشراف ووضع القواعد: يمكن لعدة نماذج LLM مناقشة ما إذا كانت إجابة معينة مقبولة وفقًا للمعايير الأخلاقية، مما يوفر ملاحظات لبعضها البعض أثناء التعلم بالتعزيز. لوحظ أن المناظرات قادرة على توليد إشارات تقييم أكثر دقة وتبريرًا، مما يساعد في ضبط النماذج لتحقيق الأمان والفائدة[3]. كما جرت محاولات لتوسيع نطاق المهام متعددة الوسائط – على سبيل المثال، عندما يصف بعض الوكلاء صورة، بينما يتحقق آخرون من تطابق الوصف مع الصورة. في عمل لـ Google (2024)، تم إظهار نجاح هذا التوسع: حسّن النهج متعدد الوسائط النتائج في المهام النصية البحتة وفي فهم الصور متعددة الوسائط، مما يوضح عالمية "مجتمع العقول"[3]. من المثير للاهتمام أن التفاعل ضمن المناظرات يمكن أن يرفع مستوى النماذج الأضعف، كما ذكرنا سابقًا. على سبيل المثال، عندما تشارك نماذج LLM مختلفة في القوة في نقاش مشترك، "النماذج الأضعف تكتسب قوة تدريجيًا، من خلال تبني استراتيجيات ناجحة من النماذج الأقوى"[3]. وهكذا، لا يحل النظام متعدد الوكلاء المهمة المطروحة فحسب، بل يعمل أيضًا كآلية للتعلم الجماعي للنماذج من بعضها البعض.

Limitations and Open Problems - القيود والمشكلات المفتوحة

على الرغم من المزايا الكبيرة، تواجه المناظرات متعددة الوكلاء عددًا من الصعوبات والقيود. إحدى المشكلات الرئيسية هي استهلاكها العالي للموارد لهذا النهج. لتنظيم نقاش، يتطلب الأمر استدعاء توليد النصوص من النماذج الكبيرة بشكل متكرر: إذا شارك n من الوكلاء في T من الجولات، فإن إجمالي عدد الاستدعاءات لنموذج LLM يزداد بمقدار n × T مرة مقارنة بإجابة واحدة. علاوة على ذلك، في كل جولة، يجب على النموذج معالجة ليس فقط السؤال الأصلي كسياق، بل أيضًا جميع الردود من الجولات السابقة (إجابات جميع الوكلاء). وبالتالي، مع زيادة عدد الوكلاء والجولات، ينمو حجم مدخلات السياق بشكل أسي، مما يؤدي إلى تأثير انفجار السياق (context explosion) – وهو امتلاء نافذة السياق وزيادة تكاليف المعالجة[3]. في التجارب، لوحظ أن إضافة حتى 2-3 جولات من النقاش تزيد بشكل كبير من إجمالي عدد الرموز المميزة في السياق التي يجب على النموذج قراءتها، وبالتالي، زمن الاستجابة. نظريًا، تتحسن جودة الحل مع زيادة عدد التكرارات، ولكن عمليًا، تشير العديد من الأعمال إلى عائدات متناقصة بعد بضع جولات: غالبًا ما يتم تحقيق التأثير الأقصى في الجولة الثانية أو الثالثة، وبعد ذلك قد تؤدي المناقشات الإضافية إلى تكرار نفس الحجج أو حتى إلى انخفاض الدقة بسبب تشبع السياق[4]. على سبيل المثال، أظهر He وزملاؤه (2023) زيادة في الدقة فقط حتى الجولة الثانية من المناظرات، ثم انخفاضًا، وبالمثل أفاد Liu وLi وزملاؤهما (2024) عن وصول الجودة إلى ذروتها عند حوالي 4 جولات، وبعد ذلك أصبحت الدورات الإضافية عائقًا[4]. وبالتالي، فإن تحديد المدة المثلى للمناظرة مهمة صعبة: قد لا يكشف النقاش القصير جدًا عن الإمكانات الكاملة للعقل الجماعي، بينما قد يسبب النقاش الطويل جدًا ضوضاء معلوماتية وإرهاقًا للسياق.

مشكلة أخرى هي مخاطر الإجماع الجماعي على إجابة خاطئة. إذا كان لدى جميع الوكلاء تجارب متشابهة وكانوا على يقين خاطئ بحقيقة ما، فقد يعززون خطأ بعضهم البعض. يحدث تأثير غرفة الصدى: أثناء المناظرات، تتوصل النماذج إلى إجماع، ليس لأنها وجدت الحقيقة، ولكن نتيجة لتأكيد انحياز مشترك أولي. تشير النتائج النظرية (Estornell & Liu, 2024) إلى أنه مع النماذج المتطابقة، يمكن للمناظرات أن تنحدر إلى حالة من الركود، مكررةً رأي الأغلبية دون ظهور أفكار جديدة[4]. يكون هذا خطيرًا بشكل خاص عندما تشترك هذه الأغلبية في خطأ مشترك، موجود على سبيل المثال في بيانات التدريب – عندها ستكون نتيجة النقاش بأكمله خاطئة[6][4]. للتغلب على هذه المشكلة، تُقترح أساليب تدخل خاصة (diversity-pruning): في كل جولة، يتم استبعاد الإجابات المتشابهة جدًا خوارزميًا، مما يحفز الوكلاء على توليد خيارات مختلفة بأقصى قدر من الإنتروبيا المعلوماتية[6]. هذا يقلل من احتمالية أن تكون جميع الإجابات مجرد اختلافات لنفس الخطأ. أسلوب آخر هو اكتشاف ودحض المفاهيم الخاطئة (misconception refutation): يحاول النظام تلقائيًا تحديد الافتراضات المشتركة للوكلاء ويتحدى عمدًا تلك التي قد تكون خاطئة[6]. في عمل Estornell & Liu، تم اقتراح مجموعة من ثلاثة تدخلات مماثلة – بالإضافة إلى ما سبق، هناك أيضًا quality-pruning (اختيار الحجج الأكثر صلة وجودة في كل خطوة) – وقد تبين أن مزيجها يزيد بشكل ملحوظ من فعالية المناظرات ويمنع الميل إلى غرفة الصدى[6][6].

أخيرًا، تجدر الإشارة إلى أن الاستقرار والقدرة على التنبؤ للمناقشات متعددة الوكلاء لا يزالان بعيدين عن المثالية. في بعض التجارب، أدت المناظرات إلى نتائج غير مستقرة - يمكن أن تتقارب عمليات التشغيل المختلفة لنفس النقاش إلى إجابات مختلفة، أو قد تكون الإجابة الإجمالية أسوأ من إجابة نموذج فردي بدون مناظرات[4]. لاحظ Wang وزملاؤه (2024) و Smit وزملاؤه (2023) بشكل مستقل حالات أدت فيها إضافة الوكلاء إلى تدهور الأداء، مما يشير إلى وجود خط رفيع بين النقد المفيد والجدال المدمر[4]. لا يزال تحديد الظروف التي يكون فيها النهج متعدد الوكلاء مفيدًا بشكل مضمون موضوعًا للبحث. لا تزال هناك أسئلة مفتوحة: كيفية تحديد وقت إيقاف المناظرة وتثبيت الإجابة تلقائيًا، حتى لا تُفقد الميزة ولا يُدخل في جدال لا نهاية له، وكيفية اتخاذ القرار بشكل جماعي – سواء عن طريق التصويت أو الإجماع أو بمساعدة حكم خارجي – بأكثر الطرق موثوقية لأنواع مختلفة من المهام[4]. كما أن مشكلة الأمان والقدرة على التحكم في الأنظمة متعددة الوكلاء قائمة بقوة: يجب التأكد من أن الوكلاء لن يولدوا بشكل مشترك محتوى غير مرغوب فيه أو سام، ولن يعززوا الميول الضارة لبعضهم البعض. تم الاعتراف بأن هذه القضايا، خاصة تلك المتعلقة بـالأمان وقابلية التوسع، هي قضايا حالية ومعقدة[4]. تشير المراجعات الحديثة إلى أن هناك حاجة إلى مزيد من الأبحاث المخصصة لتطوير قواعد إيقاف موثوقة للمناقشات، وتقييم قابلية التوسع للنهج مع زيادة عدد الوكلاء والجولات، بالإضافة إلى تطبيق أساليب تضمن الموثوقية والصحة للإجابة التي يتم الحصول عليها بشكل جماعي[4]. سيسمح حل هذه المهام بتحويل المناظرات متعددة الوكلاء إلى أداة أكثر قوة وعالمية لإنشاء أنظمة ذكاء اصطناعي أكثر ذكاءً وأمانًا.

Literature - المراجع

  • Irving, G. et al. (2018). AI Safety via Debate. arXiv:1805.00899.
  • Du, Y. et al. (2023). Improving Factuality and Reasoning in Language Models through Multiagent Debate. arXiv:2305.14325.
  • Liang, T. et al. (2023). Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate. arXiv:2305.19118.
  • Li, Y. et al. (2024). Improving Multi-Agent Debate with Sparse Communication Topology. arXiv:2406.11776.
  • Guo, T. et al. (2024). Large Language Model based Multi-Agents: A Survey of Progress and Challenges. arXiv:2402.01680.
  • Li, J. et al. (2024). More Agents Is All You Need. arXiv:2402.05120.
  • Estornell, A.; Liu, Y. (2024). Multi-LLM Debate: Framework, Principals, and Interventions. NeurIPS 2024.
  • Eo, S. et al. (2025). Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning. arXiv:2504.05047.
  • Tillmann, A. (2025). Literature Review Of Multi-Agent Debate For Problem-Solving. arXiv:2506.00066.
  • Cui, Y. et al. (2025). Efficient Leave-One-Out Approximation in LLM Multi-Agent Debate Based on Introspection. arXiv:2505.22192.
  • La Malfa, E. et al. (2025). Large Language Models Miss the Multi-Agent Mark. arXiv:2505.21298.

Notes - ملاحظات

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 «Improving Factuality and Reasoning in Language Models with Multiagent Debate». composable-models.github.io. [١]
  2. 2.0 2.1 Irving, Geoffrey et al. «AI safety via debate». arXiv. [٢]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Liu, Xiang Lisa et al. «Improving Multi-Agent Debate with Sparse Communication Topology». arXiv. [٣]
  4. 4.00 4.01 4.02 4.03 4.04 4.05 4.06 4.07 4.08 4.09 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 4.20 4.21 4.22 «Literature Review Of Multi-Agent Debate For Problem-Solving». arXiv. [٤]
  5. 5.0 5.1 5.2 5.3 5.4 5.5 Liang, Tian et al. «Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate». ACL Anthology. [٥]
  6. 6.0 6.1 6.2 6.3 6.4 «Improving Multi-Agent Debate with Contrastive Deliberation and Diversity-Promoting Interventions». NeurIPS 2024. [٦]