Chain-of-Verification — سلسلة التحقق

Chain-of-Verification (CoVe) — هي طريقة مقترحة لتقليل عدد الهلوسات (توليد إجابات غير صحيحة من حيث الوقائع ولكنها تبدو معقولة) في نماذج اللغة الكبيرة (LLM)^[1]. هذا النهج، الذي طوره فريق من الباحثين من Meta AI بقيادة شهزاد دولياوالا (Shehzaad Dhuliawala) وقُدّم في ورقة بحثية بعنوان "Chain-of-Verification Reduces Hallucination in Large Language Models" (2023)، ينتمي إلى فئة أساليب التحقق الذاتي والتصحيح الذاتي (self-verification) لنماذج LLM^[2]. تتمثل الفكرة الرئيسية لـ CoVe في التحقق التدريجي من الإجابة التي تم إنشاؤها بواسطة النموذج نفسه دون إشراك مصادر خارجية^[2]. وهذا يحفز النظام على بذل المزيد من الجهد "المنطقي" في تحليل الإجابة ذاتيًا وتصحيح أخطائه قبل تقديم الإجابة للمستخدم^[2].

الخلفية: الهلوسات في النماذج اللغوية

كثيرًا ما تعاني نماذج اللغة الكبيرة (LLM) من ظاهرة "الهلوسات" – وهي توليد إجابات تبدو معقولة ولكنها غير صحيحة من حيث الوقائع^[3]. تُعتبر هذه المشكلة معترفًا بها على نطاق واسع كإحدى التحديات التي لم تُحل بعد في مجال NLP، حيث يمكن حتى للنماذج الحديثة تقديم معلومات خاطئة بثقة عالية، مما يؤدي إلى تضليل المستخدمين^[1]. على سبيل المثال، يمكن للنموذج أن "يختلق" بشكل مقنع حقيقة غير موجودة أو يخلط بين بيانات السيرة الذاتية لشخصية معروفة. ونظرًا لصعوبة اكتشاف مثل هذه الأخطاء الواقعية دون تدقيق مفصل، يعمل الباحثون بنشاط على تطوير طرق لتقليل عدد الهلوسات في إجابات نماذج LLM.

مراحل طريقة CoVe

تُنفذ طريقة Chain-of-Verification عبر أربع خطوات متتالية^[2]^[2]:

توليد الإجابة الأساسية. يقوم النموذج، بدون تعليمات خاصة، بتوليد إجابة أولية على الاستعلام الأصلي (فرضية الإجابة الأساسية)^[3]. تعمل هذه الإجابة الأولية كنقطة انطلاق وقد تحتوي على هلوسات سيتم اكتشافها في الخطوات التالية.
تخطيط أسئلة التحقق. بناءً على السؤال الأصلي والإجابة التي تم إنشاؤها، يقوم النموذج بصياغة قائمة من الأسئلة التوضيحية التي تتحقق من الصحة الواقعية للادعاءات الواردة في الإجابة الأساسية^[3]. تستهدف أسئلة التحقق (verification questions) هذه الحقائق الرئيسية في الإجابة وتساعد على تحديد الأخطاء أو عدم الدقة المحتملة.
تنفيذ التحقق (Verification). بعد ذلك، يجيب النموذج بشكل متسلسل ومستقل على كل سؤال من أسئلة التحقق التي تمت صياغتها، محاولاً عدم الاعتماد على الإجابة الأولية لتجنب التحيز^[3]. تتم مقارنة الإجابات التي تم الحصول عليها مع الإجابة الأصلية لاكتشاف التناقضات أو الأخطاء: وبهذه الطريقة يتم تحديد أجزاء الإجابة الأصلية التي لا تدعمها الحقائق.
صياغة الإجابة النهائية. أخيرًا، بناءً على التناقضات التي تم العثور عليها، يقوم النموذج بتوليد إجابة نهائية مصححة^[3]. يتم إدخال تعديلات على هذه الإجابة مع مراعاة نتائج التحقق، مما يزيد من دقتها الواقعية ويقلل من احتمالية حدوث هلوسات.

تُنفذ كل خطوة من هذه الخطوات باستخدام استعلامات إضافية لنفس نموذج LLM، ولكن بتعليمات مختلفة^[2]. أي أن النموذج يعمل بالتناوب كـ "مجيب"، ثم "مدقق" (يطرح الأسئلة ويجيب عليها)، وأخيرًا "محرر" للمخرجات النهائية.

أشكال تنفيذ التحقق

جرّب مطورو الطريقة عدة أنماط لتنفيذ خطوة التحقق، تختلف في طريقة طرح أسئلة التحقق والحصول على إجاباتها^[2]:

النهج المدمج (Joint). يقوم النموذج بتوليد كل من أسئلة التحقق والإجابات عليها ضمن استعلام واحد. هذا الخيار أقل تفضيلاً، لأن النموذج عند الإجابة فورًا قد يهلوس بالحقائق ويكرر أخطاء الإجابة الأصلية بسبب التحيز^[3].
النهج ثنائي المراحل (2-Step). يتم أولاً توليد أسئلة التحقق باستعلام منفصل، ثم في استعلام لاحق يجيب النموذج على قائمة الأسئلة التي تم إنشاؤها^[3]. يساعد فصل المراحل على تجنب تأثير الإجابة الأصلية عند توليد الأسئلة.
التحقق المنفصل (Factored). يجيب النموذج بشكل منفصل على كل سؤال تحقق، باستخدام عدة استعلامات متتالية (استعلام واحد لكل سؤال)^[3]. يمنع هذا النهج النسخ واللصق البسيط لأجزاء من الإجابة الأصلية، حيث تتم صياغة الإجابات على أسئلة التحقق بشكل مستقل، مما يقلل من خطر تكرار الهلوسة الأولية. العيب هو زيادة التكلفة الحسابية، حيث يزداد عدد الاستعلامات بشكل متناسب مع عدد الأسئلة.
التحقق المنفصل مع المراجعة (Factored + Revise). بعد الحصول على إجابات لجميع أسئلة التحقق، ينفذ النموذج مرحلة إضافية للمقارنة والمراجعة. باستخدام استعلام منفصل، يقارن الحقائق التي تم الحصول عليها مع الإجابة الأصلية ويحدد بوضوح التناقضات، ثم يقوم بتوليد الإجابة النهائية مع التصحيحات^[3]. تجبر هذه الخطوة الإضافية النظام على تحليل الاختلافات بعناية أكبر ودمج المعلومات المصححة في المخرجات النهائية.

النتائج التجريبية

تم اختبار طريقة Chain-of-Verification على مجموعة من المهام الحساسة للدقة الواقعية للإجابات^[1]. شملت هذه المهام: أسئلة تتطلب سرد حقائق من قاعدة معرفية (قوائم من Wikidata وفئات Wikipedia)، وأسئلة تتطلب إجابات متعددة من أجزاء مختلفة من النص (MultiSpanQA)، بالإضافة إلى مهام توليد نصوص طويلة (مثل السير الذاتية)^[1].

أظهرت النتائج انخفاضًا كبيرًا في الهلوسات في جميع أنواع المهام عند استخدام CoVe مقارنة بالنماذج الأصلية التي لا تستخدم التحقق الذاتي^[1]. وكان خيار "factored + revise" – التحقق المنفصل مع المراجعة النهائية للحقائق – فعالاً بشكل خاص. حقق هذا النهج أفضل مؤشرات الدقة: على سبيل المثال، في مهمة توليد نص سيرة ذاتية، أدى تطبيق CoVe على نموذج LLaMA-65B (نموذج LLM بـ 65 مليار معلمة) إلى رفع مقياسه الواقعي FactScore من حوالي 63.7 إلى حوالي 71.4 نقطة^[2]. تشير الزيادة في مقياس FactScore إلى أن الإجابات النهائية أصبحت تحتوي على المزيد من الحقائق التي تم التحقق منها والقليل من المعلومات المختلقة.

علاوة على ذلك، تمكن نموذج LLM المزود بسلسلة التحقق من التفوق حتى على بعض الأنظمة الأكثر قوة أو المجهزة خصيصًا. فقد أظهر نموذج LLaMA-65B مع CoVe درجة FactScore أعلى من ChatGPT (نموذج OpenAI) وتفوق على Perplexity.ai — وهو نموذج معزز بالبحث عبر الإنترنت لدعم الإجابات بالحقائق^[2]. هذا أمر لافت للنظر، لأن Perplexity يستخدم مصادر خارجية للبحث عن المعلومات، بينما يحقق CoVe تحسينًا في الجودة بالاعتماد فقط على القدرات الداخلية للنموذج نفسه في التفكير والتحقق الذاتي^[2]. صحيح أن نظام الاسترجاع مثل Perplexity لا يزال يحتفظ بميزة عند التعامل مع الحقائق النادرة جدًا (عندما تكون هناك حاجة إلى معرفة متخصصة)، ولكن في معظم الأسئلة، قدم CoVe إجابات أكثر دقة^[2].

القيود والآفاق المستقبلية

تجدر الإشارة إلى أنه على الرغم من أن Chain-of-Verification يقلل بشكل ملحوظ من نسبة الهلوسات، إلا أن هذه الطريقة غير قادرة على القضاء عليها تمامًا. لا يزال النموذج عرضة لارتكاب الأخطاء إذا لم تغطِ أسئلة التحقق تفصيلاً غير صحيح أو إذا كان النموذج LLM نفسه لا يعرف الحقيقة الصحيحة. بالإضافة إلى ذلك، تزيد طريقة CoVe من الحمل الحسابي: فلكل استعلام من المستخدم، يتطلب الأمر إجراء عدة استدعاءات متتالية للنموذج (توليد الإجابة، توليد الأسئلة، الإجابة عليها، والتجميع النهائي)، بينما يجيب النموذج العادي في خطوة واحدة^[2]. ومع ذلك، يوضح المؤلفون أن CoVe من حيث التكاليف الإجمالية يمكن مقارنته بأساليب أخرى متعددة المراحل لكشف الهلوسات ويظل حلاً عمليًا^[2].

في بحثهم، أشار باحثو Meta AI إلى اتجاهات محتملة لتحسين الطريقة. أحد المسارات الواضحة هو دمج CoVe مع استخدام أدوات خارجية، مثل ربط وحدة بحث عبر الإنترنت أو قواعد معرفية في مرحلة التحقق^[2]. سيسمح هذا بالحصول على معلومات موثوقة من مصادر خارجية وتأكيد أو دحض الحقائق من الإجابة الأصلية بشكل أكثر موثوقية. وبالتالي، تعد Chain-of-Verification خطوة نحو أنظمة AI أكثر مسؤولية ودقة: فهي توضح أنه من خلال إجبار النموذج على إعادة النظر في إجابته بشكل نقدي، يمكن تحسين جودتها بشكل كبير وتقليل انتشار الحقائق المختلقة في النص الذي يتم إنشاؤه^[2].

روابط خارجية

مراجع

Dhuliawala, S. et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495.
Manakul, P. et al. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. arXiv:2303.08896.
Yang, B. et al. (2025). Hallucination Detection in Large Language Models with Metamorphic Relations. arXiv:2502.15844.
Liang, X. et al. (2024). Internal Consistency and Self-Feedback in Large Language Models: A Survey. arXiv:2407.14507.
Lightman, H. et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050.
Ling, Z. et al. (2023). Deductive Verification of Chain-of-Thought Reasoning. arXiv:2306.03872.
Lyu, Q. et al. (2023). Faithful Chain-of-Thought Reasoning. arXiv:2301.13379.
Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.

ملاحظات

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 Dhuliawala, Shehzaad et al. «Chain-of-Verification Reduces Hallucination in Large Language Models». arXiv. [١]
↑ ^2.00 ^2.01 ^2.02 ^2.03 ^2.04 ^2.05 ^2.06 ^2.07 ^2.08 ^2.09 ^2.10 ^2.11 ^2.12 ^2.13 ^2.14 Dhuliawala, Shehzaad et al. «Chain-of-Verification Reduces Hallucination in Large Language Models». ACL Anthology. [٢]
↑ ^3.0 ^3.1 ^3.2 ^3.3 ^3.4 ^3.5 ^3.6 ^3.7 ^3.8 chowdhury, sourajit roy. «Chain of Verification (CoVe) — Understanding & Implementation». Medium. [٣]

[arxiv-original-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 Dhuliawala, Shehzaad et al. «Chain-of-Verification Reduces Hallucination in Large Language Models». arXiv. [١]

[aclanthology-findings-2] 2.00 ^2.01 ^2.02 ^2.03 ^2.04 ^2.05 ^2.06 ^2.07 ^2.08 ^2.09 ^2.10 ^2.11 ^2.12 ^2.13 ^2.14 Dhuliawala, Shehzaad et al. «Chain-of-Verification Reduces Hallucination in Large Language Models». ACL Anthology. [٢]

[medium-cove-3] 3.0 ^3.1 ^3.2 ^3.3 ^3.4 ^3.5 ^3.6 ^3.7 ^3.8 chowdhury, sourajit roy. «Chain of Verification (CoVe) — Understanding & Implementation». Medium. [٣]

[1]

[2]

[3]

Chain-of-Verification — سلسلة التحقق

Contents

الخلفية: الهلوسات في النماذج اللغوية

مراحل طريقة CoVe

أشكال تنفيذ التحقق

النتائج التجريبية

القيود والآفاق المستقبلية

روابط خارجية

مراجع

ملاحظات

Navigation menu

Chain-of-Verification — سلسلة التحقق

الخلفية: الهلوسات في النماذج اللغوية

مراحل طريقة CoVe

أشكال تنفيذ التحقق

النتائج التجريبية

القيود والآفاق المستقبلية

روابط خارجية

مراجع

ملاحظات

Navigation menu

Search