Multimodal CoT Prompting — توجيه سلسلة الأفكار متعدد الوسائط
توجيه سلسلة الأفكار متعدد الوسائط (Multimodal Chain-of-Thought Prompting, MCoT) هو امتداد لنهج سلسلة الأفكار (CoT) ليشمل المهام التي تتضمن أنواعًا متعددة من البيانات (الوسائط). في نماذج MCoT، تتشارك اللغة والوسائط الأخرى مثل الرؤية أو تحليل البيانات الجدولية في عملية استنتاج موحدة ومتدرجة خطوة بخطوة لحل المشكلات المعقدة[1].
ظهر هذا النهج مع تطور نماذج اللغة الكبيرة متعددة الوسائط (MLLM)، القادرة على معالجة النصوص والصور والصوت والفيديو في آن واحد. يُمكّن MCoT النماذج من إنشاء تفسيرات قابلة للفهم ومتدرجة خطوة بخطوة، تجمع المعلومات من مصادر مختلفة، مما يعزز دقة وشفافية عملها.
الخلفية: من سلسلة الأفكار النصية إلى متعددة الوسائط
Chain-of-Thought (سلسلة الأفكار) في النص
في الأصل، اقترح باحثون من جوجل نهج Chain-of-Thought (CoT) في عام 2022 لنماذج اللغة الكبيرة (LLM) النصية[2]. تتلخص الفكرة في تدريب النموذج على إنشاء سلسلة من خطوات التفكير الوسيطة قبل تقديم الإجابة النهائية. أدت إضافة أمثلة لحل المشكلات خطوة بخطوة إلى الموجه (few-shot prompting) إلى تحسين قدرة نماذج اللغة الكبيرة بشكل ملحوظ على حل المهام التي تتطلب تفكيرًا حسابيًا ومنطقيًا وبديهيًا، وعززت الدقة والموثوقية العامة للنماذج[2].
الانتقال إلى الوسائط المتعددة
حفّز نجاح CoT النصي محاولات لتوسيع نطاقه ليشمل السيناريوهات متعددة الوسائط. مع ظهور نماذج MLLM، مثل Kosmos-1 من مايكروسوفت، التي يتم تدريبها على النصوص والصور في وقت واحد، أتيحت الفرصة لدمج منطق CoT مع الإدراك متعدد الوسائط[3]. أظهرت التجارب أن هذه النماذج يمكنها استخدام التفكير المتدرج، مع الأخذ في الاعتبار المدخلات النصية والبصرية على حد سواء، مما أثبت إمكانية الجمع بين المنطق والإدراك من حيث المبدأ[3].
المنهجيات والأساليب الرئيسية
منذ عام 2023، تم اقتراح عدد من الأساليب لتنفيذ CoT متعدد الوسائط.
Multimodal-CoT ثنائي المراحل (Zhang et al.)
أحد الأساليب الأولى، الذي اقترح في عام 2023، يستخدم مخططًا من مرحلتين[4]:
- توليد المبررات: في الخطوة الأولى، يقوم النموذج بتوليد سلسلة أفكار نصية (rationale) بناءً على معلومات متعددة الوسائط (مثل النصوص والصور).
- صياغة الإجابة: في الخطوة الثانية، يقدم النموذج الإجابة النهائية بالاعتماد على المبررات التي تم توليدها.
أتاح هذا النهج المنفصل لنموذج يضم أقل من مليار معامل تحقيق جودة قياسية في مجموعة البيانات العلمية ScienceQA، متفوقًا حتى على نموذج GPT-3.5 الكبير. كما لوحظ انخفاض في حالات الهلوسة[4].
Compositional CoT - سلسلة الأفكار التركيبية
هذا الأسلوب، الذي تم تقديمه في مؤتمر CVPR 2024، يركز على المهام البصرية-النصية ويقترح توليد تمثيل منظم للصورة كخطوة وسيطة[5]. أولاً، يقوم MLLM بإنشاء وصف للمشهد على شكل رسم بياني للمشهد (scene graph)، يحدد الكائنات والعلاقات بينها. بعد ذلك، يتم تضمين هذا الوصف المنظم في الموجه للحصول على الإجابة النهائية. يتيح هذا النهج لنموذج اللغة الكبير أخذ الروابط التركيبية بين الكائنات في الاعتبار بشكل أعمق ويحسن النتائج في مهام وصف المشاهد المعقدة وتحليل الأسئلة والأجوبة البصرية[5].
Duty-Distinct CoT - سلسلة الأفكار ذات المهام المحددة
يقترح هذا الأسلوب، الذي تم تقديمه في NeurIPS 2023، تقسيم المسؤولية بين مكونات النظام المختلفة[6]:
- نموذج اللغة مسؤول عن التفكير المنطقي ودمج المعلومات.
- النظام الفرعي البصري (نموذج رؤية حاسوبية) مسؤول عن التعرف على محتوى الصورة.
يوفر هذا "التوجيه الثنائي" ما يسمى بـ "التفكير النقدي": حيث يقوم نموذج اللغة الكبير بتقييم واستخدام المعلومات البصرية التي يتلقاها من وحدة بصرية متخصصة. أتاح نهج DDCoT توليد استنتاجات أكثر عمومية وقابلية للتفسير، كما أدى إلى زيادة الدقة بشكل كبير في مهام الأسئلة والأجوبة العلمية متعددة الوسائط[6].
أشكال أخرى من MCoT
يجري تطوير مناهج أخرى بنشاط، مصممة خصيصًا لوسائط محددة:
- Dual CoT: مخطط تفكير متوازي ثنائي الاتجاه.
- Audio-CoT: تكييف سلسلة الأفكار للمهام المتعلقة بالصوت والكلام.
- Video-of-Thought: تقنية لتحليل بيانات الفيديو خطوة بخطوة[1].
التطبيقات والنتائج
أظهر توجيه CoT متعدد الوسائط فعاليته في العديد من المجالات التي تتطلب دمج معلومات متنوعة.
- التعليم والأسئلة والأجوبة العلمية: يتيح للأنظمة الإجابة على الأسئلة التي تحتوي على رسوم بيانية وتوضيحية، مع تقديم شرح مفصل للحل (على سبيل المثال، في مجموعة بيانات ScienceQA)[4].
- القيادة الذاتية والروبوتات: يساعد في تفسير البيانات من مستشعرات الليدار والكاميرات بشكل متسلسل، مما يحسن فهم المشهد واتخاذ القرارات من قبل الوكلاء.
- الذكاء الاصطناعي المتجسد (Embodied AI): يضمن تخطيطًا أكثر موثوقية للإجراءات للأنظمة التي تتفاعل مع العالم المادي، بناءً على الإشارات البصرية والنصية.
- الطب والرعاية الصحية: يساهم الجمع بين الصور الطبية (مثل صور الأشعة السينية) والأوصاف النصية في زيادة دقة التشخيص وقابلية تفسير استنتاجات الذكاء الاصطناعي[1].
التحديات والآفاق المستقبلية
على الرغم من التقدم الكبير، لا يزال استخدام CoT متعدد الوسائط يمثل مشكلة بحثية معقدة.
- نقص البيانات المصنفة: يتطلب تدريب النماذج على توليد استنتاجات صحيحة متعددة الوسائط مجموعات بيانات كبيرة تحتوي على شروحات مفصلة، وهو أمر يتطلب جهدًا كبيرًا.
- المرونة وقابلية التعميم: قد لا تنتقل الأساليب المصممة لنوع واحد من المهام (مثل نصوص + صور) بشكل جيد إلى مجموعات أخرى من الوسائط.
- التكامل الأمثل: لا يزال السؤال مطروحًا حول أفضل طريقة لدمج الوسائط المختلفة في عملية تفكير موحدة، بحيث تعزز فهم النموذج حقًا بدلاً من مجرد إطالة الإجابة.
- التوحيد القياسي والتقييم: هناك حاجة لتطوير معايير قياسية (benchmarks) موحدة لتقييم ومقارنة أساليب MCoT المختلفة بشكل موضوعي[6].
يتطلب الوصول إلى ذكاء اصطناعي متعدد الوسائط يقترب من القدرات الفكرية العامة مزيدًا من الابتكارات في أساليب MCoT التي تأخذ في الاعتبار خصوصية إدراك العالم من خلال أجهزة استشعار مختلفة[1].
روابط خارجية
- نظرة عامة على Multimodal CoT في Prompting Guide
- «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey» — مراجعة علمية مفصلة
المراجع
- Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
- Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
- Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
- Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
- Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
- Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
- Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
- Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
- Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
- Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
- Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.
ملاحظات
- ↑ 1.0 1.1 1.2 1.3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [١]
- ↑ 2.0 2.1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [٢]
- ↑ 3.0 3.1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [٣]
- ↑ 4.0 4.1 4.2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [٤]
- ↑ 5.0 5.1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [٥]
- ↑ 6.0 6.1 6.2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [٦]