Multimodal reasoning — الاستدلال متعدد الوسائط

الاستدلال متعدد الوسائط (بالإنجليزية: Multimodal Reasoning) — هو قدرة الذكاء الاصطناعي، وتحديدًا نماذج اللغة الكبيرة (LLM)، على معالجة المعلومات وتفسيرها وربطها منطقيًا بشكل متزامن من أنواع مختلفة من البيانات (الوسائط)، مثل النصوص والصور والصوت والفيديو، لحل المهام المعقدة^[1]. تحاكي هذه العملية الإدراك البشري متعدد الأوجه وتُعد خطوة أساسية نحو إنشاء ذكاء اصطناعي عام (AGI) أكثر شمولًا وقدرة على التكيف^[2].

تُعرف النماذج التي تمتلك هذه القدرة باسم نماذج اللغة الكبيرة متعددة الوسائط (MLLM أو LMRM — Large Multimodal Reasoning Models). وهي توسع إمكانيات نماذج LLM التقليدية، التي دُرّبت على النصوص فقط، مما يسمح لها بفهم محتوى الصور، وتحليل مقاطع الفيديو، والتحكم في الروبوتات، وإجراء حوارات بناءً على البيانات المرئية.

تطور المنهجيات

شهدت منهجيات الاستدلال متعدد الوسائط تطورًا سريعًا، من الأنظمة القائمة على الوحدات (modular) إلى المعماريات الموحدة التي تتمحور حول اللغة.

الأنظمة المبكرة: كانت تعتمد على مسارات معالجة منفصلة، حيث تتولى مكونات معالجة الرؤية، ومكونات أخرى معالجة النصوص، ثم يتم دمج تمثيلاتهم في المرحلة النهائية. تطلب هذا النهج تصميمًا دقيقًا لكل مهمة على حدة.
الأنظمة الحديثة: انتقلت إلى نماذج موحدة تتمحور حول اللغة. في هذه النماذج، يعمل نموذج اللغة الكبير كعنصر مركزي، أو «محرك» للاستدلال، يقوم بمعالجة المعلومات من جميع الوسائط في تنسيق واحد. أصبح هذا ممكنًا بفضل التقنيات التي «علّمت» نموذج اللغة كيفية فهم البيانات المرئية وغيرها، من خلال تمثيلها في شكل مَرمّزات (tokens) خاصة^[1].

كان من المعالم الهامة في هذا التحول مفهوم «سلسلة الفكر متعددة الوسائط» (Multimodal Chain-of-Thought, MCoT)، حيث يتلقى النموذج سلسلة من المُوجِّهات التي تقوده خطوة بخطوة عبر مراحل منطقية تستخدم وسائط مختلفة.

معماريات نماذج اللغة الكبيرة متعددة الوسائط

توجد استراتيجيتان معماریتان أساسيتان لدمج الوسائط المختلفة مع نموذج اللغة^[3]:

1. المعمارية الموحدة على مستوى المَرمّزات (Tokens)

في هذا النهج، يتم تحويل جميع الوسائط إلى تمثيل مشترك متوافق مع نموذج LLM. على سبيل المثال، تُقسَّم الصورة إلى أجزاء (patches)، وتُمرَّر عبر مُشفّر بصري (مثل Vision Transformer (ViT))، وتتحول إلى سلسلة من التضمينات المتجهية — المَرمّزات البصرية. بعد ذلك، يتم ربط (concatenate) هذه المَرمّزات البصرية مع المَرمّزات النصية وتقديمها كمدخل لنموذج اللغة الكبير، الذي يعالجها كتيار واحد.

المزايا: لا يتطلب هذا المخطط أي تغييرات تقريبًا في معمارية نموذج LLM وهو قابل للتوسع بسهولة.
أمثلة: GPT-4 من OpenAI، وPaLM-E من Google.

2. المعمارية ذات الانتباه متعدد الوسائط (Cross-modal attention)

هنا، يظل نموذج اللغة والمُشفّر البصري نظامين فرعيين منفصلين، ولكنهما يتصلان عبر طبقات خاصة من الانتباه متعدد الوسائط (cross-attention). تسمح هذه الطبقات للتمثيلات النصية والبصرية بالتأثير على بعضها البعض أثناء عملية التوليد. يبدو الأمر كما لو أن النموذج «يختلس النظر» إلى الميزات البصرية في كل خطوة من خطوات إنشاء الاستجابة النصية.

المزايا: تتيح الاستخدام الفعال لقوة النماذج الموجودة مسبقًا، والمُدرّبة والمُجمّدة (frozen) (مثل نموذج LLM كبير ومُشفّر ViT قوي)، من خلال تدريب الطبقات الرابطة فقط.
مثال: Flamingo من DeepMind.

في الأبحاث الحديثة، أصبحت معماريات decoder-only الموحدة هي السائدة، لأنها أسهل في التوسع وتستفيد بشكل أفضل من قدرات نماذج LLM الحالية^[3].

النماذج والأبحاث الرئيسية

تسارع تطور نماذج MLLM بشكل خاص في الفترة بين 2022 و2024.

Flamingo (DeepMind, 2022): أحد أوائل النماذج البصرية-اللغوية الكبيرة (VLM)، القادرة على حل مجموعة متنوعة من المهام متعددة الوسائط في وضع التعلم بالقليل من الأمثلة (few-shot learning) دون الحاجة إلى ضبط إضافي. أظهر Flamingo أن نموذجًا واحدًا يمكنه التكيف بسرعة مع مهام جديدة بمجرد تزويده ببضعة أمثلة في المُوجِّه^[4].

Kosmos-1 (Microsoft Research, 2023): أول نموذج MLLM يُدرَّب من الصفر على بيانات الويب. يستطيع هذا النموذج إدراك النصوص والصور كـ«وسائط مشتركة» وقد أظهر نتائج قوية في حل المهام النصية مع الصور (OCR)، والحوار متعدد الوسائط، وحتى في مهام التفكير المنطقي غير اللفظي (مصفوفات ريفن)^[2].

GPT-4 (OpenAI, 2023): النموذج الرائد الذي تم تقديمه كـ«نموذج كبير متعدد الوسائط»، قادر على استقبال النصوص والصور كمدخلات. على الرغم من أن معماريته لم تُكشف، فمن المعروف أنه يستطيع تحليل محتوى الصور، ووصف الرسوم البيانية، وشرح الميمات المرئية. أُتيح الوصول إلى قدراته متعددة الوسائط بشكل محدود، على سبيل المثال، بالتعاون مع تطبيق BeMyEyes لمساعدة المكفوفين وضعاف البصر^[5].

PaLM-E (Google, 2023): نموذج متعدد الوسائط يُعرف بـ«المُجسَّد» (embodied)، صُمم لدمج الإدراك البصري مع الإجراءات الجسدية للروبوت. يستطيع PaLM-E إنشاء خطط متدرجة للتحكم في الروبوتات، حيث يستقبل مزيجًا من الصور من الكاميرات وقراءات أجهزة الاستشعار. أظهر هذا تأثير «النقل الإيجابي» (positive transfer): حيث أدى التدريب على مهام «الرؤية + اللغة» العامة إلى تحسين كفاءة المهارات الروبوتية^[6].

LLAMA 3.2 (Meta, 2024): سلسلة نماذج مفتوحة المصدر ظهرت فيها أيضًا إصدارات متعددة الوسائط. ظهورها يجعل تقنيات MLLM متاحة لمجتمع البحث الواسع لإجراء المزيد من التجارب^[3].

المشاكل والقيود

على الرغم من الإنجازات المثيرة للإعجاب، تواجه نماذج MLLM عددًا من المشاكل الجادة:

الهلوسة: مثل أسلافها النصية، يمكن لنماذج MLLM أن تولد تأكيدات تبدو مقنعة ولكنها غير صحيحة في الواقع. لا تقضي المعلومات المرئية على هذه المشكلة، بل قد تعقدها أحيانًا، مما يؤدي إلى تفسيرات خاطئة للصور^[7].
القدرة على التعميم وعمق الاستدلال: غالبًا ما تفشل النماذج في نقل الاستنتاجات بشكل موثوق إلى أنواع جديدة من البيانات (التعميم الشامل للوسائط)، وقد يكون استدلالها سطحيًا. يمكنها وصف صورة، لكنها قد تفشل إذا كانت المهمة تتطلب تخطيطًا متعدد الخطوات يأخذ في الاعتبار النص والصورة معًا^[1].
الصعوبات التقنية: يتطلب تدريب نماذج MLLM موارد حاسوبية هائلة ومجموعات بيانات كبيرة ومتعددة الوسائط ومُعدة بعناية. كما أن تقييم جودة هذه النماذج معقد، لأنه يتطلب معايير قياس (benchmarks) خاصة تأخذ في الاعتبار الفهم والاستدلال.

آفاق التطور

تشير الاتجاهات إلى أن النماذج متعددة الوسائط ستصبح بشكل متزايد متعددة الوسائط «أصليًا» (Native Large Multimodal Models)، أي مصممة منذ البداية للعمل مع جميع الوسائط. الهدف النهائي هو إنشاء ذكاء شامل، قادر على إدراك وفهم العالم بنفس الثراء الذي يفهمه الإنسان. لتحقيق ذلك، يعمل الباحثون على تقليل الاعتماد على البيانات المصنفة، وتدريب النماذج على تفكير أكثر تجريدًا وسببيًا، وضمان التحكم الآمن في مثل هذه الأنظمة القوية. كما أن تطوير المنهجيات المساعدة، مثل HuggingGPT — حيث يعمل نموذج LLM كمنسق يوزع المهام على نماذج متخصصة — يمهد الطريق أيضًا نحو ذكاء اصطناعي متعدد الوسائط أكثر موثوقية^[8].

روابط خارجية

المراجع الأكاديمية

Li, Y. et al. (2025). Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models. arXiv:2505.04921.
Lee, J. et al. (2024). Multimodal Reasoning with Multimodal Knowledge Graph. ACL 2024.
Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models. arXiv:2302.14045.
Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and Its Friends in Hugging Face. arXiv:2303.17580.
Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
Chen, X. et al. (2023). PaLI-X: On Scaling Up a Multilingual Vision and Language Model. arXiv:2305.18565.
Alayrac, J-B. et al. (2022). Flamingo: A Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
Chen, X. et al. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model. arXiv:2209.06794.
Huang, S. et al. (2022). Multimodal Chain-of-Thought Prompting in Large Language Models. arXiv:2302.00923.

الملاحظات

↑ ^1.0 ^1.1 ^1.2 Yang, Z., et al. «Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models». arXiv:2505.04921 [cs.AI], 8 мая 2025 г. [١]
↑ ^2.0 ^2.1 Huang, S., et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045 [cs.CL], 28 февр. 2023 г. [٢]
↑ ^3.0 ^3.1 ^3.2 Raschka, Sebastian. «Understanding Multimodal LLMs». Ahead of AI Magazine. [٣]
↑ Alayrac, Jean-Baptiste, et al. «Tackling multiple tasks with a single visual language model». DeepMind Blog. [٤]
↑ «GPT-4». OpenAI. [٥]
↑ Driess, Danny, et al. «PaLM-E: An embodied multimodal language model». Google Research Blog. [٦]
↑ Lee, D., et al. «Multimodal Reasoning with Multimodal Knowledge Graph». ACL Anthology, 2024. [٧]
↑ Shen, Y., et al. «HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face». OpenReview. [٨]

[survey_perception-1] 1.0 ^1.1 ^1.2 Yang, Z., et al. «Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models». arXiv:2505.04921 [cs.AI], 8 мая 2025 г. [١]

[ms_kosmos1-2] 2.0 ^2.1 Huang, S., et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045 [cs.CL], 28 февр. 2023 г. [٢]

[raschka_understanding-3] 3.0 ^3.1 ^3.2 Raschka, Sebastian. «Understanding Multimodal LLMs». Ahead of AI Magazine. [٣]

[deepmind_flamingo-4] Alayrac, Jean-Baptiste, et al. «Tackling multiple tasks with a single visual language model». DeepMind Blog. [٤]

[openai_gpt4-5] «GPT-4». OpenAI. [٥]

[google_palm-e-6] Driess, Danny, et al. «PaLM-E: An embodied multimodal language model». Google Research Blog. [٦]

[acl_multimodal_kg-7] Lee, D., et al. «Multimodal Reasoning with Multimodal Knowledge Graph». ACL Anthology, 2024. [٧]

[hugging_gpt-8] Shen, Y., et al. «HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face». OpenReview. [٨]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Multimodal reasoning — الاستدلال متعدد الوسائط

Contents

تطور المنهجيات

معماريات نماذج اللغة الكبيرة متعددة الوسائط

1. المعمارية الموحدة على مستوى المَرمّزات (Tokens)

2. المعمارية ذات الانتباه متعدد الوسائط (Cross-modal attention)

النماذج والأبحاث الرئيسية

المشاكل والقيود

آفاق التطور

روابط خارجية

المراجع الأكاديمية

الملاحظات

Navigation menu

Multimodal reasoning — الاستدلال متعدد الوسائط

تطور المنهجيات

معماريات نماذج اللغة الكبيرة متعددة الوسائط

1. المعمارية الموحدة على مستوى المَرمّزات (Tokens)

2. المعمارية ذات الانتباه متعدد الوسائط (Cross-modal attention)

النماذج والأبحاث الرئيسية

المشاكل والقيود

آفاق التطور

روابط خارجية

المراجع الأكاديمية

الملاحظات

Navigation menu

Search