Multimodal CoT Prompting (DE)
Multimodales Chain-of-Thought-Prompting (Multimodal Chain-of-Thought Prompting, MCoT) ist eine Erweiterung der Chain-of-Thought-Methode (CoT) auf Aufgaben, die mehrere Datentypen (Modalitäten) umfassen. In MCoT-Modellen werden Sprache und andere Modalitäten, wie Sehen oder die Analyse von Tabellendaten, in einem einheitlichen, schrittweisen Inferenzprozess zur Lösung komplexer Aufgaben kombiniert[1].
Dieser Ansatz entstand mit der Entwicklung multimodaler großer Sprachmodelle (MLLMs), die in der Lage sind, gleichzeitig Text, Bilder, Audio und Video zu verarbeiten. MCoT ermöglicht es den Modellen, interpretierbare, schrittweise Erklärungen zu generieren, die Informationen aus verschiedenen Quellen zusammenführen, was die Genauigkeit und Transparenz ihrer Arbeit erhöht.
Voraussetzungen: Vom textbasierten zum multimodalen CoT
Chain-of-Thought im Text
Ursprünglich wurde die Methode Chain-of-Thought (CoT) im Jahr 2022 von Forschern bei Google für textbasierte große Sprachmodelle (LLMs) vorgeschlagen[2]. Die Idee besteht darin, das Modell darauf zu trainieren, eine Abfolge von logischen Zwischenschritten zu generieren, bevor es die endgültige Antwort ausgibt. Das Hinzufügen von Beispielen für schrittweise Lösungen zum Prompt (Few-Shot-Prompting) verbesserte die Fähigkeit von LLMs, Aufgaben zu lösen, die arithmetisches, logisches und Alltagsverständnis erfordern, erheblich und steigerte die allgemeine Genauigkeit und Zuverlässigkeit der Modelle[2].
Übergang zur Multimodalität
Der Erfolg des textbasierten CoT regte Versuche an, es auf multimodale Szenarien auszuweiten. Mit dem Aufkommen von MLLMs wie Kosmos-1 von Microsoft, die gleichzeitig auf Text und Bildern trainiert werden, ergab sich die Möglichkeit, die CoT-Logik mit multimodaler Wahrnehmung zu integrieren[3]. Experimente zeigten, dass solche Modelle schrittweises logisches Denken anwenden können, das sowohl textuelle als auch visuelle Eingaben berücksichtigt, was die prinzipielle Machbarkeit der Kombination von Logik und Wahrnehmung demonstrierte[3].
Grundlegende Ansätze und Methoden
Seit 2023 wurde eine Reihe von Methoden zur Implementierung des multimodalen CoT vorgeschlagen.
Zweistufiges Multimodal-CoT (Zhang et al.)
Eine der ersten Methoden, die 2023 vorgeschlagen wurde, verwendet ein zweistufiges Schema[4]:
- Generierung der Begründung: Im ersten Schritt generiert das Modell eine textuelle Argumentationskette (rationale) auf der Grundlage multimodaler Informationen (z. B. Text und Bild).
- Formulierung der Antwort: Im zweiten Schritt gibt das Modell die endgültige Antwort aus, gestützt auf die generierte Begründung.
Dieser getrennte Ansatz ermöglichte es einem Modell mit weniger als 1 Milliarde Parametern, eine rekordverdächtige Qualität auf dem wissenschaftlichen Datensatz ScienceQA zu erreichen und dabei sogar das große Modell GPT-3.5 zu übertreffen. Es wurde auch eine Reduzierung von Halluzinationen festgestellt[4].
Kompositionelles CoT (Compositional CoT)
Diese auf der CVPR-Konferenz 2024 vorgestellte Methode konzentriert sich auf visuell-textuelle Aufgaben und schlägt vor, eine strukturierte Darstellung des Bildes als Zwischenschritt zu generieren[5]. Zuerst erzeugt das MLLM eine Szenenbeschreibung in Form eines Szenengraphen, der Objekte und die Beziehungen zwischen ihnen angibt. Anschließend wird diese strukturierte Beschreibung in den Prompt für die endgültige Antwort integriert. Dieser Ansatz ermöglicht es dem LLM, die kompositionellen Beziehungen zwischen Objekten tiefer zu berücksichtigen und verbessert die Ergebnisse bei Aufgaben wie der Beschreibung komplexer Szenen und der visuellen Frage-Antwort-Analyse[5].
CoT mit Aufgabentrennung (Duty-Distinct CoT)
Diese Methode, die auf der NeurIPS 2023 vorgestellt wurde, schlägt vor, die Verantwortung zwischen verschiedenen Systemkomponenten aufzuteilen[6]:
- Sprachmodell ist für das logische Denken und die Informationsintegration zuständig.
- Visuelles Subsystem (Modell für Computer Vision) ist für die Erkennung von Bildinhalten zuständig.
Ein solches „duales Prompting“ ermöglicht „kritisches Denken“: Das LLM bewertet und nutzt visuelle Informationen, die von einem spezialisierten visuellen Modul geliefert werden. Der DDCoT-Ansatz ermöglichte die Generierung allgemeinerer und erklärbarerer Argumentationsketten und steigerte die Genauigkeit bei multimodalen wissenschaftlichen QA-Aufgaben erheblich[6].
Weitere MCoT-Varianten
Es werden aktiv weitere Ansätze entwickelt, die auf spezifische Modalitäten zugeschnitten sind:
- Dual CoT: Ein Schema für paralleles, bidirektionales Denken.
- Audio-CoT: Eine Anpassung der Chain-of-Thought für Aufgaben im Zusammenhang mit Audio und Sprache.
- Video-of-Thought: Eine Technik zur schrittweisen Analyse von Videodaten[1].
Anwendung und Ergebnisse
Multimodales CoT-Prompting hat sich in zahlreichen Bereichen als wirksam erwiesen, in denen die Kombination unterschiedlicher Informationen erforderlich ist.
- Bildung und wissenschaftliches QA: Ermöglicht Systemen, Fragen mit Diagrammen und Illustrationen zu beantworten und eine detaillierte Erklärung der Lösung zu liefern (z. B. auf dem ScienceQA-Datensatz)[4].
- Autonomes Fahren und Robotik: Hilft bei der sequenziellen Interpretation von Daten aus Lidaren, Sensoren und Kameras, wodurch das Szenenverständnis und die Entscheidungsfindung von Agenten verbessert werden.
- Verkörperte KI (Embodied AI): Gewährleistet eine zuverlässigere Handlungsplanung für Systeme, die auf der Grundlage visueller und textueller Hinweise mit der physischen Welt interagieren.
- Medizin und Gesundheitswesen: Die Kombination von medizinischen Bildern (z. B. Röntgenaufnahmen) mit textuellen Beschreibungen erhöht die Genauigkeit der Diagnose und die Erklärbarkeit der KI-Schlussfolgerungen[1].
Herausforderungen und Perspektiven
Trotz erheblicher Fortschritte bleibt die multimodale Anwendung von CoT ein komplexes Forschungsproblem.
- Mangel an annotierten Daten: Das Training von Modellen zur Generierung korrekter multimodaler Argumentationsketten erfordert große Datensätze mit detaillierten Erklärungen, deren Erstellung aufwendig ist.
- Flexibilität und Generalisierbarkeit: Methoden, die auf einen Aufgabentyp (z. B. Text + Bild) zugeschnitten sind, lassen sich möglicherweise schlecht auf andere Kombinationen von Modalitäten übertragen.
- Optimale Integration: Es bleibt eine offene Frage, wie verschiedene Modalitäten am besten in einen einheitlichen Denkprozess integriert werden können, sodass er das Verständnis des Modells wirklich verbessert und nicht nur die Antwort verlängert.
- Standardisierung und Bewertung: Es besteht Bedarf an der Entwicklung standardisierter Benchmarks zur objektiven Bewertung und zum Vergleich verschiedener MCoT-Ansätze[6].
Um eine multimodale KI zu erreichen, die annähernd allgemeine intellektuelle Fähigkeiten besitzt, sind weitere Innovationen bei den MCoT-Methoden erforderlich, die die Besonderheiten der Wahrnehmung der Welt durch verschiedene Sensoren berücksichtigen[1].
Weblinks
- Überblick über Multimodal CoT im Prompting Guide
- «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey» – ein detaillierter wissenschaftlicher Überblick
Literatur
- Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
- Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
- Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
- Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
- Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
- Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
- Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
- Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
- Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
- Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
- Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.
Einzelnachweise
- ↑ 1.0 1.1 1.2 1.3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]
- ↑ 2.0 2.1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]
- ↑ 3.0 3.1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]
- ↑ 4.0 4.1 4.2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]
- ↑ 5.0 5.1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]
- ↑ 6.0 6.1 6.2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]