Multimodal CoT Prompting

Мультимодальный промптинг с цепочкой рассуждений (Multimodal Chain-of-Thought Prompting, MCoT) — это расширение метода цепочки рассуждений (CoT) на задачи, включающие несколько типов данных (модальностей). В MCoT-моделях язык и другие модальности, такие как зрение или анализ табличных данных, участвуют в едином процессе пошагового вывода для решения сложных задач^[1].

Этот подход возник с развитием мультимодальных больших языковых моделей (MLLM), способных одновременно обрабатывать текст, изображения, аудио и видео. MCoT позволяет моделям генерировать интерпретируемые, пошаговые объяснения, объединяющие информацию из разных источников, что повышает точность и прозрачность их работы.

Предпосылки: от текстового к мультимодальному CoT

Цепочка рассуждений (Chain-of-Thought) в тексте

Изначально метод Chain-of-Thought (CoT) был предложен исследователями Google в 2022 году для текстовых больших языковых моделей (LLM)^[2]. Идея заключается в том, чтобы обучить модель генерировать последовательность промежуточных шагов рассуждения перед выдачей окончательного ответа. Добавление в промпт примеров пошагового решения (few-shot prompting) заметно улучшило способность LLM решать задачи, требующие арифметических, логических и здравых рассуждений, и повысило общую точность и надёжность моделей^[2].

Переход к мультимодальности

Успех текстового CoT стимулировал попытки распространить его на мультимодальные сценарии. С появлением MLLM, таких как Kosmos-1 от Microsoft, которые обучаются одновременно на тексте и изображениях, возникла возможность интегрировать CoT-логику с мультимодальным восприятием^[3]. Эксперименты показали, что такие модели могут использовать пошаговые рассуждения, учитывая как текстовые, так и визуальные входные данные, что продемонстрировало принципиальную возможность объединения логики и восприятия^[3].

Основные подходы и методологии

Начиная с 2023 года был предложен ряд методов для реализации мультимодального CoT.

Двухэтапный Multimodal-CoT (Zhang et al.)

Один из первых методов, предложенный в 2023 году, использует двухэтапную схему^[4]:

Генерация обоснования: На первом шаге модель генерирует текстовую цепочку рассуждений (rationale) на основе мультимодальной информации (например, текста и изображения).
Формирование ответа: На втором шаге модель выдаёт окончательный ответ, опираясь на сгенерированное обоснование.

Такой разделённый подход позволил модели с менее чем 1 млрд параметров достичь рекордно высокого качества на научном датасете ScienceQA, превзойдя даже крупную модель GPT-3.5. Также было отмечено снижение галлюцинаций^[4].

Композиционный CoT (Compositional CoT)

Представленный на конференции CVPR 2024, этот метод фокусируется на визуально-текстовых задачах и предлагает генерировать структурированное представление изображения в качестве промежуточного шага^[5]. Сначала MLLM порождает описание сцены в виде сценового графа, указывая объекты и отношения между ними. Затем это структурированное описание включается в промпт для финального ответа. Такой подход позволяет LLM глубже учитывать композиционные связи между объектами и улучшает результаты на задачах описания сложных сцен и визуального вопросно-ответного анализа^[5].

CoT с разделением обязанностей (Duty-Distinct CoT)

Этот метод, представленный на NeurIPS 2023, предлагает разделить ответственность между разными компонентами системы^[6]:

Языковая модель отвечает за логическое рассуждение и интеграцию информации.
Визуальная подсистема (модель компьютерного зрения) отвечает за распознавание содержимого изображения.

Такой «двоичный промптинг» обеспечивает «критическое мышление»: LLM оценивает и использует визуальную информацию, полученную от специализированного зрительного модуля. Подход DDCoT позволил генерировать более общие и объяснимые рассуждения и существенно повысил точность на задачах мультимодального научного QA^[6].

Другие варианты MCoT

Активно разрабатываются и другие подходы, адаптированные под конкретные модальности:

Dual CoT: Схема параллельного двунаправленного рассуждения.
Audio-CoT: Адаптация цепочки мыслей для задач, связанных с аудио и речью.
Video-of-Thought: Техника пошагового анализа видеоданных^[1].

Применение и результаты

Мультимодальный CoT-промптинг продемонстрировал эффективность во множестве областей, где требуется объединение разнородной информации.

Образование и научный QA: Позволяет системам отвечать на вопросы с диаграммами и иллюстрациями, предоставляя развёрнутое объяснение решения (например, на датасете ScienceQA)^[4].
Автономное вождение и робототехника: Помогает интерпретировать данные с лидаров, сенсоров и камер последовательно, улучшая понимание сцены и принятие решений агентами.
Воплощённый ИИ (Embodied AI): Обеспечивает более надёжное планирование действий для систем, взаимодействующих с физическим миром, на основе визуальных и текстовых подсказок.
Медицина и здравоохранение: Сочетание медицинских изображений (например, рентгеновских снимков) с текстовыми описаниями повышает точность диагностики и объяснимость выводов ИИ^[1].

Проблемы и перспективы

Несмотря на значительный прогресс, мультимодальное использование CoT остаётся сложной исследовательской проблемой.

Нехватка размеченных данных: Для обучения моделей генерировать корректные мультимодальные рассуждения требуются большие наборы данных с подробными пояснениями, получение которых трудоёмко.
Гибкость и обобщаемость: Методы, настроенные на один тип задач (например, текст + изображение), могут плохо переноситься на другие сочетания модальностей.
Оптимальная интеграция: Остаётся открытым вопрос, как наилучшим образом интегрировать разные модальности в единый процесс рассуждения, чтобы он действительно усиливал понимание модели, а не просто удлинял ответ.
Стандартизация и оценка: Существует необходимость в разработке стандартизированных бенчмарков для объективной оценки и сравнения различных MCoT-подходов^[6].

Для достижения мультимодального ИИ, близкого к общеинтеллектуальным возможностям, требуются дальнейшие инновации в методах MCoT, учитывающих специфику восприятия мира различными сенсорами^[1].

Ссылки

Литература

Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.

Примечания

↑ ^1,0 ^1,1 ^1,2 ^1,3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]
↑ ^2,0 ^2,1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]
↑ ^3,0 ^3,1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]
↑ ^4,0 ^4,1 ^4,2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]
↑ ^5,0 ^5,1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]
↑ ^6,0 ^6,1 ^6,2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]

[survey_wang_2025-1] 1,0 ^1,1 ^1,2 ^1,3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]

[cot_wei_2022-2] 2,0 ^2,1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]

[kosmos1_huang_2023-3] 3,0 ^3,1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]

[mcot_zhang_2023-4] 4,0 ^4,1 ^4,2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]

[compositional_cot_mitra_2024-5] 5,0 ^5,1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]

[ddcot_zheng_2023-6] 6,0 ^6,1 ^6,2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]

[1]

[2]

[3]

[4]

[5]

[6]

Multimodal CoT Prompting

Содержание

Предпосылки: от текстового к мультимодальному CoT

Цепочка рассуждений (Chain-of-Thought) в тексте

Переход к мультимодальности

Основные подходы и методологии

Двухэтапный Multimodal-CoT (Zhang et al.)

Композиционный CoT (Compositional CoT)

CoT с разделением обязанностей (Duty-Distinct CoT)

Другие варианты MCoT

Применение и результаты

Проблемы и перспективы

Ссылки

Литература

Примечания

Навигация

Multimodal CoT Prompting

Предпосылки: от текстового к мультимодальному CoT

Цепочка рассуждений (Chain-of-Thought) в тексте

Переход к мультимодальности

Основные подходы и методологии

Двухэтапный Multimodal-CoT (Zhang et al.)

Композиционный CoT (Compositional CoT)

CoT с разделением обязанностей (Duty-Distinct CoT)

Другие варианты MCoT

Применение и результаты

Проблемы и перспективы

Ссылки

Литература

Примечания

Навигация

Поиск