Multimodal CoT Prompting
Мультимодальный промптинг с цепочкой рассуждений (Multimodal Chain-of-Thought Prompting, MCoT) — это расширение метода цепочки рассуждений (CoT) на задачи, включающие несколько типов данных (модальностей). В MCoT-моделях язык и другие модальности, такие как зрение или анализ табличных данных, участвуют в едином процессе пошагового вывода для решения сложных задач[1].
Этот подход возник с развитием мультимодальных больших языковых моделей (MLLM), способных одновременно обрабатывать текст, изображения, аудио и видео. MCoT позволяет моделям генерировать интерпретируемые, пошаговые объяснения, объединяющие информацию из разных источников, что повышает точность и прозрачность их работы.
Предпосылки: от текстового к мультимодальному CoT
Цепочка рассуждений (Chain-of-Thought) в тексте
Изначально метод Chain-of-Thought (CoT) был предложен исследователями Google в 2022 году для текстовых больших языковых моделей (LLM)[2]. Идея заключается в том, чтобы обучить модель генерировать последовательность промежуточных шагов рассуждения перед выдачей окончательного ответа. Добавление в промпт примеров пошагового решения (few-shot prompting) заметно улучшило способность LLM решать задачи, требующие арифметических, логических и здравых рассуждений, и повысило общую точность и надёжность моделей[2].
Переход к мультимодальности
Успех текстового CoT стимулировал попытки распространить его на мультимодальные сценарии. С появлением MLLM, таких как Kosmos-1 от Microsoft, которые обучаются одновременно на тексте и изображениях, возникла возможность интегрировать CoT-логику с мультимодальным восприятием[3]. Эксперименты показали, что такие модели могут использовать пошаговые рассуждения, учитывая как текстовые, так и визуальные входные данные, что продемонстрировало принципиальную возможность объединения логики и восприятия[3].
Основные подходы и методологии
Начиная с 2023 года был предложен ряд методов для реализации мультимодального CoT.
Двухэтапный Multimodal-CoT (Zhang et al.)
Один из первых методов, предложенный в 2023 году, использует двухэтапную схему[4]:
- Генерация обоснования: На первом шаге модель генерирует текстовую цепочку рассуждений (rationale) на основе мультимодальной информации (например, текста и изображения).
- Формирование ответа: На втором шаге модель выдаёт окончательный ответ, опираясь на сгенерированное обоснование.
Такой разделённый подход позволил модели с менее чем 1 млрд параметров достичь рекордно высокого качества на научном датасете ScienceQA, превзойдя даже крупную модель GPT-3.5. Также было отмечено снижение галлюцинаций[4].
Композиционный CoT (Compositional CoT)
Представленный на конференции CVPR 2024, этот метод фокусируется на визуально-текстовых задачах и предлагает генерировать структурированное представление изображения в качестве промежуточного шага[5]. Сначала MLLM порождает описание сцены в виде сценового графа, указывая объекты и отношения между ними. Затем это структурированное описание включается в промпт для финального ответа. Такой подход позволяет LLM глубже учитывать композиционные связи между объектами и улучшает результаты на задачах описания сложных сцен и визуального вопросно-ответного анализа[5].
CoT с разделением обязанностей (Duty-Distinct CoT)
Этот метод, представленный на NeurIPS 2023, предлагает разделить ответственность между разными компонентами системы[6]:
- Языковая модель отвечает за логическое рассуждение и интеграцию информации.
- Визуальная подсистема (модель компьютерного зрения) отвечает за распознавание содержимого изображения.
Такой «двоичный промптинг» обеспечивает «критическое мышление»: LLM оценивает и использует визуальную информацию, полученную от специализированного зрительного модуля. Подход DDCoT позволил генерировать более общие и объяснимые рассуждения и существенно повысил точность на задачах мультимодального научного QA[6].
Другие варианты MCoT
Активно разрабатываются и другие подходы, адаптированные под конкретные модальности:
- Dual CoT: Схема параллельного двунаправленного рассуждения.
- Audio-CoT: Адаптация цепочки мыслей для задач, связанных с аудио и речью.
- Video-of-Thought: Техника пошагового анализа видеоданных[1].
Применение и результаты
Мультимодальный CoT-промптинг продемонстрировал эффективность во множестве областей, где требуется объединение разнородной информации.
- Образование и научный QA: Позволяет системам отвечать на вопросы с диаграммами и иллюстрациями, предоставляя развёрнутое объяснение решения (например, на датасете ScienceQA)[4].
- Автономное вождение и робототехника: Помогает интерпретировать данные с лидаров, сенсоров и камер последовательно, улучшая понимание сцены и принятие решений агентами.
- Воплощённый ИИ (Embodied AI): Обеспечивает более надёжное планирование действий для систем, взаимодействующих с физическим миром, на основе визуальных и текстовых подсказок.
- Медицина и здравоохранение: Сочетание медицинских изображений (например, рентгеновских снимков) с текстовыми описаниями повышает точность диагностики и объяснимость выводов ИИ[1].
Проблемы и перспективы
Несмотря на значительный прогресс, мультимодальное использование CoT остаётся сложной исследовательской проблемой.
- Нехватка размеченных данных: Для обучения моделей генерировать корректные мультимодальные рассуждения требуются большие наборы данных с подробными пояснениями, получение которых трудоёмко.
- Гибкость и обобщаемость: Методы, настроенные на один тип задач (например, текст + изображение), могут плохо переноситься на другие сочетания модальностей.
- Оптимальная интеграция: Остаётся открытым вопрос, как наилучшим образом интегрировать разные модальности в единый процесс рассуждения, чтобы он действительно усиливал понимание модели, а не просто удлинял ответ.
- Стандартизация и оценка: Существует необходимость в разработке стандартизированных бенчмарков для объективной оценки и сравнения различных MCoT-подходов[6].
Для достижения мультимодального ИИ, близкого к общеинтеллектуальным возможностям, требуются дальнейшие инновации в методах MCoT, учитывающих специфику восприятия мира различными сенсорами[1].
Ссылки
- Обзор Multimodal CoT в Prompting Guide
- «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey» — детальный научный обзор
Литература
- Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
- Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
- Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
- Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
- Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
- Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
- Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
- Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
- Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
- Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
- Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.
Примечания
- ↑ 1,0 1,1 1,2 1,3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]
- ↑ 2,0 2,1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]
- ↑ 3,0 3,1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]
- ↑ 4,0 4,1 4,2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]
- ↑ 5,0 5,1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]
- ↑ 6,0 6,1 6,2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]