Multimodal CoT Prompting

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Мультимодальный промптинг с цепочкой рассуждений (Multimodal Chain-of-Thought Prompting, MCoT) — это расширение метода цепочки рассуждений (CoT) на задачи, включающие несколько типов данных (модальностей). В MCoT-моделях язык и другие модальности, такие как зрение или анализ табличных данных, участвуют в едином процессе пошагового вывода для решения сложных задач[1].

Этот подход возник с развитием мультимодальных больших языковых моделей (MLLM), способных одновременно обрабатывать текст, изображения, аудио и видео. MCoT позволяет моделям генерировать интерпретируемые, пошаговые объяснения, объединяющие информацию из разных источников, что повышает точность и прозрачность их работы.

Предпосылки: от текстового к мультимодальному CoT

Цепочка рассуждений (Chain-of-Thought) в тексте

Изначально метод Chain-of-Thought (CoT) был предложен исследователями Google в 2022 году для текстовых больших языковых моделей (LLM)[2]. Идея заключается в том, чтобы обучить модель генерировать последовательность промежуточных шагов рассуждения перед выдачей окончательного ответа. Добавление в промпт примеров пошагового решения (few-shot prompting) заметно улучшило способность LLM решать задачи, требующие арифметических, логических и здравых рассуждений, и повысило общую точность и надёжность моделей[2].

Переход к мультимодальности

Успех текстового CoT стимулировал попытки распространить его на мультимодальные сценарии. С появлением MLLM, таких как Kosmos-1 от Microsoft, которые обучаются одновременно на тексте и изображениях, возникла возможность интегрировать CoT-логику с мультимодальным восприятием[3]. Эксперименты показали, что такие модели могут использовать пошаговые рассуждения, учитывая как текстовые, так и визуальные входные данные, что продемонстрировало принципиальную возможность объединения логики и восприятия[3].

Основные подходы и методологии

Начиная с 2023 года был предложен ряд методов для реализации мультимодального CoT.

Двухэтапный Multimodal-CoT (Zhang et al.)

Один из первых методов, предложенный в 2023 году, использует двухэтапную схему[4]:

  1. Генерация обоснования: На первом шаге модель генерирует текстовую цепочку рассуждений (rationale) на основе мультимодальной информации (например, текста и изображения).
  2. Формирование ответа: На втором шаге модель выдаёт окончательный ответ, опираясь на сгенерированное обоснование.

Такой разделённый подход позволил модели с менее чем 1 млрд параметров достичь рекордно высокого качества на научном датасете ScienceQA, превзойдя даже крупную модель GPT-3.5. Также было отмечено снижение галлюцинаций[4].

Композиционный CoT (Compositional CoT)

Представленный на конференции CVPR 2024, этот метод фокусируется на визуально-текстовых задачах и предлагает генерировать структурированное представление изображения в качестве промежуточного шага[5]. Сначала MLLM порождает описание сцены в виде сценового графа, указывая объекты и отношения между ними. Затем это структурированное описание включается в промпт для финального ответа. Такой подход позволяет LLM глубже учитывать композиционные связи между объектами и улучшает результаты на задачах описания сложных сцен и визуального вопросно-ответного анализа[5].

CoT с разделением обязанностей (Duty-Distinct CoT)

Этот метод, представленный на NeurIPS 2023, предлагает разделить ответственность между разными компонентами системы[6]:

  • Языковая модель отвечает за логическое рассуждение и интеграцию информации.
  • Визуальная подсистема (модель компьютерного зрения) отвечает за распознавание содержимого изображения.

Такой «двоичный промптинг» обеспечивает «критическое мышление»: LLM оценивает и использует визуальную информацию, полученную от специализированного зрительного модуля. Подход DDCoT позволил генерировать более общие и объяснимые рассуждения и существенно повысил точность на задачах мультимодального научного QA[6].

Другие варианты MCoT

Активно разрабатываются и другие подходы, адаптированные под конкретные модальности:

  • Dual CoT: Схема параллельного двунаправленного рассуждения.
  • Audio-CoT: Адаптация цепочки мыслей для задач, связанных с аудио и речью.
  • Video-of-Thought: Техника пошагового анализа видеоданных[1].

Применение и результаты

Мультимодальный CoT-промптинг продемонстрировал эффективность во множестве областей, где требуется объединение разнородной информации.

  • Образование и научный QA: Позволяет системам отвечать на вопросы с диаграммами и иллюстрациями, предоставляя развёрнутое объяснение решения (например, на датасете ScienceQA)[4].
  • Автономное вождение и робототехника: Помогает интерпретировать данные с лидаров, сенсоров и камер последовательно, улучшая понимание сцены и принятие решений агентами.
  • Воплощённый ИИ (Embodied AI): Обеспечивает более надёжное планирование действий для систем, взаимодействующих с физическим миром, на основе визуальных и текстовых подсказок.
  • Медицина и здравоохранение: Сочетание медицинских изображений (например, рентгеновских снимков) с текстовыми описаниями повышает точность диагностики и объяснимость выводов ИИ[1].

Проблемы и перспективы

Несмотря на значительный прогресс, мультимодальное использование CoT остаётся сложной исследовательской проблемой.

  • Нехватка размеченных данных: Для обучения моделей генерировать корректные мультимодальные рассуждения требуются большие наборы данных с подробными пояснениями, получение которых трудоёмко.
  • Гибкость и обобщаемость: Методы, настроенные на один тип задач (например, текст + изображение), могут плохо переноситься на другие сочетания модальностей.
  • Оптимальная интеграция: Остаётся открытым вопрос, как наилучшим образом интегрировать разные модальности в единый процесс рассуждения, чтобы он действительно усиливал понимание модели, а не просто удлинял ответ.
  • Стандартизация и оценка: Существует необходимость в разработке стандартизированных бенчмарков для объективной оценки и сравнения различных MCoT-подходов[6].

Для достижения мультимодального ИИ, близкого к общеинтеллектуальным возможностям, требуются дальнейшие инновации в методах MCoT, учитывающих специфику восприятия мира различными сенсорами[1].

Ссылки

Литература

  • Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
  • Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
  • Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
  • Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
  • Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
  • Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
  • Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
  • Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
  • Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
  • Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
  • Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.

Примечания

  1. 1,0 1,1 1,2 1,3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]
  2. 2,0 2,1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]
  3. 3,0 3,1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]
  4. 4,0 4,1 4,2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]
  5. 5,0 5,1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]
  6. 6,0 6,1 6,2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]