Multimodal CoT Prompting — 多模态思维链提示
多模态思维链提示(Multimodal Chain-of-Thought Prompting, MCoT)是思维链 (CoT) 方法的扩展,适用于包含多种数据类型(模态)的任务。在 MCoT 模型中,语言和其他模态(如视觉或表格数据分析)共同参与一个统一的逐步推理过程,以解决复杂问题[1]。
随着能够同时处理文本、图像、音频和视频的多模态大型语言模型 (MLLM) 的发展,这种方法应运而生。MCoT 使模型能够生成可解释的、分步的解释,这些解释整合了来自不同来源的信息,从而提高了其工作的准确性和透明度。
背景:从文本到多模态CoT
文本中的思维链 (Chain-of-Thought)
最初,思维链 (Chain-of-Thought, CoT) 方法由 Google 研究人员于 2022 年针对文本大型语言模型 (LLM)提出[2]。其核心思想是训练模型在给出最终答案之前,生成一系列中间推理步骤。在提示中加入分步解决的示例(few-shot prompting)显著提高了 LLM 解决需要算术、逻辑和常识推理任务的能力,并提升了模型的整体准确性和可靠性[2]。
向多模态的过渡
文本 CoT 的成功推动了将其扩展到多模态场景的尝试。随着像微软的 Kosmos-1 这类在文本和图像上同时训练的 MLLM 的出现,将 CoT 逻辑与多模态感知相结合成为可能[3]。实验表明,这类模型能够利用分步推理,同时考虑文本和视觉输入数据,这证明了逻辑与感知相结合的基本可行性[3]。
主要方法与方法论
自 2023 年以来,研究人员提出了一系列实现多模态 CoT 的方法。
两阶段 Multimodal-CoT (Zhang et al.)
这是 2023 年提出的首批方法之一,采用两阶段方案[4]:
- 生成理据:第一步,模型基于多模态信息(如文本和图像)生成文本形式的思维链(rationale)。
- 形成答案:第二步,模型根据已生成的理据给出最终答案。
这种分离式方法使一个参数少于 10 亿的模型在科学数据集 ScienceQA 上达到了创纪录的高质量,甚至超过了大型模型 GPT-3.5。此外,研究还观察到模型产生幻觉的情况有所减少[4]。
Compositional CoT - 组合式CoT
该方法在 CVPR 2024 会议上提出,专注于视觉-文本任务,并建议生成图像的结构化表示作为中间步骤[5]。 首先,MLLM 以场景图的形式生成场景描述,指明其中的对象及其关系。然后,这个结构化描述被包含在用于生成最终答案的提示中。这种方法使 LLM 能够更深入地考虑对象之间的组合关系,从而在复杂场景描述和视觉问答分析等任务上取得了更好的结果[5]。
Duty-Distinct CoT - 职责分离CoT
该方法在 NeurIPS 2023 上提出,建议在系统不同组件之间划分责任[6]:
- 语言模型 负责逻辑推理和信息整合。
- 视觉子系统(计算机视觉模型)负责识别图像内容。
这种“二元提示”确保了“批判性思维”:LLM 评估并利用从专门的视觉模块获取的视觉信息。DDCoT 方法能够生成更通用、更具可解释性的推理,并显著提高了在多模态科学问答任务上的准确性[6]。
其他 MCoT 变体
研究人员还在积极开发其他针对特定模态的方法:
- Dual CoT:一种并行的双向推理方案。
- Audio-CoT:针对音频和语音相关任务的思维链改编。
- Video-of-Thought:一种分步分析视频数据的技术[1]。
应用与成果
多模态 CoT 提示已在许多需要整合不同类型信息的领域展示出其有效性。
- 教育与科学问答 (QA):使系统能够回答带有图表和插图的问题,并提供详细的解题说明(例如,在 ScienceQA 数据集上)[4]。
- 自动驾驶与机器人技术:帮助顺序解读来自激光雷达、传感器和摄像头的数据,从而提升场景理解能力和智能体的决策水平。
- 具身智能 (Embodied AI):基于视觉和文本提示,为与物理世界交互的系统提供更可靠的行动规划。
- 医疗与健康:将医学影像(如 X 光片)与文本描述相结合,提高了诊断的准确性和 AI 结论的可解释性[1]。
挑战与前景
尽管取得了显著进展,但 CoT 在多模态领域的应用仍然是一个复杂的研究难题。
- 标注数据稀缺:训练模型生成正确的多模态推理,需要大量带有详细解释的数据集,而获取这类数据集非常耗时耗力。
- 灵活性与泛化能力:针对某一类任务(如文本+图像)优化的方法,可能难以很好地迁移到其他模态组合上。
- 最佳集成方式:如何将不同模态以最佳方式整合到统一的推理过程中,使其真正增强模型的理解能力,而不仅仅是延长输出,这仍然是一个悬而未决的问题。
- 标准化与评估:目前需要开发标准化的基准测试,以便客观地评估和比较不同的 MCoT 方法[6]。
为了实现接近通用智能水平的多模态 AI,需要在 MCoT 方法上进行更多创新,以考虑不同传感器感知世界的特性[1]。
链接
- Prompting Guide 中的 Multimodal CoT 概述
- 《Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey》—— 详细的科学综述
参考文献
- Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
- Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
- Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
- Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
- Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
- Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
- Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
- Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
- Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
- Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
- Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.
注释
- ↑ 1.0 1.1 1.2 1.3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]
- ↑ 2.0 2.1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]
- ↑ 3.0 3.1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]
- ↑ 4.0 4.1 4.2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]
- ↑ 5.0 5.1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]
- ↑ 6.0 6.1 6.2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]