Multimodal CoT Prompting — 多模态思维链提示

多模态思维链提示（Multimodal Chain-of-Thought Prompting, MCoT）是思维链 (CoT) 方法的扩展，适用于包含多种数据类型（模态）的任务。在 MCoT 模型中，语言和其他模态（如视觉或表格数据分析）共同参与一个统一的逐步推理过程，以解决复杂问题^[1]。

随着能够同时处理文本、图像、音频和视频的多模态大型语言模型 (MLLM) 的发展，这种方法应运而生。MCoT 使模型能够生成可解释的、分步的解释，这些解释整合了来自不同来源的信息，从而提高了其工作的准确性和透明度。

背景：从文本到多模态CoT

文本中的思维链 (Chain-of-Thought)

最初，思维链 (Chain-of-Thought, CoT) 方法由 Google 研究人员于 2022 年针对文本大型语言模型 (LLM)提出^[2]。其核心思想是训练模型在给出最终答案之前，生成一系列中间推理步骤。在提示中加入分步解决的示例（few-shot prompting）显著提高了 LLM 解决需要算术、逻辑和常识推理任务的能力，并提升了模型的整体准确性和可靠性^[2]。

向多模态的过渡

文本 CoT 的成功推动了将其扩展到多模态场景的尝试。随着像微软的 Kosmos-1 这类在文本和图像上同时训练的 MLLM 的出现，将 CoT 逻辑与多模态感知相结合成为可能^[3]。实验表明，这类模型能够利用分步推理，同时考虑文本和视觉输入数据，这证明了逻辑与感知相结合的基本可行性^[3]。

主要方法与方法论

自 2023 年以来，研究人员提出了一系列实现多模态 CoT 的方法。

两阶段 Multimodal-CoT (Zhang et al.)

这是 2023 年提出的首批方法之一，采用两阶段方案^[4]：

生成理据：第一步，模型基于多模态信息（如文本和图像）生成文本形式的思维链（rationale）。
形成答案：第二步，模型根据已生成的理据给出最终答案。

这种分离式方法使一个参数少于 10 亿的模型在科学数据集 ScienceQA 上达到了创纪录的高质量，甚至超过了大型模型 GPT-3.5。此外，研究还观察到模型产生幻觉的情况有所减少^[4]。

Compositional CoT - 组合式CoT

该方法在 CVPR 2024 会议上提出，专注于视觉-文本任务，并建议生成图像的结构化表示作为中间步骤^[5]。首先，MLLM 以场景图的形式生成场景描述，指明其中的对象及其关系。然后，这个结构化描述被包含在用于生成最终答案的提示中。这种方法使 LLM 能够更深入地考虑对象之间的组合关系，从而在复杂场景描述和视觉问答分析等任务上取得了更好的结果^[5]。

Duty-Distinct CoT - 职责分离CoT

该方法在 NeurIPS 2023 上提出，建议在系统不同组件之间划分责任^[6]：

语言模型 负责逻辑推理和信息整合。
视觉子系统（计算机视觉模型）负责识别图像内容。

这种“二元提示”确保了“批判性思维”：LLM 评估并利用从专门的视觉模块获取的视觉信息。DDCoT 方法能够生成更通用、更具可解释性的推理，并显著提高了在多模态科学问答任务上的准确性^[6]。

其他 MCoT 变体

研究人员还在积极开发其他针对特定模态的方法：

Dual CoT：一种并行的双向推理方案。
Audio-CoT：针对音频和语音相关任务的思维链改编。
Video-of-Thought：一种分步分析视频数据的技术^[1]。

应用与成果

多模态 CoT 提示已在许多需要整合不同类型信息的领域展示出其有效性。

教育与科学问答 (QA)：使系统能够回答带有图表和插图的问题，并提供详细的解题说明（例如，在 ScienceQA 数据集上）^[4]。
自动驾驶与机器人技术：帮助顺序解读来自激光雷达、传感器和摄像头的数据，从而提升场景理解能力和智能体的决策水平。
具身智能 (Embodied AI)：基于视觉和文本提示，为与物理世界交互的系统提供更可靠的行动规划。
医疗与健康：将医学影像（如 X 光片）与文本描述相结合，提高了诊断的准确性和 AI 结论的可解释性^[1]。

挑战与前景

尽管取得了显著进展，但 CoT 在多模态领域的应用仍然是一个复杂的研究难题。

标注数据稀缺：训练模型生成正确的多模态推理，需要大量带有详细解释的数据集，而获取这类数据集非常耗时耗力。
灵活性与泛化能力：针对某一类任务（如文本+图像）优化的方法，可能难以很好地迁移到其他模态组合上。
最佳集成方式：如何将不同模态以最佳方式整合到统一的推理过程中，使其真正增强模型的理解能力，而不仅仅是延长输出，这仍然是一个悬而未决的问题。
标准化与评估：目前需要开发标准化的基准测试，以便客观地评估和比较不同的 MCoT 方法^[6]。

为了实现接近通用智能水平的多模态 AI，需要在 MCoT 方法上进行更多创新，以考虑不同传感器感知世界的特性^[1]。

链接

参考文献

Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
Mitra, C. et al. (2024). Compositional Chain-of-Thought Prompting for Large Multimodal Models. CVPR 2024. PDF.
Zheng, G. et al. (2023). DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models. arXiv:2310.16436.
Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1). arXiv:2302.14045.
Wang, Y. et al. (2025). Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey. arXiv:2503.12605.
Ma, Z. et al. (2025). Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Models. arXiv:2501.07246.
Li, J. et al. (2024). DCoT: Dual Chain-of-Thought Prompting for Large Multimodal Models. OpenReview:0saecDOdh2.
Ma, Z. et al. (2025). ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models. arXiv:2506.21448.
Zhang, M. et al. (2023). Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition. PDF.
Mitra, S. et al. (2024). ThinkVideo: High-Quality Video Reasoning with Chain of Thoughts. arXiv:2505.18561.
Wu, Y. et al. (2024). MINT: Multi-modal Chain of Thought in Unified Generative Models. arXiv:2503.01298.

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]
↑ ^2.0 ^2.1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]
↑ ^3.0 ^3.1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]
↑ ^4.0 ^4.1 ^4.2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]
↑ ^5.0 ^5.1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]
↑ ^6.0 ^6.1 ^6.2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]

[survey_wang_2025-1] 1.0 ^1.1 ^1.2 ^1.3 Wang, Y. et al. «Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey». arXiv:2503.12605, 2025. [1]

[cot_wei_2022-2] 2.0 ^2.1 Wei, J. et al. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv:2201.11903, 2022. [2]

[kosmos1_huang_2023-3] 3.0 ^3.1 Huang, S. et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045, 2023. [3]

[mcot_zhang_2023-4] 4.0 ^4.1 ^4.2 Zhang, Z. et al. «Multimodal Chain-of-Thought Reasoning in Language Models». arXiv:2302.00923, 2023. [4]

[compositional_cot_mitra_2024-5] 5.0 ^5.1 Mitra, A. et al. «Compositional Chain-of-Thought Prompting for Large Multimodal Models». CVPR, 2024. [5]

[ddcot_zheng_2023-6] 6.0 ^6.1 ^6.2 Zheng, G. et al. «DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models». OpenReview, 2023. [6]

[1]

[2]

[3]

[4]

[5]

[6]

Multimodal CoT Prompting — 多模态思维链提示

Contents

背景：从文本到多模态CoT

文本中的思维链 (Chain-of-Thought)

向多模态的过渡

主要方法与方法论

两阶段 Multimodal-CoT (Zhang et al.)

Compositional CoT - 组合式CoT

Duty-Distinct CoT - 职责分离CoT

其他 MCoT 变体

应用与成果

挑战与前景

链接

参考文献

注释

Navigation menu

Multimodal CoT Prompting — 多模态思维链提示

背景：从文本到多模态CoT

文本中的思维链 (Chain-of-Thought)

向多模态的过渡

主要方法与方法论

两阶段 Multimodal-CoT (Zhang et al.)

Compositional CoT - 组合式CoT

Duty-Distinct CoT - 职责分离CoT

其他 MCoT 变体

应用与成果

挑战与前景

链接

参考文献

注释

Navigation menu

Search