Multimodal reasoning — 多模态推理

多模态推理（英语：Multimodal Reasoning）是人工智能，特别是大型语言模型 (LLM)的一项能力，能够同时处理、解释和逻辑关联来自不同数据类型（模态）的信息，例如文本、图像、音频和视频，以解决复杂任务^[1]。这一过程模拟了人类多方面的感知能力，是迈向创建更通用、适应性更强的通用人工智能（AGI）的关键一步^[2]。

具备这种能力的模型被称为多模态大型语言模型（MLLM或 LMRM — Large Multimodal Reasoning Models）。它们扩展了仅在文本上训练的传统LLM的能力，使其能够理解图像内容、分析视频、控制机器人，并基于视觉数据进行对话。

方法演变

多模态推理的方法经历了从模块化系统到统一的、以语言为中心的架构的快速演变。

早期系统：基于独立的流水线，其中不同组件分别处理视觉和文本信息，在最后阶段将它们的表示进行融合。这种方法需要为每个特定任务进行精心的设计。
现代系统：转向了统一的、以语言为中心的模型。在这种模型中，大型语言模型作为推理的核心或“引擎”，以统一的格式处理来自所有模态的信息。这得益于一些方法，这些方法通过将视觉等数据表示为特殊词元（token），“教会”了语言模型理解它们^[1]。

这一转变的一个重要里程碑是“多模态思维链”（Multimodal Chain-of-Thought, MCoT）概念的提出，模型通过接收一系列提示，逐步引导其完成涉及不同模态的逻辑步骤。

多模态LLM的架构

将不同模态与语言模型相结合，主要有两种架构策略^[3]：

1. 词元级别的统一架构

在这种方法中，所有模态都被转换为与LLM兼容的通用表示。例如，图像被分割成多个片段（patch），通过视觉编码器（例如，Vision Transformer (ViT)）处理后，转换成一个向量嵌入序列——视觉词元。然后，这些视觉词元与文本词元拼接（concatenate）在一起，并输入到大型语言模型中，由模型以统一的流程进行处理。

优点：该方案几乎不需要修改LLM的架构，并且易于扩展。
示例：OpenAI的GPT-4，谷歌的PaLM-E。

2. 采用跨模态注意力的架构

在这里，语言模型和视觉编码器仍然是独立的子系统，但通过特殊的跨模态注意力（cross-attention）层连接起来。这些层允许文本和视觉表示在生成过程中相互影响。模型在生成文本答案的每一步，都会“参考”视觉特征。

优点：可以有效利用现有预训练和冻结模型的强大能力（例如，大型LLM和强大的ViT），只需训练连接层。
示例：DeepMind的Flamingo。

在当前的研究中，统一的decoder-only架构已成为主流，因为它们更易于扩展，并且能更好地利用现有LLM的能力^[3]。

关键模型与研究

MLLM的发展在2022-2024年间尤为迅速。

Flamingo (DeepMind, 2022)：首批大型视觉语言模型（VLM）之一，能够在少样本学习（few-shot learning）模式下解决各种多模态任务，无需额外微调。Flamingo证明了单一模型只需在提示中获得少量示例，即可快速适应新任务^[4]。

Kosmos-1 (Microsoft Research, 2023)：首个从零开始在网络数据上训练的MLLM。它能够将文本和图像视为“通用模态”，并在解决带图像的文本任务（OCR）、多模态对话，甚至非语言逻辑推理任务（瑞文矩阵）方面表现出色^[2]。

GPT-4 (OpenAI, 2023)：旗舰模型，定位为“大型多模态模型”，能够接收文本和图像作为输入。尽管其架构未公开，但已知它能够分析图片内容、描述图表并解释视觉梗。其多模态功能的访问权限曾受到限制，例如与BeMyEyes应用合作，帮助盲人和视障人士^[5]。

PaLM-E (Google, 2023)：所谓的“具身”（embodied）多模态模型，旨在将视觉感知与机器人的物理动作相结合。PaLM-E能够根据摄像头图像和传感器读数的组合输入，生成控制机器人的分步计划。这展示了“正向迁移”效应：在通用的“视觉+语言”任务上进行训练，提高了机器人技能的效率^[6]。

LLAMA 3.2 (Meta, 2024)：一个开源模型系列，其中也包含了多模态版本。它们的出现使MLLM技术能够被更广泛的研究社区所用，以进行进一步的实验^[3]。

问题与局限性

尽管取得了令人瞩目的成就，MLLM仍面临一系列严峻挑战：

幻觉：与其纯文本的前辈一样，MLLM可能会生成听起来令人信服但实际上错误陈述。视觉信息并不能消除这个问题，有时反而会因对图像的错误解读而使问题复杂化^[7]。
泛化能力与推理深度：模型通常无法可靠地将结论推广到新类型的数据（全模态泛化），其推理可能较为肤浅。它们可以描述一幅图片，但如果任务需要结合文本和图像进行多步规划，则可能会失败^[1]。
技术挑战：训练MLLM需要巨大的计算资源和庞大且精心准备的多模态数据集。评估这类模型的质量也很复杂，因为它需要能够同时衡量理解和推理能力的专用基准测试。

发展前景

趋势表明，多模态模型将变得越来越“原生”多模态（Native Large Multimodal Models），即从一开始就为处理所有模态而设计。最终目标是创建一个能够像人类一样丰富地感知和理解世界的通用智能。为此，研究人员正致力于减少对标记数据的依赖，训练模型进行更抽象的因果推理，并确保对此类强大系统的安全控制。一些辅助方法的发展，如HuggingGPT——其中LLM作为协调者，将任务分配给专家模型——也为实现更可靠的多模态AI铺平了道路^[8]。

链接

参考文献

Li, Y. et al. (2025). Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models. arXiv:2505.04921.
Lee, J. et al. (2024). Multimodal Reasoning with Multimodal Knowledge Graph. ACL 2024.
Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models. arXiv:2302.14045.
Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and Its Friends in Hugging Face. arXiv:2303.17580.
Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
Chen, X. et al. (2023). PaLI-X: On Scaling Up a Multilingual Vision and Language Model. arXiv:2305.18565.
Alayrac, J-B. et al. (2022). Flamingo: A Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
Chen, X. et al. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model. arXiv:2209.06794.
Huang, S. et al. (2022). Multimodal Chain-of-Thought Prompting in Large Language Models. arXiv:2302.00923.

注释

↑ ^1.0 ^1.1 ^1.2 Yang, Z., et al. «Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models». arXiv:2505.04921 [cs.AI], 8 мая 2025 г. [1]
↑ ^2.0 ^2.1 Huang, S., et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045 [cs.CL], 28 февр. 2023 г. [2]
↑ ^3.0 ^3.1 ^3.2 Raschka, Sebastian. «Understanding Multimodal LLMs». Ahead of AI Magazine. [3]
↑ Alayrac, Jean-Baptiste, et al. «Tackling multiple tasks with a single visual language model». DeepMind Blog. [4]
↑ «GPT-4». OpenAI. [5]
↑ Driess, Danny, et al. «PaLM-E: An embodied multimodal language model». Google Research Blog. [6]
↑ Lee, D., et al. «Multimodal Reasoning with Multimodal Knowledge Graph». ACL Anthology, 2024. [7]
↑ Shen, Y., et al. «HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face». OpenReview. [8]

[survey_perception-1] 1.0 ^1.1 ^1.2 Yang, Z., et al. «Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models». arXiv:2505.04921 [cs.AI], 8 мая 2025 г. [1]

[ms_kosmos1-2] 2.0 ^2.1 Huang, S., et al. «Language Is Not All You Need: Aligning Perception with Language Models». arXiv:2302.14045 [cs.CL], 28 февр. 2023 г. [2]

[raschka_understanding-3] 3.0 ^3.1 ^3.2 Raschka, Sebastian. «Understanding Multimodal LLMs». Ahead of AI Magazine. [3]

[deepmind_flamingo-4] Alayrac, Jean-Baptiste, et al. «Tackling multiple tasks with a single visual language model». DeepMind Blog. [4]

[openai_gpt4-5] «GPT-4». OpenAI. [5]

[google_palm-e-6] Driess, Danny, et al. «PaLM-E: An embodied multimodal language model». Google Research Blog. [6]

[acl_multimodal_kg-7] Lee, D., et al. «Multimodal Reasoning with Multimodal Knowledge Graph». ACL Anthology, 2024. [7]

[hugging_gpt-8] Shen, Y., et al. «HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face». OpenReview. [8]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Multimodal reasoning — 多模态推理

Contents

方法演变

多模态LLM的架构

1. 词元级别的统一架构

2. 采用跨模态注意力的架构

关键模型与研究

问题与局限性

发展前景

链接

参考文献

注释

Navigation menu

Multimodal reasoning — 多模态推理

方法演变

多模态LLM的架构

1. 词元级别的统一架构

2. 采用跨模态注意力的架构

关键模型与研究

问题与局限性

发展前景

链接

参考文献

注释

Navigation menu

Search