Raciocínio Multimodal

Raciocínio Multimodal (do inglês, Multimodal Reasoning) é a capacidade da inteligência artificial, em particular dos grandes modelos de linguagem (LLMs), de processar, interpretar e conectar logicamente, de forma simultânea, informações de diversos tipos de dados (modalidades), como texto, imagens, áudio e vídeo, para resolver tarefas complexas^[1]. Esse processo imita a percepção humana multifacetada e é um passo fundamental para a criação de uma inteligência artificial geral (AGI) mais versátil e adaptável^[2].

Modelos com essa capacidade são chamados de grandes modelos de linguagem multimodais (MLLM ou LMRM — Large Multimodal Reasoning Models). Eles expandem as capacidades dos LLMs tradicionais, que foram treinados apenas com texto, permitindo-lhes compreender o conteúdo de imagens, analisar vídeos, controlar robôs e manter diálogos com base em dados visuais.

Evolução das abordagens

As abordagens para o raciocínio multimodal evoluíram rapidamente de sistemas modulares para arquiteturas unificadas e centradas na linguagem.

Sistemas iniciais: Baseavam-se em pipelines separados, onde componentes distintos processavam a visão, outros o texto, e suas representações eram combinadas em uma etapa final. Essa abordagem exigia um projeto cuidadoso para cada tarefa específica.
Sistemas modernos: Migraram para modelos unificados e centrados na linguagem. Nesses modelos, um grande modelo de linguagem atua como o componente central, ou "motor" de raciocínio, que processa informações de todas as modalidades em um formato único. Isso se tornou possível graças a métodos que "ensinaram" o modelo de linguagem a compreender dados visuais e de outros tipos, representando-os como tokens especiais^[1].

Um marco importante nessa transição foi o conceito de “cadeia de pensamento multimodal” (Multimodal Chain-of-Thought, MCoT), no qual o modelo recebe uma sequência de prompts que o guiam passo a passo por etapas lógicas, envolvendo diferentes modalidades.

Arquiteturas de LLMs multimodais

Existem duas estratégias arquitetônicas principais para combinar diferentes modalidades com um modelo de linguagem^[3]:

1. Arquitetura unificada no nível de tokens

Nesta abordagem, todas as modalidades são convertidas em uma representação comum compatível com o LLM. Por exemplo, uma imagem é dividida em fragmentos (patches), processada por um encoder visual (como o Vision Transformer (ViT)) e transformada em uma sequência de embeddings vetoriais — os tokens visuais. Em seguida, esses tokens visuais são concatenados (unidos) com os tokens de texto e fornecidos como entrada para o grande modelo de linguagem, que os processa em um fluxo único.

Vantagens: Este esquema praticamente não exige alterações na arquitetura do LLM e é facilmente escalável.
Exemplos: GPT-4 da OpenAI, PaLM-E do Google.

2. Arquitetura com atenção intermodal (cross-attention)

Aqui, o modelo de linguagem e o encoder visual permanecem como subsistemas separados, mas são conectados por camadas especiais de atenção intermodal (cross-attention). Essas camadas permitem que as representações textuais e visuais influenciem umas às outras durante o processo de geração. O modelo, por assim dizer, "espia" as características visuais a cada passo da criação da resposta textual.

Vantagens: Permite utilizar eficientemente o poder de modelos pré-treinados e congelados já existentes (por exemplo, um grande LLM e um ViT potente), treinando apenas as camadas de conexão.
Exemplo: Flamingo da DeepMind.

Em pesquisas recentes, as arquiteturas unificadas do tipo decoder-only tornaram-se dominantes, pois são mais fáceis de escalar e aproveitam melhor as capacidades dos LLMs existentes^[3].

Modelos e pesquisas chave

O desenvolvimento dos MLLMs acelerou especialmente entre 2022 e 2024.

Flamingo (DeepMind, 2022): Um dos primeiros grandes modelos de linguagem visual (VLM) capaz de resolver diversas tarefas multimodais em modo few-shot learning sem a necessidade de ajuste fino adicional. O Flamingo demonstrou que um único modelo pode se adaptar rapidamente a novas tarefas recebendo apenas alguns exemplos no prompt^[4].

Kosmos-1 (Microsoft Research, 2023): O primeiro MLLM treinado do zero com dados da web. Ele é capaz de perceber texto e imagens como "modalidades gerais" e apresentou resultados sólidos na resolução de tarefas de texto com imagens (OCR), diálogo multimodal e até mesmo em tarefas de raciocínio lógico não verbal (matrizes de Raven)^[2].

GPT-4 (OpenAI, 2023): O modelo principal da OpenAI, posicionado como um "grande modelo multimodal", capaz de receber texto e imagens como entrada. Embora sua arquitetura não tenha sido divulgada, sabe-se que ele pode analisar o conteúdo de imagens, descrever gráficos e explicar memes visuais. O acesso às suas capacidades multimodais foi fornecido de forma limitada, por exemplo, em colaboração com o aplicativo BeMyEyes para ajudar pessoas cegas e com baixa visão^[5].

PaLM-E (Google, 2023): Um modelo multimodal "incorporado" (embodied), criado para integrar a percepção visual com ações físicas de robôs. O PaLM-E é capaz de gerar planos passo a passo para controlar robôs, recebendo como entrada uma combinação de imagens de câmeras e leituras de sensores. Isso demonstrou o efeito de "transferência positiva": o treinamento em tarefas gerais de "visualização + linguagem" melhorou a eficiência das habilidades robóticas^[6].

LLAMA 3.2 (Meta, 2024): Uma série de modelos de código aberto que incluiu versões multimodais. O lançamento desses modelos torna as tecnologias MLLM acessíveis a uma ampla comunidade de pesquisa para futuros experimentos^[3].

Desafios e limitações

Apesar dos avanços impressionantes, os MLLMs enfrentam vários desafios significativos:

Alucinações: Assim como seus predecessores baseados em texto, os MLLMs podem gerar afirmações que soam convincentes, mas são factualmente incorretas. A informação visual não elimina esse problema e, por vezes, o complica, levando a interpretações errôneas de imagens^[7].
Capacidade de generalização e profundidade de raciocínio: Os modelos frequentemente falham em transferir conclusões de forma confiável para novos tipos de dados (generalização omnimodal), e seu raciocínio pode ser superficial. Eles podem descrever uma imagem, mas falhar se a tarefa exigir um planejamento de múltiplos passos que considere tanto o texto quanto a imagem^[1].
Dificuldades técnicas: O treinamento de MLLMs exige enormes recursos computacionais e grandes conjuntos de dados multimodais cuidadosamente preparados. A avaliação da qualidade desses modelos também é complexa, pois requer benchmarks especiais que considerem tanto a compreensão quanto o raciocínio.

Perspectivas de desenvolvimento

As tendências indicam que os modelos multimodais se tornarão cada vez mais multimodais "nativos" (Native Large Multimodal Models), ou seja, projetados desde o início para trabalhar com todas as modalidades. O objetivo final é criar uma inteligência universal capaz de perceber e compreender o mundo com a mesma riqueza que um ser humano. Para isso, os pesquisadores estão trabalhando para reduzir a dependência de dados rotulados, treinar modelos para um pensamento mais abstrato e causal, e garantir o controle seguro sobre sistemas tão poderosos. O desenvolvimento de abordagens auxiliares, como o HuggingGPT — onde um LLM atua como um coordenador que distribui tarefas para modelos especialistas —, também está abrindo caminho para uma IA multimodal mais robusta^[8].

Links

Literatura

Li, Y. et al. (2025). Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models. arXiv:2505.04921.
Lee, J. et al. (2024). Multimodal Reasoning with Multimodal Knowledge Graph. ACL 2024.
Huang, S. et al. (2023). Language Is Not All You Need: Aligning Perception with Language Models. arXiv:2302.14045.
Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and Its Friends in Hugging Face. arXiv:2303.17580.
Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
Chen, X. et al. (2023). PaLI-X: On Scaling Up a Multilingual Vision and Language Model. arXiv:2305.18565.
Alayrac, J-B. et al. (2022). Flamingo: A Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
Chen, X. et al. (2022). PaLI: A Jointly-Scaled Multilingual Language-Image Model. arXiv:2209.06794.
Huang, S. et al. (2022). Multimodal Chain-of-Thought Prompting in Large Language Models. arXiv:2302.00923.

Notas

↑ ^1.0 ^1.1 ^1.2 Yang, Z., et al. “Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models”. arXiv:2505.04921 [cs.AI], 8 de maio de 2025. [1]
↑ ^2.0 ^2.1 Huang, S., et al. “Language Is Not All You Need: Aligning Perception with Language Models”. arXiv:2302.14045 [cs.CL], 28 de fev. de 2023. [2]
↑ ^3.0 ^3.1 ^3.2 Raschka, Sebastian. “Understanding Multimodal LLMs”. Ahead of AI Magazine. [3]
↑ Alayrac, Jean-Baptiste, et al. “Tackling multiple tasks with a single visual language model”. DeepMind Blog. [4]
↑ “GPT-4”. OpenAI. [5]
↑ Driess, Danny, et al. “PaLM-E: An embodied multimodal language model”. Google Research Blog. [6]
↑ Lee, D., et al. “Multimodal Reasoning with Multimodal Knowledge Graph”. ACL Anthology, 2024. [7]
↑ Shen, Y., et al. “HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face”. OpenReview. [8]

[survey_perception-1] 1.0 ^1.1 ^1.2 Yang, Z., et al. “Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models”. arXiv:2505.04921 [cs.AI], 8 de maio de 2025. [1]

[ms_kosmos1-2] 2.0 ^2.1 Huang, S., et al. “Language Is Not All You Need: Aligning Perception with Language Models”. arXiv:2302.14045 [cs.CL], 28 de fev. de 2023. [2]

[raschka_understanding-3] 3.0 ^3.1 ^3.2 Raschka, Sebastian. “Understanding Multimodal LLMs”. Ahead of AI Magazine. [3]

[deepmind_flamingo-4] Alayrac, Jean-Baptiste, et al. “Tackling multiple tasks with a single visual language model”. DeepMind Blog. [4]

[openai_gpt4-5] “GPT-4”. OpenAI. [5]

[google_palm-e-6] Driess, Danny, et al. “PaLM-E: An embodied multimodal language model”. Google Research Blog. [6]

[acl_multimodal_kg-7] Lee, D., et al. “Multimodal Reasoning with Multimodal Knowledge Graph”. ACL Anthology, 2024. [7]

[hugging_gpt-8] Shen, Y., et al. “HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face”. OpenReview. [8]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Raciocínio Multimodal

Contents

Evolução das abordagens

Arquiteturas de LLMs multimodais

1. Arquitetura unificada no nível de tokens

2. Arquitetura com atenção intermodal (cross-attention)

Modelos e pesquisas chave

Desafios e limitações

Perspectivas de desenvolvimento

Links

Literatura

Notas

Navigation menu

Raciocínio Multimodal

Evolução das abordagens

Arquiteturas de LLMs multimodais

1. Arquitetura unificada no nível de tokens

2. Arquitetura com atenção intermodal (cross-attention)

Modelos e pesquisas chave

Desafios e limitações

Perspectivas de desenvolvimento

Links

Literatura

Notas

Navigation menu

Search