LLM multimodales
Los modelos de lenguaje grandes multimodales (del inglés Multimodal Large Language Models, MLLMs) son una clase de modelos de inteligencia artificial capaces de procesar y generar información en diversas modalidades, incluyendo texto, imágenes, audio y video[1]. A diferencia de los modelos de lenguaje unimodales, que trabajan exclusivamente con texto, los MLLM integran información de diferentes fuentes para resolver tareas complejas de comprensión y generación de contenido.
El concepto principal de los MLLM radica en la creación de una representación vectorial única (embedding) para diferentes modalidades. Esto permite que el modelo establezca conexiones semánticas entre, por ejemplo, una imagen y su descripción textual[2]. Un avance clave que sentó las bases de los MLLM modernos fue el uso del aprendizaje contrastivo para alinear las representaciones visuales y textuales en un espacio de características común, como se implementó en el modelo CLIP[3].
Historia del desarrollo
Período temprano (2013–2020)
Las bases conceptuales de la IA multimodal se sentaron en 2013, cuando investigadores de Stanford demostraron la viabilidad del aprendizaje sin ejemplos (zero-shot learning) utilizando representaciones vectoriales de palabras[4]. En 2016, el equipo de FAIR (Meta AI) demostró la eficacia de utilizar descripciones en lenguaje natural para entrenar modelos de visión por computadora, logrando un 11,5% de precisión en ImageNet sin entrenamiento directo[5].
La era de CLIP (2021)
Un momento revolucionario fue el lanzamiento del modelo CLIP (Contrastive Language-Image Pre-training) por parte de OpenAI en enero de 2021. El modelo, entrenado con 400 millones de pares de imagen-texto, demostró la capacidad de clasificar imágenes sin entrenamiento especializado en tareas específicas. CLIP se convirtió en la base para muchos MLLM posteriores[6].
Escalado e innovaciones (2022–2024)
Tras el éxito de CLIP, surgieron numerosos modelos clave:
- Flamingo (DeepMind, 2022): un modelo de 80 mil millones de parámetros que demostró capacidades excepcionales de aprendizaje con pocos ejemplos.
- BLIP (Salesforce, 2022): una arquitectura unificada para la comprensión y la generación.
- GPT-4V (OpenAI, 2023): el primer modelo multimodal comercial de esta escala.
- LLaVA (Microsoft, 2023): una popular alternativa de código abierto a GPT-4V.
- Gemini (Google, 2023): una arquitectura nativamente multimodal, diseñada desde el principio para trabajar con diferentes tipos de datos.
- GPT-4o (OpenAI, 2024): un modelo capaz de procesar texto, audio y video en tiempo real con baja latencia[1].
- Claude 3.5 Sonnet (Anthropic, 2024): un modelo con capacidades mejoradas para el análisis de información visual.
Enfoques arquitectónicos
Arquitectura de doble codificador (Dual-Encoder)
Utiliza codificadores separados para cada modalidad, que proyectan los datos en un espacio de representación común. Un representante destacado es CLIP, donde un transformador visual procesa las imágenes y un transformador de texto procesa los datos lingüísticos. Sus ventajas son la modularidad y la eficiencia computacional, mientras que su desventaja es una interacción intermodal limitada[7].
Arquitectura codificador-decodificador
Un único codificador procesa la entrada multimodal, y un decodificador genera la salida de texto. El modelo Flamingo utiliza el mecanismo Perceiver Resampler para procesar entradas visuales de longitud variable y capas de atención intermodal. Este enfoque proporciona una rica interacción intermodal, pero requiere grandes recursos computacionales[8].
Arquitectura de alineación (Alignment)
Este enfoque utiliza codificadores preentrenados y congelados, conectados a través de un pequeño módulo de alineación entrenable. Por ejemplo, BLIP-2 utiliza un Q-Former (Querying Transformer) como un elemento de conexión ligero entre un codificador visual congelado y un modelo de lenguaje, lo que requiere significativamente menos parámetros entrenables[9].
Modelos principales
GPT-4V / GPT-4o (OpenAI)
Se estima que la familia de modelos GPT-4 cuenta con hasta 1,8 billones de parámetros (en una arquitectura de mezcla de expertos). El modelo GPT-4o, lanzado en mayo de 2024, admite el procesamiento de texto, imágenes, audio y video en tiempo real. En el benchmark MMMU, alcanza una precisión del 69,1%[10].
Gemini (Google)
Una arquitectura nativamente multimodal, entrenada desde cero con texto, imágenes, audio y video. Gemini 1.5 Pro admite una ventana de contexto de hasta 10 millones de tokens y supera a GPT-4 en 30 de los 32 benchmarks más populares[11].
Claude 3 (Anthropic)
Una familia de modelos (Haiku, Sonnet, Opus) con una ventana de contexto de hasta 200,000 tokens. Claude 3 Opus muestra un 58,5% en el benchmark MMMU. Para mejorar la seguridad del modelo, se utiliza el enfoque de Constitutional AI[12].
LLaVA (modelo de código abierto)
Combina el codificador visual CLIP con el modelo de lenguaje Vicuna. Existen variantes con 7, 13 y 34 mil millones de parámetros. El modelo alcanza un rendimiento relativo del 85,1% en comparación con GPT-4 en tareas sintéticas[13].
Áreas de aplicación
- Preguntas y respuestas visuales (VQA): Permiten a los usuarios hacer preguntas sobre contenido visual.
- Análisis de documentos: Los MLLM modernos pueden procesar hasta 2000 páginas por minuto.
- Visualización médica: Modelos como Med-PaLM M (Google) analizan imágenes médicas y datos clínicos.
- Robótica: Modelos como RT-2 (Google DeepMind) permiten a los robots comprender el entorno visual y ejecutar comandos en lenguaje natural.
Limitaciones actuales
- Alucinaciones: El nivel de alucinaciones en el contenido generado se estima entre un 27% y un 46%. Los modelos pueden describir objetos inexistentes o interpretar incorrectamente la información visual[14].
- Altos requisitos computacionales: El entrenamiento y el uso de MLLM requieren una infraestructura computacional significativa.
- Sesgos en los datos: La representación insuficiente de grupos demográficos, idiomas y culturas en los datos de entrenamiento conduce a errores sistemáticos.
Enlaces
- A Comprehensive Guide to Multimodal LLMs (Encord Blog)
- Multimodal LLMs: The Complete Guide (Viso.ai)
Literatura
- Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020.
- Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
- Li, J. et al. (2022). BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086.
- Li, J. et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597.
- Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485.
- Driess, K. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
- Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
- Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arXiv:2311.16502.
- Tsimpoukelli, M. et al. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884.
- Singhal, K. et al. (2023). Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
- Yin, S. et al. (2023). A Survey on Multimodal Large Language Models. arXiv:2306.13549.
Notas
- ↑ 1.0 1.1 «A Comprehensive Guide to Multimodal LLMs». Encord Blog. [1]
- ↑ «A Survey on Multimodal Large Language Models». ACM Computing Surveys. [2]
- ↑ Radford, A., et al. «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. [3]
- ↑ DeOldify, J. «Zero-Shot Learning by Predicting Attributes». arXiv:1312.5650. [4]
- ↑ «Learning from captions: A milestone in visual language understanding». OpenAI Blog. [5]
- ↑ «Understanding CLIP». Stanford CS231n. [6]
- ↑ «Multimodal LLMs: The Complete Guide». Viso.ai. [7]
- ↑ «The Architectures of Multimodal Language Models». Determined AI. [8]
- ↑ «Understanding BLIP-2: The New Vision-Language Model». Clarifai Blog. [9]
- ↑ «MMMU: A New Benchmark for Multimodal LLMs». Encord Blog. [10]
- ↑ «Google Gemini: A Deep Dive». DaveAI Blog. [11]
- ↑ «Introducing the Claude 3 Family». Anthropic. [12]
- ↑ Liu, H., et al. «Visual Instruction Tuning». arXiv:2304.08485. [13]
- ↑ «Hallucinations in Multimodal Large Language Models». arXiv:2308.08726. [14]