Мультимодальные LLM

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Мультимодальные большие языковые модели (англ. Multimodal Large Language Models, MLLMs) — это класс моделей искусственного интеллекта, способных обрабатывать и генерировать информацию в различных модальностях, включая текст, изображения, аудио и видео[1]. В отличие от унимодальных языковых моделей, работающих исключительно с текстом, MLLM интегрируют информацию из разных источников для решения комплексных задач понимания и генерации контента.

Основная концепция MLLM заключается в создании единого векторного представления (embedding) для разных модальностей. Это позволяет модели устанавливать семантические связи между, например, изображением и его текстовым описанием[2]. Ключевым прорывом, заложившим основу современных MLLM, стало использование контрастивного обучения для выравнивания визуальных и текстовых представлений в общем пространстве признаков, как это было реализовано в модели CLIP[3].

История развития

Ранний период (2013–2020)

Концептуальные основы мультимодального ИИ были заложены в 2013 году, когда исследователи из Стэнфорда продемонстрировали возможность обучения с нулевой выборкой (zero-shot learning) с использованием векторных представлений слов[4]. В 2016 году команда FAIR (Meta AI) показала эффективность использования естественноязыковых описаний для обучения моделей компьютерного зрения, достигнув 11,5% точности на ImageNet без прямого обучения[5].

Эра CLIP (2021)

Революционным моментом стал выпуск модели CLIP (Contrastive Language-Image Pre-training) компанией OpenAI в январе 2021 года. Модель, обученная на 400 миллионах пар изображение-текст, продемонстрировала способность классифицировать изображения без специализированного обучения на конкретных задачах. CLIP стала основой для многих последующих MLLM[6].

Масштабирование и инновации (2022–2024)

После успеха CLIP появилось множество ключевых моделей:

  • Flamingo (DeepMind, 2022) — 80-миллиардная модель, показавшая выдающиеся способности к обучению с малым количеством примеров.
  • BLIP (Salesforce, 2022) — унифицированная архитектура для понимания и генерации.
  • GPT-4V (OpenAI, 2023) — первая коммерческая мультимодальная модель такого масштаба.
  • LLaVA (Microsoft, 2023) — популярная открытая альтернатива GPT-4V.
  • Gemini (Google, 2023) — нативно мультимодальная архитектура, изначально спроектированная для работы с разными типами данных.
  • GPT-4o (OpenAI, 2024) — модель, способная обрабатывать текст, аудио и видео в реальном времени с низкой задержкой[1].
  • Claude 3.5 Sonnet (Anthropic, 2024) — модель с улучшенными способностями к анализу визуальной информации.

Архитектурные подходы

Двухэнкодерная архитектура (Dual-Encoder)

Использует отдельные энкодеры для каждой модальности, которые проецируют данные в общее пространство представлений. Ярким представителем является CLIP, где визуальный трансформер обрабатывает изображения, а текстовый — языковые данные. Преимуществами являются модульность и вычислительная эффективность, недостатком — ограниченное кросс-модальное взаимодействие[7].

Архитектура энкодер-декодер

Единый энкодер обрабатывает мультимодальный вход, а декодер генерирует текстовый выход. Модель Flamingo использует механизм Perceiver Resampler для обработки визуальных входов переменной длины и кросс-модальные слои внимания. Этот подход обеспечивает богатое межмодальное взаимодействие, но требует больших вычислительных ресурсов[8].

Архитектура выравнивания (Alignment)

Этот подход использует замороженные предобученные энкодеры, соединённые через небольшой обучаемый модуль выравнивания. Например, BLIP-2 использует Q-Former (Querying Transformer) как лёгкий связующий элемент между замороженным визуальным энкодером и языковой моделью, требуя значительно меньше обучаемых параметров[9].

Основные модели

GPT-4V / GPT-4o (OpenAI)

Семейство моделей GPT-4, по оценкам, насчитывает до 1,8 триллиона параметров (в архитектуре смеси экспертов). Модель GPT-4o, выпущенная в мае 2024, поддерживает обработку текста, изображений, аудио и видео в реальном времени. На бенчмарке MMMU она достигает 69,1% точности[10].

Gemini (Google)

Нативно мультимодальная архитектура, обученная с нуля на тексте, изображениях, аудио и видео. Gemini 1.5 Pro поддерживает контекстное окно до 10 миллионов токенов и превосходит GPT-4 на 30 из 32 популярных бенчмарков[11].

Claude 3 (Anthropic)

Семейство моделей (Haiku, Sonnet, Opus) с контекстным окном до 200 000 токенов. Claude 3 Opus показывает 58,5% на бенчмарке MMMU. Для повышения безопасности модели используется подход Constitutional AI[12].

LLaVA (открытая модель)

Комбинирует визуальный энкодер CLIP с языковой моделью Vicuna. Доступны варианты с 7, 13 и 34 миллиардами параметров. Модель достигает 85,1% относительной производительности GPT-4 на синтетических задачах[13].

Области применения

  • Визуальные вопросы-ответы (VQA): Позволяют пользователям задавать вопросы о визуальном контенте.
  • Анализ документов: Современные MLLM способны обрабатывать до 2000 страниц в минуту.
  • Медицинская визуализация: Модели, такие как Med-PaLM M (Google), анализируют медицинские изображения и клинические данные.
  • Робототехника: Модели, как RT-2 (Google DeepMind), позволяют роботам понимать визуальную среду и выполнять команды на естественном языке.

Текущие ограничения

  • Галлюцинации: Уровень галлюцинаций в генерируемом контенте оценивается в 27–46%. Модели могут описывать несуществующие объекты или неверно интерпретировать визуальную информацию[14].
  • Высокие вычислительные требования: Обучение и использование MLLM требует значительной вычислительной инфраструктуры.
  • Предвзятость данных: Недостаточная представленность демографических групп, языков и культур в обучающих данных приводит к систематическим ошибкам.

Ссылки

Литература

  • Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020.
  • Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
  • Li, J. et al. (2022). BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086.
  • Li, J. et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597.
  • Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485.
  • Driess, K. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
  • Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
  • Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arXiv:2311.16502.
  • Tsimpoukelli, M. et al. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884.
  • Singhal, K. et al. (2023). Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
  • Yin, S. et al. (2023). A Survey on Multimodal Large Language Models. arXiv:2306.13549.

Примечания

  1. 1,0 1,1 «A Comprehensive Guide to Multimodal LLMs». Encord Blog. [1]
  2. «A Survey on Multimodal Large Language Models». ACM Computing Surveys. [2]
  3. Radford, A., et al. «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. [3]
  4. DeOldify, J. «Zero-Shot Learning by Predicting Attributes». arXiv:1312.5650. [4]
  5. «Learning from captions: A milestone in visual language understanding». OpenAI Blog. [5]
  6. «Understanding CLIP». Stanford CS231n. [6]
  7. «Multimodal LLMs: The Complete Guide». Viso.ai. [7]
  8. «The Architectures of Multimodal Language Models». Determined AI. [8]
  9. «Understanding BLIP-2: The New Vision-Language Model». Clarifai Blog. [9]
  10. «MMMU: A New Benchmark for Multimodal LLMs». Encord Blog. [10]
  11. «Google Gemini: A Deep Dive». DaveAI Blog. [11]
  12. «Introducing the Claude 3 Family». Anthropic. [12]
  13. Liu, H., et al. «Visual Instruction Tuning». arXiv:2304.08485. [13]
  14. «Hallucinations in Multimodal Large Language Models». arXiv:2308.08726. [14]