Мультимодальные LLM

Мультимодальные большие языковые модели (англ. Multimodal Large Language Models, MLLMs) — это класс моделей искусственного интеллекта, способных обрабатывать и генерировать информацию в различных модальностях, включая текст, изображения, аудио и видео^[1]. В отличие от унимодальных языковых моделей, работающих исключительно с текстом, MLLM интегрируют информацию из разных источников для решения комплексных задач понимания и генерации контента.

Основная концепция MLLM заключается в создании единого векторного представления (embedding) для разных модальностей. Это позволяет модели устанавливать семантические связи между, например, изображением и его текстовым описанием^[2]. Ключевым прорывом, заложившим основу современных MLLM, стало использование контрастивного обучения для выравнивания визуальных и текстовых представлений в общем пространстве признаков, как это было реализовано в модели CLIP^[3].

История развития

Ранний период (2013–2020)

Концептуальные основы мультимодального ИИ были заложены в 2013 году, когда исследователи из Стэнфорда продемонстрировали возможность обучения с нулевой выборкой (zero-shot learning) с использованием векторных представлений слов^[4]. В 2016 году команда FAIR (Meta AI) показала эффективность использования естественноязыковых описаний для обучения моделей компьютерного зрения, достигнув 11,5% точности на ImageNet без прямого обучения^[5].

Эра CLIP (2021)

Революционным моментом стал выпуск модели CLIP (Contrastive Language-Image Pre-training) компанией OpenAI в январе 2021 года. Модель, обученная на 400 миллионах пар изображение-текст, продемонстрировала способность классифицировать изображения без специализированного обучения на конкретных задачах. CLIP стала основой для многих последующих MLLM^[6].

Масштабирование и инновации (2022–2024)

После успеха CLIP появилось множество ключевых моделей:

Flamingo (DeepMind, 2022) — 80-миллиардная модель, показавшая выдающиеся способности к обучению с малым количеством примеров.
BLIP (Salesforce, 2022) — унифицированная архитектура для понимания и генерации.
GPT-4V (OpenAI, 2023) — первая коммерческая мультимодальная модель такого масштаба.
LLaVA (Microsoft, 2023) — популярная открытая альтернатива GPT-4V.
Gemini (Google, 2023) — нативно мультимодальная архитектура, изначально спроектированная для работы с разными типами данных.
GPT-4o (OpenAI, 2024) — модель, способная обрабатывать текст, аудио и видео в реальном времени с низкой задержкой^[1].
Claude 3.5 Sonnet (Anthropic, 2024) — модель с улучшенными способностями к анализу визуальной информации.

Архитектурные подходы

Двухэнкодерная архитектура (Dual-Encoder)

Использует отдельные энкодеры для каждой модальности, которые проецируют данные в общее пространство представлений. Ярким представителем является CLIP, где визуальный трансформер обрабатывает изображения, а текстовый — языковые данные. Преимуществами являются модульность и вычислительная эффективность, недостатком — ограниченное кросс-модальное взаимодействие^[7].

Архитектура энкодер-декодер

Единый энкодер обрабатывает мультимодальный вход, а декодер генерирует текстовый выход. Модель Flamingo использует механизм Perceiver Resampler для обработки визуальных входов переменной длины и кросс-модальные слои внимания. Этот подход обеспечивает богатое межмодальное взаимодействие, но требует больших вычислительных ресурсов^[8].

Архитектура выравнивания (Alignment)

Этот подход использует замороженные предобученные энкодеры, соединённые через небольшой обучаемый модуль выравнивания. Например, BLIP-2 использует Q-Former (Querying Transformer) как лёгкий связующий элемент между замороженным визуальным энкодером и языковой моделью, требуя значительно меньше обучаемых параметров^[9].

Основные модели

GPT-4V / GPT-4o (OpenAI)

Семейство моделей GPT-4, по оценкам, насчитывает до 1,8 триллиона параметров (в архитектуре смеси экспертов). Модель GPT-4o, выпущенная в мае 2024, поддерживает обработку текста, изображений, аудио и видео в реальном времени. На бенчмарке MMMU она достигает 69,1% точности^[10].

Gemini (Google)

Нативно мультимодальная архитектура, обученная с нуля на тексте, изображениях, аудио и видео. Gemini 1.5 Pro поддерживает контекстное окно до 10 миллионов токенов и превосходит GPT-4 на 30 из 32 популярных бенчмарков^[11].

Claude 3 (Anthropic)

Семейство моделей (Haiku, Sonnet, Opus) с контекстным окном до 200 000 токенов. Claude 3 Opus показывает 58,5% на бенчмарке MMMU. Для повышения безопасности модели используется подход Constitutional AI^[12].

LLaVA (открытая модель)

Комбинирует визуальный энкодер CLIP с языковой моделью Vicuna. Доступны варианты с 7, 13 и 34 миллиардами параметров. Модель достигает 85,1% относительной производительности GPT-4 на синтетических задачах^[13].

Области применения

Визуальные вопросы-ответы (VQA): Позволяют пользователям задавать вопросы о визуальном контенте.
Анализ документов: Современные MLLM способны обрабатывать до 2000 страниц в минуту.
Медицинская визуализация: Модели, такие как Med-PaLM M (Google), анализируют медицинские изображения и клинические данные.
Робототехника: Модели, как RT-2 (Google DeepMind), позволяют роботам понимать визуальную среду и выполнять команды на естественном языке.

Текущие ограничения

Галлюцинации: Уровень галлюцинаций в генерируемом контенте оценивается в 27–46%. Модели могут описывать несуществующие объекты или неверно интерпретировать визуальную информацию^[14].
Высокие вычислительные требования: Обучение и использование MLLM требует значительной вычислительной инфраструктуры.
Предвзятость данных: Недостаточная представленность демографических групп, языков и культур в обучающих данных приводит к систематическим ошибкам.

Ссылки

Литература

Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020.
Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198.
Li, J. et al. (2022). BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086.
Li, J. et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597.
Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485.
Driess, K. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
Brohan, A. et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arXiv:2311.16502.
Tsimpoukelli, M. et al. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884.
Singhal, K. et al. (2023). Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
Yin, S. et al. (2023). A Survey on Multimodal Large Language Models. arXiv:2306.13549.

Примечания

↑ ^1,0 ^1,1 «A Comprehensive Guide to Multimodal LLMs». Encord Blog. [1]
↑ «A Survey on Multimodal Large Language Models». ACM Computing Surveys. [2]
↑ Radford, A., et al. «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. [3]
↑ DeOldify, J. «Zero-Shot Learning by Predicting Attributes». arXiv:1312.5650. [4]
↑ «Learning from captions: A milestone in visual language understanding». OpenAI Blog. [5]
↑ «Understanding CLIP». Stanford CS231n. [6]
↑ «Multimodal LLMs: The Complete Guide». Viso.ai. [7]
↑ «The Architectures of Multimodal Language Models». Determined AI. [8]
↑ «Understanding BLIP-2: The New Vision-Language Model». Clarifai Blog. [9]
↑ «MMMU: A New Benchmark for Multimodal LLMs». Encord Blog. [10]
↑ «Google Gemini: A Deep Dive». DaveAI Blog. [11]
↑ «Introducing the Claude 3 Family». Anthropic. [12]
↑ Liu, H., et al. «Visual Instruction Tuning». arXiv:2304.08485. [13]
↑ «Hallucinations in Multimodal Large Language Models». arXiv:2308.08726. [14]

[encord_intro-1] 1,0 ^1,1 «A Comprehensive Guide to Multimodal LLMs». Encord Blog. [1]

[acm_survey-2] «A Survey on Multimodal Large Language Models». ACM Computing Surveys. [2]

[radford2021-3] Radford, A., et al. «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. [3]

[deoldify2013-4] DeOldify, J. «Zero-Shot Learning by Predicting Attributes». arXiv:1312.5650. [4]

[openai_fair_2016-5] «Learning from captions: A milestone in visual language understanding». OpenAI Blog. [5]

[stanford_cs_clip-6] «Understanding CLIP». Stanford CS231n. [6]

[viso_ai_mllm-7] «Multimodal LLMs: The Complete Guide». Viso.ai. [7]

[determined_ai_arch-8] «The Architectures of Multimodal Language Models». Determined AI. [8]

[clarifai_blip2-9] «Understanding BLIP-2: The New Vision-Language Model». Clarifai Blog. [9]

[encord_mmmu_perf-10] «MMMU: A New Benchmark for Multimodal LLMs». Encord Blog. [10]

[daveai_gemini-11] «Google Gemini: A Deep Dive». DaveAI Blog. [11]

[anthropic_claude3-12] «Introducing the Claude 3 Family». Anthropic. [12]

[llava_paper-13] Liu, H., et al. «Visual Instruction Tuning». arXiv:2304.08485. [13]

[arxiv_hallucinations-14] «Hallucinations in Multimodal Large Language Models». arXiv:2308.08726. [14]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Мультимодальные LLM

Содержание

История развития

Ранний период (2013–2020)

Эра CLIP (2021)

Масштабирование и инновации (2022–2024)

Архитектурные подходы

Двухэнкодерная архитектура (Dual-Encoder)

Архитектура энкодер-декодер

Архитектура выравнивания (Alignment)

Основные модели

GPT-4V / GPT-4o (OpenAI)

Gemini (Google)

Claude 3 (Anthropic)

LLaVA (открытая модель)

Области применения

Текущие ограничения

Ссылки

Литература

Примечания

Навигация

Мультимодальные LLM

История развития

Ранний период (2013–2020)

Эра CLIP (2021)

Масштабирование и инновации (2022–2024)

Архитектурные подходы

Двухэнкодерная архитектура (Dual-Encoder)

Архитектура энкодер-декодер

Архитектура выравнивания (Alignment)

Основные модели

GPT-4V / GPT-4o (OpenAI)

Gemini (Google)

Claude 3 (Anthropic)

LLaVA (открытая модель)

Области применения

Текущие ограничения

Ссылки

Литература

Примечания

Навигация

Поиск