Decoder-only
Модели только-декодер (англ. Decoder-Only Models) — это доминирующий класс архитектур больших языковых моделей (LLM), основанных исключительно на декодирующей части (декодере) архитектуры Трансформер. Эти модели специализируются на задачах генерации текста и являются основой для большинства современных чат-ботов и AI-ассистентов.
Флагманской линейкой, популяризовавшей этот подход, является серия моделей GPT от OpenAI.
Концепция и архитектура
Основная идея моделей только-декодер заключается в авторегрессионной генерации последовательностей. Это означает, что модель предсказывает следующий токен, основываясь на всех предыдущих токенах, которые были сгенерированы до этого. Входной промпт (запрос пользователя) и уже сгенерированный текст рассматриваются как единая последовательность, которую модель продолжает.
Архитектурно, модель представляет собой стек из идентичных слоёв декодера. Каждый слой, в отличие от энкодера или полного декодера, содержит только два основных подслоя:
- Маскированное многоголовое самовнимание (Masked Multi-Head Self-Attention): Это ключевой механизм, обеспечивающий авторегрессионное свойство. Во время обработки последовательности специальная каузальная маска (causal mask) не позволяет каждому токену «смотреть» на последующие токены. Таким образом, предсказание для позиции зависит только от токенов на позициях .
- Полносвязная нейронная сеть (Feed-Forward Network): Применяет нелинейное преобразование к представлению каждого токена.
В моделях только-декодер отсутствует механизм перекрёстного внимания (cross-attention), так как нет энкодера, на который можно было бы «обращать внимание».
Задачи предварительного обучения
Модели только-декодер обучаются на одной, но очень мощной самоконтролируемой задаче:
Каузальное языковое моделирование (Causal Language Modeling, CLM)
- Принцип работы: Модель обучается предсказывать следующий токен в последовательности. На каждом шаге обучения она получает на вход фрагмент текста и должна сгенерировать распределение вероятностей для следующего токена.
- Цель: Максимизировать вероятность правильного следующего токена на огромных объёмах текстовых данных. Эта простая, на первый взгляд, задача заставляет модель изучать грамматику, синтаксис, факты о мире и сложные закономерности языка.
Применение
Благодаря своей авторегрессионной природе, модели только-декодер идеально подходят для любых задач, требующих генерации текста:
- Генерация текста в свободном виде: Написание статей, стихов, сценариев и т.д.
- Диалоговые системы и чат-боты: Ответы на вопросы пользователей в разговорном стиле.
- Суммаризация: Создание краткого содержания длинных текстов.
- Машинный перевод: Хотя для этого часто используются модели энкодер-декодер, модели только-декодер также могут справляться с переводом, если задача сформулирована в промпте (например, «Переведи с английского на русский: ...»).
- Написание кода: Генерация кода по текстовому описанию.
- Обучение в контексте (In-context learning): Благодаря масштабу, большие модели-декодеры демонстрируют способность решать новые задачи, получив всего несколько примеров (few-shot) или даже без них (zero-shot) прямо в промпте, без необходимости дообучения (fine-tuning).
Основные модели и их эволюция
- Серия GPT (2018-н.в.): Пионеры и популяризаторы подхода. GPT-1 показал эффективность предобучения, GPT-2 продемонстрировал мощь масштабирования, а GPT-3 — появление few-shot способностей. ChatGPT и GPT-4 сделали эту архитектуру стандартом для AI-ассистентов.
- LLaMA (2023-н.в.): Серия открытых моделей от Meta, которая демократизировала доступ к мощным LLM и стимулировала волну инноваций в сообществе.
- Claude (2023-н.в.): Семейство моделей от Anthropic, сфокусированное на безопасности и управляемости с помощью Constitutional AI.
- PaLM и Gemini (2022-н.в.): Флагманские модели Google. Gemini также является нативно мультимодальной моделью только-декодер.
Сравнение с другими архитектурами
| Архитектура | Основная задача | Направление контекста | Типичные модели |
|---|---|---|---|
| Только-декодер | Генерация текста | Однонаправленное (слева направо) | GPT, LLaMA, Claude, Gemini |
| Только-энкодер | Понимание текста | Двунаправленное | BERT, RoBERTa |
| Энкодер-декодер | Преобразование последовательности в последовательность | Двунаправленное (энкодер) + Однонаправленное (декодер) | T5, BART, оригинальный Transformer |
См. также