Decoder-only

Модели только-декодер (англ. Decoder-Only Models) — это доминирующий класс архитектур больших языковых моделей (LLM), основанных исключительно на декодирующей части (декодере) архитектуры Трансформер. Эти модели специализируются на задачах генерации текста и являются основой для большинства современных чат-ботов и AI-ассистентов.

Флагманской линейкой, популяризовавшей этот подход, является серия моделей GPT от OpenAI.

Концепция и архитектура

Основная идея моделей только-декодер заключается в авторегрессионной генерации последовательностей. Это означает, что модель предсказывает следующий токен, основываясь на всех предыдущих токенах, которые были сгенерированы до этого. Входной промпт (запрос пользователя) и уже сгенерированный текст рассматриваются как единая последовательность, которую модель продолжает.

Архитектурно, модель представляет собой стек из $N$ идентичных слоёв декодера. Каждый слой, в отличие от энкодера или полного декодера, содержит только два основных подслоя:

Маскированное многоголовое самовнимание (Masked Multi-Head Self-Attention): Это ключевой механизм, обеспечивающий авторегрессионное свойство. Во время обработки последовательности специальная каузальная маска (causal mask) не позволяет каждому токену «смотреть» на последующие токены. Таким образом, предсказание для позиции $i$ зависит только от токенов на позициях $< i$ .
Полносвязная нейронная сеть (Feed-Forward Network): Применяет нелинейное преобразование к представлению каждого токена.

В моделях только-декодер отсутствует механизм перекрёстного внимания (cross-attention), так как нет энкодера, на который можно было бы «обращать внимание».

Задачи предварительного обучения

Модели только-декодер обучаются на одной, но очень мощной самоконтролируемой задаче:

Каузальное языковое моделирование (Causal Language Modeling, CLM)

Принцип работы: Модель обучается предсказывать следующий токен в последовательности. На каждом шаге обучения она получает на вход фрагмент текста и должна сгенерировать распределение вероятностей для следующего токена.
Цель: Максимизировать вероятность правильного следующего токена на огромных объёмах текстовых данных. Эта простая, на первый взгляд, задача заставляет модель изучать грамматику, синтаксис, факты о мире и сложные закономерности языка.

Применение

Благодаря своей авторегрессионной природе, модели только-декодер идеально подходят для любых задач, требующих генерации текста:

Генерация текста в свободном виде: Написание статей, стихов, сценариев и т.д.
Диалоговые системы и чат-боты: Ответы на вопросы пользователей в разговорном стиле.
Суммаризация: Создание краткого содержания длинных текстов.
Машинный перевод: Хотя для этого часто используются модели энкодер-декодер, модели только-декодер также могут справляться с переводом, если задача сформулирована в промпте (например, «Переведи с английского на русский: ...»).
Написание кода: Генерация кода по текстовому описанию.
Обучение в контексте (In-context learning): Благодаря масштабу, большие модели-декодеры демонстрируют способность решать новые задачи, получив всего несколько примеров (few-shot) или даже без них (zero-shot) прямо в промпте, без необходимости дообучения (fine-tuning).

Основные модели и их эволюция

Серия GPT (2018-н.в.): Пионеры и популяризаторы подхода. GPT-1 показал эффективность предобучения, GPT-2 продемонстрировал мощь масштабирования, а GPT-3 — появление few-shot способностей. ChatGPT и GPT-4 сделали эту архитектуру стандартом для AI-ассистентов.
LLaMA (2023-н.в.): Серия открытых моделей от Meta, которая демократизировала доступ к мощным LLM и стимулировала волну инноваций в сообществе.
Claude (2023-н.в.): Семейство моделей от Anthropic, сфокусированное на безопасности и управляемости с помощью Constitutional AI.
PaLM и Gemini (2022-н.в.): Флагманские модели Google. Gemini также является нативно мультимодальной моделью только-декодер.

Сравнение с другими архитектурами

Сравнение ключевых архитектур на основе Трансформера
Архитектура	Основная задача	Направление контекста	Типичные модели
Только-декодер	Генерация текста	Однонаправленное (слева направо)	GPT, LLaMA, Claude, Gemini
Только-энкодер	Понимание текста	Двунаправленное	BERT, RoBERTa
Энкодер-декодер	Преобразование последовательности в последовательность	Двунаправленное (энкодер) + Однонаправленное (декодер)	T5, BART, оригинальный Transformer

См. также

GPT

Decoder-only

Содержание

Концепция и архитектура

Задачи предварительного обучения

Каузальное языковое моделирование (Causal Language Modeling, CLM)

Применение

Основные модели и их эволюция

Сравнение с другими архитектурами

См. также

Навигация

Decoder-only

Концепция и архитектура

Задачи предварительного обучения

Каузальное языковое моделирование (Causal Language Modeling, CLM)

Применение

Основные модели и их эволюция

Сравнение с другими архитектурами

См. также

Навигация

Поиск