Decoder-only

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Модели только-декодер (англ. Decoder-Only Models) — это доминирующий класс архитектур больших языковых моделей (LLM), основанных исключительно на декодирующей части (декодере) архитектуры Трансформер. Эти модели специализируются на задачах генерации текста и являются основой для большинства современных чат-ботов и AI-ассистентов.

Флагманской линейкой, популяризовавшей этот подход, является серия моделей GPT от OpenAI.

Концепция и архитектура

Основная идея моделей только-декодер заключается в авторегрессионной генерации последовательностей. Это означает, что модель предсказывает следующий токен, основываясь на всех предыдущих токенах, которые были сгенерированы до этого. Входной промпт (запрос пользователя) и уже сгенерированный текст рассматриваются как единая последовательность, которую модель продолжает.

Архитектурно, модель представляет собой стек из N идентичных слоёв декодера. Каждый слой, в отличие от энкодера или полного декодера, содержит только два основных подслоя:

  1. Маскированное многоголовое самовнимание (Masked Multi-Head Self-Attention): Это ключевой механизм, обеспечивающий авторегрессионное свойство. Во время обработки последовательности специальная каузальная маска (causal mask) не позволяет каждому токену «смотреть» на последующие токены. Таким образом, предсказание для позиции i зависит только от токенов на позициях <i.
  2. Полносвязная нейронная сеть (Feed-Forward Network): Применяет нелинейное преобразование к представлению каждого токена.

В моделях только-декодер отсутствует механизм перекрёстного внимания (cross-attention), так как нет энкодера, на который можно было бы «обращать внимание».

Задачи предварительного обучения

Модели только-декодер обучаются на одной, но очень мощной самоконтролируемой задаче:

Каузальное языковое моделирование (Causal Language Modeling, CLM)

  • Принцип работы: Модель обучается предсказывать следующий токен в последовательности. На каждом шаге обучения она получает на вход фрагмент текста и должна сгенерировать распределение вероятностей для следующего токена.
  • Цель: Максимизировать вероятность правильного следующего токена на огромных объёмах текстовых данных. Эта простая, на первый взгляд, задача заставляет модель изучать грамматику, синтаксис, факты о мире и сложные закономерности языка.

Применение

Благодаря своей авторегрессионной природе, модели только-декодер идеально подходят для любых задач, требующих генерации текста:

  • Генерация текста в свободном виде: Написание статей, стихов, сценариев и т.д.
  • Диалоговые системы и чат-боты: Ответы на вопросы пользователей в разговорном стиле.
  • Суммаризация: Создание краткого содержания длинных текстов.
  • Машинный перевод: Хотя для этого часто используются модели энкодер-декодер, модели только-декодер также могут справляться с переводом, если задача сформулирована в промпте (например, «Переведи с английского на русский: ...»).
  • Написание кода: Генерация кода по текстовому описанию.
  • Обучение в контексте (In-context learning): Благодаря масштабу, большие модели-декодеры демонстрируют способность решать новые задачи, получив всего несколько примеров (few-shot) или даже без них (zero-shot) прямо в промпте, без необходимости дообучения (fine-tuning).

Основные модели и их эволюция

  • Серия GPT (2018-н.в.): Пионеры и популяризаторы подхода. GPT-1 показал эффективность предобучения, GPT-2 продемонстрировал мощь масштабирования, а GPT-3 — появление few-shot способностей. ChatGPT и GPT-4 сделали эту архитектуру стандартом для AI-ассистентов.
  • LLaMA (2023-н.в.): Серия открытых моделей от Meta, которая демократизировала доступ к мощным LLM и стимулировала волну инноваций в сообществе.
  • Claude (2023-н.в.): Семейство моделей от Anthropic, сфокусированное на безопасности и управляемости с помощью Constitutional AI.
  • PaLM и Gemini (2022-н.в.): Флагманские модели Google. Gemini также является нативно мультимодальной моделью только-декодер.

Сравнение с другими архитектурами

Сравнение ключевых архитектур на основе Трансформера
Архитектура Основная задача Направление контекста Типичные модели
Только-декодер Генерация текста Однонаправленное (слева направо) GPT, LLaMA, Claude, Gemini
Только-энкодер Понимание текста Двунаправленное BERT, RoBERTa
Энкодер-декодер Преобразование последовательности в последовательность Двунаправленное (энкодер) + Однонаправленное (декодер) T5, BART, оригинальный Transformer

См. также