Теоретические основы LLM

Теоретические основы больших языковых моделей (на основе архитектуры трансформеров) — это совокупность математических, статистических и информационно-теоретических принципов, которые лежат в основе функционирования, обучения и возможностей современных больших языковых моделей (LLM). Эти основы объясняют, как модели, построенные на архитектуре Трансформер, способны понимать и генерировать человеческий язык с высокой степенью когерентности.

Архитектурные основы: архитектура Трансформер

Современные LLM почти полностью основаны на архитектуре Трансформер, представленной в 2017 году в статье «Attention Is All You Need». Эта архитектура отказалась от рекуррентных слоёв (как в RNN и LSTM), сделав ставку на механизм внимания (attention), что позволило эффективно обрабатывать длинные последовательности и распараллеливать вычисления.

Механизм самовнимания (Self-Attention)

Это ядро архитектуры Трансформер. Механизм самовнимания позволяет модели взвешивать важность каждого слова (токена) в последовательности относительно всех остальных слов в той же последовательности. Для каждого токена создаются три вектора:

Query (Q, Запрос): вектор, представляющий текущее слово.
Key (K, Ключ): вектор, с которым сравниваются запросы от других слов.
Value (V, Значение): вектор, содержащий информацию о слове, которая будет передана дальше.

Оценка внимания вычисляется как масштабированное скалярное произведение:

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

где $d_{k}$ — размерность векторов ключей. Этот механизм позволяет модели улавливать сложные контекстуальные зависимости, независимо от расстояния между словами.

Многоголовое внимание (Multi-Head Attention) — это параллельное выполнение нескольких таких вычислений с разными матрицами проекций, что позволяет модели одновременно фокусироваться на разных аспектах синтаксиса и семантики.

Типы архитектур на основе Трансформера

Существует три основных варианта использования компонентов Трансформера:

Энкодер-декодер (Encoder-Decoder): Классическая архитектура для задач преобразования последовательности в последовательность (например, машинный перевод). Энкодер обрабатывает входную последовательность, а декодер генерирует выходную. Примеры: T5, BART.
Только энкодер (Encoder-Only): Модели, использующие только стек энкодеров. Они отлично подходят для задач, требующих глубокого понимания контекста всей последовательности (классификация текста, распознавание именованных сущностей). Пример: BERT.
Только декодер (Decoder-Only): Модели, использующие только стек декодеров. Они работают авторегрессионно, предсказывая следующий токен на основе предыдущих. Это стандарт для генеративных моделей. Примеры: GPT, LLaMA, Claude.

Позиционное кодирование

Поскольку механизм самовнимания не учитывает порядок слов, в архитектуру добавляется позиционное кодирование. К эмбеддингам токенов прибавляются векторы, кодирующие их позицию в последовательности. В оригинальной модели использовались синусоидальные функции:

PE (pos, 2 i) = \sin (pos / 1000 0^{2 i / d_{model}})

PE (pos, 2 i + 1) = \cos (pos / 1000 0^{2 i / d_{model}})

В современных моделях также используются обучаемые и ротационные (Rotary Position Embeddings, RoPE) позиционные кодировки.

Принципы обучения: от вероятности к оптимизации

Языковое моделирование как вероятностная задача

В основе LLM лежит задача языкового моделирования — предсказание вероятности последовательности текста. Формально, для последовательности $X = (x_{1}, x_{2}, \dots, x_{T})$ модель оценивает вероятность $P (X)$ . С помощью цепного правила вероятностей это раскладывается в произведение условных вероятностей:

P (X) = \prod_{t = 1}^{T} P (x_{t} | x_{1}, \dots, x_{t - 1})

Таким образом, обучение модели сводится к предсказанию следующего токена $x_{t}$ на основе контекста из предыдущих токенов.

Функция потерь и теория информации

Для оценки качества предсказаний и обучения модели используется кросс-энтропийная функция потерь. Она измеряет расхождение между вероятностным распределением, предсказанным моделью ( $q$ ), и истинным распределением ( $p$ ), где правильный следующий токен имеет вероятность 1, а остальные — 0.

H (p, q) = - \sum_{i} p (i) \log q (i)

Минимизация кросс-энтропии эквивалентна максимизации правдоподобия обучающих данных.

Связанной метрикой качества является перплексия, которая определяется как экспонента от кросс-энтропии: $Perplexity = 2^{H (p, q)}$ . Интуитивно, перплексия показывает среднее число вариантов, из которых модель «выбирает» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель.

Оптимизация

Обучение LLM — это процесс минимизации функции потерь путем корректировки миллиардов параметров модели. Для этого используются методы, основанные на градиентном спуске. Наиболее распространенным является оптимизатор Adam (Adaptive Moment Estimation) и его варианты (например, AdamW), которые адаптивно подбирают скорость обучения для каждого параметра.

Парадигмы обучения

Предварительное обучение (Pre-training): Модель обучается на огромных неразмеченных текстовых корпусах (Common Crawl, The Pile, C4) с использованием самоконтролируемых задач, таких как:
- Каузальное языковое моделирование (CLM): Предсказание следующего токена (используется в GPT).
- Маскированное языковое моделирование (MLM): Восстановление случайно замаскированных токенов в тексте (используется в BERT).
Дообучение (Fine-tuning): После предварительного обучения модель адаптируется к конкретным задачам на небольших размеченных наборах данных.
Выравнивание (Alignment): Специальный этап дообучения, направленный на согласование поведения модели с человеческими предпочтениями и ценностями. Ключевой метод — RLHF (Reinforcement Learning from Human Feedback), где модель дообучается с использованием сигнала-вознаграждения от модели, предсказывающей человеческие предпочтения.

Законы масштабирования и эмерджентные способности

Эмпирические исследования показали, что производительность LLM предсказуемо улучшается с увеличением трех факторов: размера модели (числа параметров, $N$ ), размера обучающего набора данных ( $D$ ) и объёма вычислений ( $C$ ). Эта зависимость описывается степенными законами (scaling laws).

Закон, предложенный в работе OpenAI (Kaplan et al., 2020), показывает, что функция потерь $L$ убывает как степенная функция от $N$ , $D$ и $C$ . Более поздняя работа DeepMind (Hoffmann et al., 2022) уточнила эти законы (законы Chinchilla), показав, что для оптимального обучения необходимо сбалансированно увеличивать как размер модели, так и объём данных.

Важным следствием масштабирования является появление эмерджентных способностей — качественных скачков в производительности, когда модель начинает решать задачи, которым её явно не обучали (например, арифметика, логические рассуждения, написание кода). Эти способности, как правило, отсутствуют у моделей меньшего размера и проявляются только после достижения определённого порога масштаба.

Генерация текста: стратегии декодирования

После обучения модель генерирует текст, итеративно предсказывая следующий токен. Выбор следующего токена из вероятностного распределения, выданного моделью, осуществляется с помощью различных стратегий декодирования:

Жадный поиск (Greedy Search): Всегда выбирается самый вероятный токен. Быстро, но часто приводит к повторяющемуся и скучному тексту.
Лучевой поиск (Beam Search): На каждом шаге сохраняется $k$ наиболее вероятных последовательностей, что позволяет находить более оптимальные глобальные решения.
Сэмплирование с температурой: Вероятности токенов корректируются параметром температуры ( $T$ ). При $T > 1$ распределение становится более равномерным (больше креативности), при $T < 1$ — более пиковым (меньше случайности).
Top-k сэмплирование: На каждом шаге выборка ограничивается $k$ наиболее вероятными токенами.
Top-p (Nucleus) сэмплирование: Выборка ограничивается минимальным набором токенов, чья суммарная вероятность превышает порог $p$ . Это позволяет динамически адаптировать размер пула кандидатов.

Теоретические проблемы и ограничения

Галлюцинации: Склонность моделей генерировать фактически неверную, но правдоподобно звучащую информацию. Это связано с тем, что модели оптимизируют вероятность текста, а не его истинность.
Предвзятость (Bias): LLM наследуют и усиливают социальные, культурные и другие предвзятости, присутствующие в обучающих данных.
Интерпретируемость («чёрный ящик»): Из-за огромного числа параметров крайне сложно понять, как именно модель принимает решения, что затрудняет отладку и создаёт риски.
Вычислительная сложность: Механизм самовнимания имеет квадратичную сложность по длине последовательности ( $O (n^{2})$ ), что ограничивает максимальную длину обрабатываемого контекста.

См. также

Литература

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.

Теоретические основы LLM

Содержание

Архитектурные основы: архитектура Трансформер

Механизм самовнимания (Self-Attention)

Типы архитектур на основе Трансформера

Позиционное кодирование

Принципы обучения: от вероятности к оптимизации

Языковое моделирование как вероятностная задача

Функция потерь и теория информации

Оптимизация

Парадигмы обучения

Законы масштабирования и эмерджентные способности

Генерация текста: стратегии декодирования

Теоретические проблемы и ограничения

См. также

Литература

Навигация

Теоретические основы LLM

Архитектурные основы: архитектура Трансформер

Механизм самовнимания (Self-Attention)

Типы архитектур на основе Трансформера

Позиционное кодирование

Принципы обучения: от вероятности к оптимизации

Языковое моделирование как вероятностная задача

Функция потерь и теория информации

Оптимизация

Парадигмы обучения

Законы масштабирования и эмерджентные способности

Генерация текста: стратегии декодирования

Теоретические проблемы и ограничения

См. также

Литература

Навигация

Поиск