Теоретические основы LLM
Теоретические основы больших языковых моделей (на основе архитектуры трансформеров) — это совокупность математических, статистических и информационно-теоретических принципов, которые лежат в основе функционирования, обучения и возможностей современных больших языковых моделей (LLM). Эти основы объясняют, как модели, построенные на архитектуре Трансформер, способны понимать и генерировать человеческий язык с высокой степенью когерентности.
Архитектурные основы: архитектура Трансформер
Современные LLM почти полностью основаны на архитектуре Трансформер, представленной в 2017 году в статье «Attention Is All You Need». Эта архитектура отказалась от рекуррентных слоёв (как в RNN и LSTM), сделав ставку на механизм внимания (attention), что позволило эффективно обрабатывать длинные последовательности и распараллеливать вычисления.
Механизм самовнимания (Self-Attention)
Это ядро архитектуры Трансформер. Механизм самовнимания позволяет модели взвешивать важность каждого слова (токена) в последовательности относительно всех остальных слов в той же последовательности. Для каждого токена создаются три вектора:
- Query (Q, Запрос): вектор, представляющий текущее слово.
- Key (K, Ключ): вектор, с которым сравниваются запросы от других слов.
- Value (V, Значение): вектор, содержащий информацию о слове, которая будет передана дальше.
Оценка внимания вычисляется как масштабированное скалярное произведение:
где — размерность векторов ключей. Этот механизм позволяет модели улавливать сложные контекстуальные зависимости, независимо от расстояния между словами.
Многоголовое внимание (Multi-Head Attention) — это параллельное выполнение нескольких таких вычислений с разными матрицами проекций, что позволяет модели одновременно фокусироваться на разных аспектах синтаксиса и семантики.
Типы архитектур на основе Трансформера
Существует три основных варианта использования компонентов Трансформера:
- Энкодер-декодер (Encoder-Decoder): Классическая архитектура для задач преобразования последовательности в последовательность (например, машинный перевод). Энкодер обрабатывает входную последовательность, а декодер генерирует выходную. Примеры: T5, BART.
- Только энкодер (Encoder-Only): Модели, использующие только стек энкодеров. Они отлично подходят для задач, требующих глубокого понимания контекста всей последовательности (классификация текста, распознавание именованных сущностей). Пример: BERT.
- Только декодер (Decoder-Only): Модели, использующие только стек декодеров. Они работают авторегрессионно, предсказывая следующий токен на основе предыдущих. Это стандарт для генеративных моделей. Примеры: GPT, LLaMA, Claude.
Позиционное кодирование
Поскольку механизм самовнимания не учитывает порядок слов, в архитектуру добавляется позиционное кодирование. К эмбеддингам токенов прибавляются векторы, кодирующие их позицию в последовательности. В оригинальной модели использовались синусоидальные функции:
В современных моделях также используются обучаемые и ротационные (Rotary Position Embeddings, RoPE) позиционные кодировки.
Принципы обучения: от вероятности к оптимизации
Языковое моделирование как вероятностная задача
В основе LLM лежит задача языкового моделирования — предсказание вероятности последовательности текста. Формально, для последовательности модель оценивает вероятность . С помощью цепного правила вероятностей это раскладывается в произведение условных вероятностей:
Таким образом, обучение модели сводится к предсказанию следующего токена на основе контекста из предыдущих токенов.
Функция потерь и теория информации
Для оценки качества предсказаний и обучения модели используется кросс-энтропийная функция потерь. Она измеряет расхождение между вероятностным распределением, предсказанным моделью (), и истинным распределением (), где правильный следующий токен имеет вероятность 1, а остальные — 0.
Минимизация кросс-энтропии эквивалентна максимизации правдоподобия обучающих данных.
Связанной метрикой качества является перплексия, которая определяется как экспонента от кросс-энтропии: . Интуитивно, перплексия показывает среднее число вариантов, из которых модель «выбирает» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель.
Оптимизация
Обучение LLM — это процесс минимизации функции потерь путем корректировки миллиардов параметров модели. Для этого используются методы, основанные на градиентном спуске. Наиболее распространенным является оптимизатор Adam (Adaptive Moment Estimation) и его варианты (например, AdamW), которые адаптивно подбирают скорость обучения для каждого параметра.
Парадигмы обучения
- Предварительное обучение (Pre-training): Модель обучается на огромных неразмеченных текстовых корпусах (Common Crawl, The Pile, C4) с использованием самоконтролируемых задач, таких как:
- Каузальное языковое моделирование (CLM): Предсказание следующего токена (используется в GPT).
- Маскированное языковое моделирование (MLM): Восстановление случайно замаскированных токенов в тексте (используется в BERT).
- Дообучение (Fine-tuning): После предварительного обучения модель адаптируется к конкретным задачам на небольших размеченных наборах данных.
- Выравнивание (Alignment): Специальный этап дообучения, направленный на согласование поведения модели с человеческими предпочтениями и ценностями. Ключевой метод — RLHF (Reinforcement Learning from Human Feedback), где модель дообучается с использованием сигнала-вознаграждения от модели, предсказывающей человеческие предпочтения.
Законы масштабирования и эмерджентные способности
Эмпирические исследования показали, что производительность LLM предсказуемо улучшается с увеличением трех факторов: размера модели (числа параметров, ), размера обучающего набора данных () и объёма вычислений (). Эта зависимость описывается степенными законами (scaling laws).
Закон, предложенный в работе OpenAI (Kaplan et al., 2020), показывает, что функция потерь убывает как степенная функция от , и . Более поздняя работа DeepMind (Hoffmann et al., 2022) уточнила эти законы (законы Chinchilla), показав, что для оптимального обучения необходимо сбалансированно увеличивать как размер модели, так и объём данных.
Важным следствием масштабирования является появление эмерджентных способностей — качественных скачков в производительности, когда модель начинает решать задачи, которым её явно не обучали (например, арифметика, логические рассуждения, написание кода). Эти способности, как правило, отсутствуют у моделей меньшего размера и проявляются только после достижения определённого порога масштаба.
Генерация текста: стратегии декодирования
После обучения модель генерирует текст, итеративно предсказывая следующий токен. Выбор следующего токена из вероятностного распределения, выданного моделью, осуществляется с помощью различных стратегий декодирования:
- Жадный поиск (Greedy Search): Всегда выбирается самый вероятный токен. Быстро, но часто приводит к повторяющемуся и скучному тексту.
- Лучевой поиск (Beam Search): На каждом шаге сохраняется наиболее вероятных последовательностей, что позволяет находить более оптимальные глобальные решения.
- Сэмплирование с температурой: Вероятности токенов корректируются параметром температуры (). При распределение становится более равномерным (больше креативности), при — более пиковым (меньше случайности).
- Top-k сэмплирование: На каждом шаге выборка ограничивается наиболее вероятными токенами.
- Top-p (Nucleus) сэмплирование: Выборка ограничивается минимальным набором токенов, чья суммарная вероятность превышает порог . Это позволяет динамически адаптировать размер пула кандидатов.
Теоретические проблемы и ограничения
- Галлюцинации: Склонность моделей генерировать фактически неверную, но правдоподобно звучащую информацию. Это связано с тем, что модели оптимизируют вероятность текста, а не его истинность.
- Предвзятость (Bias): LLM наследуют и усиливают социальные, культурные и другие предвзятости, присутствующие в обучающих данных.
- Интерпретируемость («чёрный ящик»): Из-за огромного числа параметров крайне сложно понять, как именно модель принимает решения, что затрудняет отладку и создаёт риски.
- Вычислительная сложность: Механизм самовнимания имеет квадратичную сложность по длине последовательности (), что ограничивает максимальную длину обрабатываемого контекста.
См. также
Литература
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
- Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
- Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
- Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.