Теоретические основы LLM

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Теоретические основы больших языковых моделей (на основе архитектуры трансформеров) — это совокупность математических, статистических и информационно-теоретических принципов, которые лежат в основе функционирования, обучения и возможностей современных больших языковых моделей (LLM). Эти основы объясняют, как модели, построенные на архитектуре Трансформер, способны понимать и генерировать человеческий язык с высокой степенью когерентности.

Архитектурные основы: архитектура Трансформер

Современные LLM почти полностью основаны на архитектуре Трансформер, представленной в 2017 году в статье «Attention Is All You Need». Эта архитектура отказалась от рекуррентных слоёв (как в RNN и LSTM), сделав ставку на механизм внимания (attention), что позволило эффективно обрабатывать длинные последовательности и распараллеливать вычисления.

Механизм самовнимания (Self-Attention)

Это ядро архитектуры Трансформер. Механизм самовнимания позволяет модели взвешивать важность каждого слова (токена) в последовательности относительно всех остальных слов в той же последовательности. Для каждого токена создаются три вектора:

  • Query (Q, Запрос): вектор, представляющий текущее слово.
  • Key (K, Ключ): вектор, с которым сравниваются запросы от других слов.
  • Value (V, Значение): вектор, содержащий информацию о слове, которая будет передана дальше.

Оценка внимания вычисляется как масштабированное скалярное произведение:

Attention(Q,K,V)=softmax(QKTdk)V

где dk — размерность векторов ключей. Этот механизм позволяет модели улавливать сложные контекстуальные зависимости, независимо от расстояния между словами.

Многоголовое внимание (Multi-Head Attention) — это параллельное выполнение нескольких таких вычислений с разными матрицами проекций, что позволяет модели одновременно фокусироваться на разных аспектах синтаксиса и семантики.

Типы архитектур на основе Трансформера

Существует три основных варианта использования компонентов Трансформера:

  1. Энкодер-декодер (Encoder-Decoder): Классическая архитектура для задач преобразования последовательности в последовательность (например, машинный перевод). Энкодер обрабатывает входную последовательность, а декодер генерирует выходную. Примеры: T5, BART.
  2. Только энкодер (Encoder-Only): Модели, использующие только стек энкодеров. Они отлично подходят для задач, требующих глубокого понимания контекста всей последовательности (классификация текста, распознавание именованных сущностей). Пример: BERT.
  3. Только декодер (Decoder-Only): Модели, использующие только стек декодеров. Они работают авторегрессионно, предсказывая следующий токен на основе предыдущих. Это стандарт для генеративных моделей. Примеры: GPT, LLaMA, Claude.

Позиционное кодирование

Поскольку механизм самовнимания не учитывает порядок слов, в архитектуру добавляется позиционное кодирование. К эмбеддингам токенов прибавляются векторы, кодирующие их позицию в последовательности. В оригинальной модели использовались синусоидальные функции:

PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)

В современных моделях также используются обучаемые и ротационные (Rotary Position Embeddings, RoPE) позиционные кодировки.

Принципы обучения: от вероятности к оптимизации

Языковое моделирование как вероятностная задача

В основе LLM лежит задача языкового моделирования — предсказание вероятности последовательности текста. Формально, для последовательности X=(x1,x2,,xT) модель оценивает вероятность P(X). С помощью цепного правила вероятностей это раскладывается в произведение условных вероятностей:

P(X)=t=1TP(xt|x1,,xt1)

Таким образом, обучение модели сводится к предсказанию следующего токена xt на основе контекста из предыдущих токенов.

Функция потерь и теория информации

Для оценки качества предсказаний и обучения модели используется кросс-энтропийная функция потерь. Она измеряет расхождение между вероятностным распределением, предсказанным моделью (q), и истинным распределением (p), где правильный следующий токен имеет вероятность 1, а остальные — 0.

H(p,q)=ip(i)logq(i)

Минимизация кросс-энтропии эквивалентна максимизации правдоподобия обучающих данных.

Связанной метрикой качества является перплексия, которая определяется как экспонента от кросс-энтропии: Perplexity=2H(p,q). Интуитивно, перплексия показывает среднее число вариантов, из которых модель «выбирает» на каждом шаге. Чем ниже перплексия, тем увереннее и точнее модель.

Оптимизация

Обучение LLM — это процесс минимизации функции потерь путем корректировки миллиардов параметров модели. Для этого используются методы, основанные на градиентном спуске. Наиболее распространенным является оптимизатор Adam (Adaptive Moment Estimation) и его варианты (например, AdamW), которые адаптивно подбирают скорость обучения для каждого параметра.

Парадигмы обучения

  1. Предварительное обучение (Pre-training): Модель обучается на огромных неразмеченных текстовых корпусах (Common Crawl, The Pile, C4) с использованием самоконтролируемых задач, таких как:
    • Каузальное языковое моделирование (CLM): Предсказание следующего токена (используется в GPT).
    • Маскированное языковое моделирование (MLM): Восстановление случайно замаскированных токенов в тексте (используется в BERT).
  2. Дообучение (Fine-tuning): После предварительного обучения модель адаптируется к конкретным задачам на небольших размеченных наборах данных.
  3. Выравнивание (Alignment): Специальный этап дообучения, направленный на согласование поведения модели с человеческими предпочтениями и ценностями. Ключевой метод — RLHF (Reinforcement Learning from Human Feedback), где модель дообучается с использованием сигнала-вознаграждения от модели, предсказывающей человеческие предпочтения.

Законы масштабирования и эмерджентные способности

Эмпирические исследования показали, что производительность LLM предсказуемо улучшается с увеличением трех факторов: размера модели (числа параметров, N), размера обучающего набора данных (D) и объёма вычислений (C). Эта зависимость описывается степенными законами (scaling laws).

Закон, предложенный в работе OpenAI (Kaplan et al., 2020), показывает, что функция потерь L убывает как степенная функция от N, D и C. Более поздняя работа DeepMind (Hoffmann et al., 2022) уточнила эти законы (законы Chinchilla), показав, что для оптимального обучения необходимо сбалансированно увеличивать как размер модели, так и объём данных.

Важным следствием масштабирования является появление эмерджентных способностей — качественных скачков в производительности, когда модель начинает решать задачи, которым её явно не обучали (например, арифметика, логические рассуждения, написание кода). Эти способности, как правило, отсутствуют у моделей меньшего размера и проявляются только после достижения определённого порога масштаба.

Генерация текста: стратегии декодирования

После обучения модель генерирует текст, итеративно предсказывая следующий токен. Выбор следующего токена из вероятностного распределения, выданного моделью, осуществляется с помощью различных стратегий декодирования:

  • Жадный поиск (Greedy Search): Всегда выбирается самый вероятный токен. Быстро, но часто приводит к повторяющемуся и скучному тексту.
  • Лучевой поиск (Beam Search): На каждом шаге сохраняется k наиболее вероятных последовательностей, что позволяет находить более оптимальные глобальные решения.
  • Сэмплирование с температурой: Вероятности токенов корректируются параметром температуры (T). При T>1 распределение становится более равномерным (больше креативности), при T<1 — более пиковым (меньше случайности).
  • Top-k сэмплирование: На каждом шаге выборка ограничивается k наиболее вероятными токенами.
  • Top-p (Nucleus) сэмплирование: Выборка ограничивается минимальным набором токенов, чья суммарная вероятность превышает порог p. Это позволяет динамически адаптировать размер пула кандидатов.

Теоретические проблемы и ограничения

  • Галлюцинации: Склонность моделей генерировать фактически неверную, но правдоподобно звучащую информацию. Это связано с тем, что модели оптимизируют вероятность текста, а не его истинность.
  • Предвзятость (Bias): LLM наследуют и усиливают социальные, культурные и другие предвзятости, присутствующие в обучающих данных.
  • Интерпретируемость («чёрный ящик»): Из-за огромного числа параметров крайне сложно понять, как именно модель принимает решения, что затрудняет отладку и создаёт риски.
  • Вычислительная сложность: Механизм самовнимания имеет квадратичную сложность по длине последовательности (O(n2)), что ограничивает максимальную длину обрабатываемого контекста.

См. также

Литература

  • Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
  • Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
  • Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
  • Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.