Chinchilla
Chinchilla — это большая языковая модель (LLM), разработанная исследовательской группой DeepMind и представленная в марте 2022 года[1]. Модель содержит около 70 миллиардов параметров и была обучена на корпусе текста объемом 1,4 триллиона токенов.
Ключевой особенностью Chinchilla является её вычислительно-оптимальный подход к обучению. В отличие от предыдущих моделей, где основной упор делался на увеличение числа параметров, Chinchilla была создана на основе гипотезы о необходимости пропорционального масштабирования как размера модели, так и объема обучающих данных. Благодаря этому подходу Chinchilla продемонстрировала превосходство над значительно более крупными моделями, такими как Gopher (280 млрд параметров) и GPT-3 (175 млрд), на широком спектре языковых задач[2].
Предпосылки и история создания
Разработка Chinchilla стала результатом исследования масштабирования LLM, проводимого в DeepMind на основе семейства моделей Gopher[3]. Модель Gopher, представленная в 2021 году, имела 280 млрд параметров, но была обучена на сравнительно небольшом корпусе в 300 млрд токенов. В то время в отрасли доминировал подход, согласно которому производительность моделей росла в основном за счет увеличения их размера (числа параметров), в то время как объем данных оставался относительно постоянным.
Гипотеза о вычислительно-оптимальном обучении
Исследователи DeepMind выдвинули гипотезу, что многие крупные модели, включая Gopher, были недообучены (undertrained) относительно своего размера. Они не достигали максимально возможного качества при заданном вычислительном бюджете, поскольку им не хватало данных для обучения[2].
Суть гипотезы заключалась в том, что для оптимального использования вычислительных ресурсов размер модели и объем обучающих данных следует увеличивать пропорционально друг другу. Иными словами, при удвоении числа параметров модели необходимо примерно вдвое увеличивать и число обучающих токенов[1]. Этот вывод расходился с предыдущими исследованиями, которые переоценивали ценность увеличения размера модели, так как проводились при фиксированном объеме данных.
Для проверки этой гипотезы команда DeepMind провела обширные эксперименты, обучив свыше 400 моделей разного размера на наборах данных от 5 до 500 млрд токенов. Результаты подтвердили, что параллельное масштабирование является оптимальной стратегией. На основе этих выводов была разработана модель Chinchilla как практический тест новой парадигмы[4].
Архитектура и обучение
Архитектурные особенности
Chinchilla относится к семейству авторегрессионных трансформеров и по архитектуре близка к моделям GPT-2/GPT-3[3]. Она унаследовала многие решения от Gopher, но с ключевыми отличиями, направленными на уменьшение размера при сохранении глубины сети:
- Параметры: ~70 млрд параметров, распределенных по 80 слоям.
- Ширина модели: Число голов самовнимания было уменьшено до 64 (против 128 у Gopher), а внутренняя размерность слоев — до 8192 (против ~16384 у Gopher).
- Оптимизатор: Используется AdamW вместо Adam, что улучшает сходимость на больших наборах данных[3].
Такая архитектура позволила Chinchilla сохранить ту же глубину сети, что и Gopher, но при значительно меньшем числе параметров, что снизило требования к памяти и вычислительным ресурсам.
Масштабирование и данные для обучения
Для проверки гипотезы Chinchilla была обучена с тем же вычислительным бюджетом, что и Gopher, но с перераспределением ресурсов в пользу данных. Модель с 70 млрд параметров была обучена на корпусе в 1,4 триллиона токенов, что примерно в 4 раза превышает объем данных, использованных для Gopher[1].
Это соотношение, примерно 20 токенов на каждый параметр, стало известно как точка Chinchilla (Chinchilla Point) и является ориентиром для вычислительно-оптимального обучения современных LLM[5]. Эксперимент подтвердил, что Chinchilla, будучи обученной ближе к этому оптимальному пределу, смогла реализовать свой потенциал более полно, чем недообученные, хотя и более крупные, модели.
Результаты и производительность
На широком наборе стандартных тестов Chinchilla продемонстрировала значительное превосходство над предыдущими моделями. Она уверенно обошла не только Gopher, но и другие современные на тот момент LLM, включая OpenAI GPT-3 (175 млрд параметров) и Megatron-Turing NLG (530 млрд параметров)[1].
Наиболее показательным стал результат на комплексном бенчмарке MMLU (Measuring Massive Multitask Language Understanding), который оценивает знания и рассуждения в сотнях разнородных задач. Chinchilla достигла средней точности 67,5%, что стало новым рекордом для моделей такого класса и на 7 процентных пунктов превысило результат Gopher[4].
Помимо высокой эффективности, Chinchilla показала и экономичность в использовании. Меньший размер модели (70 млрд против 175+ млрд у аналогов) означает, что для логического вывода (inference) и дообучения (fine-tuning) требуется значительно меньше вычислительных ресурсов, что упрощает её практическое применение.
Значение и влияние
Исследование Chinchilla оказало фундаментальное влияние на подходы к обучению больших языковых моделей.
- Законы масштабирования Chinchilla (Chinchilla scaling laws): Выявленное оптимальное соотношение между размером модели и объемом данных стало де-факто стандартом и ориентиром для последующих разработок в отрасли.
- Смещение фокуса с размера на данные: Работа стимулировала индустрию уделять больше внимания созданию, очистке и расширению обучающих корпусов, а не только неизбирательному наращиванию числа параметров.
- Применение в мультимодальных системах: Chinchilla была использована в качестве основного языкового компонента в мультимодальной модели DeepMind Flamingo, которая способна понимать изображения и текст[6].
Хотя сама модель Chinchilla не была выпущена в публичный доступ, её концепции и результаты, опубликованные в научной работе, изменили траекторию развития всей области LLM, обозначив путь к более эффективному и сбалансированному росту возможностей искусственного интеллекта.
Литература
- Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
- Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
- Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
- Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
- Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
- Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
- Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
- Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
Примечания
- ↑ 1,0 1,1 1,2 1,3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
- ↑ 2,0 2,1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
- ↑ 3,0 3,1 3,2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
- ↑ 4,0 4,1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
- ↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
- ↑ «Chinchilla (language model)». Wikipedia.