PaLM
PaLM (Pathways Language Model) — это семейство больших языковых моделей (LLM), разработанное компанией Google. Первая версия модели, представленная в апреле 2022 года, содержала 540 миллиардов параметров и стала одной из крупнейших на тот момент языковых моделей в мире, продемонстрировав прорывные возможности, ставшие результатом массивного масштабирования[1].
Ключевой технологической основой PaLM стала Pathways — новая архитектура систем машинного обучения от Google, позволяющая эффективно координировать распределенные вычисления на тысячах чипов-ускорителей[2]. PaLM стала первой крупномасштабной демонстрацией этой системы, показав беспрецедентную эффективность обучения на огромных масштабах.
Система Pathways: Основа для масштабирования
Концепция Pathways, представленная Google в 2021 году, предполагала создание единой нейросети, способной эффективно обобщать знания для разных доменов и выполнять тысячи задач одновременно. PaLM стала первым крупномасштабным применением этой системы: её обучение было распараллелено на 6144 специализированных процессорах TPU v4, объединённых в два облачных кластера (TPU v4 Pods)[1].
На момент своего создания это была крупнейшая конфигурация TPU, когда-либо использовавшаяся для обучения одной модели. Система достигла рекордной эффективности использования аппаратных мощностей (57,8% FLOPs), что позволило существенно превзойти по масштабу предшествующие проекты и успешно обучить модель с более чем полутриллионом параметров[3].
Архитектура и обучающие данные
Архитектура модели
PaLM — это плотная (неразреженная) языковая модель с архитектурой «только декодер» (decoder-only), аналогичная моделям серии GPT. Такая архитектура ориентирована на задачи предсказания следующего токена и хорошо подходит для генерации текста. В отличие от стандартной архитектуры трансформера, PaLM использует несколько ключевых модификаций для повышения эффективности[1]:
- Параллельные слои: Механизмы внимания и полносвязные слои вычисляются параллельно, что позволило ускорить обучение примерно на 15%.
- SwiGLU активация: Использование активационной функции SwiGLU вместо стандартной ReLU, что значительно улучшило качество модели.
Обучающие данные
PaLM была обучена на высококачественном корпусе данных объёмом 780 миллиардов токенов. Набор данных был многоязычным и разнообразным, включая[1]:
- Высококачественные веб-документы и книги.
- Статьи из Википедии.
- Диалоги из социальных сетей (50% корпуса).
- Исходный код с GitHub (5% корпуса).
Около 78% данных было на английском языке, а остальные 22% — мультиязычный набор. Для токенизации использовалась специальная «беспотерьная» методика, которая сохраняла все пробелы (критично для кода) и разбивала нераспознанные символы Unicode на байты.
Возможности и результаты
Эмерджентные способности и few-shot обучение
PaLM продемонстрировала, что увеличение масштаба модели, объёма данных и вычислительных мощностей может приводить к эмерджентным (неожиданно возникающим) способностям. На многих задачах производительность модели резко и нелинейно возрастала только при достижении максимального масштаба, что указывало на появление новых, ранее не наблюдавшихся возможностей[3].
Модель оценивалась в режиме few-shot обучения (без донастройки, с несколькими примерами в промпте) и превзошла предыдущие крупные модели (такие как GPT-3 и LaMDA) на 28 из 29 популярных NLP-бенчмарков. На комплексном наборе заданий BIG-bench PaLM стала первой моделью, чьи результаты превзошли средний уровень, показанный людьми-испытателями[1].
Рассуждение по цепочке мыслей (Chain-of-Thought)
Одним из самых заметных достижений PaLM стала способность к многошаговому логическому рассуждению при использовании техники подсказок «цепочка мыслей» (chain-of-thought prompting)[1]. Эта методика заключается в предоставлении модели примеров, где решение задачи расписано по шагам. Обучившись на таких примерах, PaLM смогла генерировать собственную «цепочку мыслей» для решения новых сложных задач, таких как:
- Математические задачи: На тесте GSM8K (задачи уровня начальной школы) PaLM решила 58% задач, что превзошло предыдущий state-of-the-art результат, достигнутый дообученной моделью.
- Задачи на здравый смысл: Модель смогла генерировать развёрнутые объяснения для нетривиальных задач, например, давать толкование ранее не встречавшихся шуток.
Эта способность сделала процесс «мышления» модели более прозрачным и похожим на человеческий.
Генерация кода и многоязычность
Несмотря на то, что исходный код составлял всего 5% обучающих данных, PaLM показала уровень, сравнимый со специализированной моделью OpenAI Codex на задачах по генерации и трансформации кода. Модель также продемонстрировала сильные способности в многоязычных задачах, включая перевод[3].
Эволюция и преемники: Семейство PaLM
PaLM стала основой для целого семейства моделей, разработанных Google.
PaLM 2
Представленная в мае 2023 года PaLM 2 стала более эффективным и многоязычным преемником. Вместо погони за количеством параметров, акцент был смещен на качество обучающих данных и эффективность архитектуры. PaLM 2 обучена на текстах на более чем 100 языках и демонстрирует улучшенные способности в логике, программировании и переводе[4]. Модель выпускается в четырёх размерах (от самого маленького к большому): Gecko, Otter, Bison и Unicorn. Самый компактный вариант (Gecko) достаточно лёгок для работы на мобильных устройствах в офлайн-режиме.
Специализированные версии
На основе PaLM и PaLM 2 были созданы версии для конкретных доменов:
- Med-PaLM 2: Специализированная модель для медицины. Стала первой системой ИИ, достигшей уровня эксперта на вопросах лицензионного экзамена врача в США (USMLE)[4].
- Sec-PaLM 2: Модель, ориентированная на кибербезопасность, обученная выявлять уязвимости и анализировать вредоносный код[5].
PaLM-E: Мультимодальная версия
PaLM-E (Pathways Language Model Embodied) — это мультимодальная модель, которая объединяет языковую модель PaLM с визуальными данными из Vision Transformer (ViT). Это позволяет модели обрабатывать как текст, так и изображения, решая задачи, связанные с физическим миром, например, для управления роботами[6].
Этические аспекты и ограничения
Создатели PaLM подчеркивают необходимость ответственного подхода к разработке больших языковых моделей. В официальной научной статье был проведён анализ возможных смещений и токсичности в моделируемом тексте. Для обеспечения прозрачности Google опубликовала карту модели (Model Card) и паспорт данных (Datasheet) для PaLM, где документированы характеристики датасета, результаты тестирования и выявленные ограничения[1]. Эти меры соответствуют современным практикам ответственного ИИ и призваны снизить риски, связанные с предубеждениями и генерацией вредоносного контента.
Ссылки
Литература
- Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311.
- Anil, R. et al. (2023). PaLM 2 Technical Report. arXiv:2305.10403.
- Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
- Singhal, K. et al. (2022). Large Language Models Encode Clinical Knowledge. arXiv:2212.13138.
- Singhal, K. et al. (2023). Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
- Barham, P. et al. (2022). Pathways: Asynchronous Distributed Dataflow for ML. arXiv:2203.12533.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
- Wei, J. et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682.
- Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage?. arXiv:2304.15004.
- Lu, S. et al. (2023). Are Emergent Abilities in Large Language Models just In-Context Learning?. arXiv:2309.01809.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Rae, J. W. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
- Diao, S. et al. (2023). Active Prompting with Chain-of-Thought for Large Language Models. arXiv:2302.12246.
Примечания
- ↑ 1,0 1,1 1,2 1,3 1,4 1,5 1,6 Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. «PaLM: Scaling Language Modeling with Pathways». arXiv. [1]
- ↑ «Introducing Pathways: A next-generation AI architecture». Google AI Blog. [2]
- ↑ 3,0 3,1 3,2 «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance». Google Research Blog. [3]
- ↑ 4,0 4,1 «Google AI: What to know about the PaLM 2 large language model». Google AI Blog. [4]
- ↑ «New AI capabilities that can help address your security challenges». Google Cloud Blog. [5]
- ↑ «PaLM-E: An embodied multimodal language model». Google Research Blog. [6]