PaLM

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

PaLM (Pathways Language Model) — это семейство больших языковых моделей (LLM), разработанное компанией Google. Первая версия модели, представленная в апреле 2022 года, содержала 540 миллиардов параметров и стала одной из крупнейших на тот момент языковых моделей в мире, продемонстрировав прорывные возможности, ставшие результатом массивного масштабирования[1].

Ключевой технологической основой PaLM стала Pathways — новая архитектура систем машинного обучения от Google, позволяющая эффективно координировать распределенные вычисления на тысячах чипов-ускорителей[2]. PaLM стала первой крупномасштабной демонстрацией этой системы, показав беспрецедентную эффективность обучения на огромных масштабах.

Система Pathways: Основа для масштабирования

Концепция Pathways, представленная Google в 2021 году, предполагала создание единой нейросети, способной эффективно обобщать знания для разных доменов и выполнять тысячи задач одновременно. PaLM стала первым крупномасштабным применением этой системы: её обучение было распараллелено на 6144 специализированных процессорах TPU v4, объединённых в два облачных кластера (TPU v4 Pods)[1].

На момент своего создания это была крупнейшая конфигурация TPU, когда-либо использовавшаяся для обучения одной модели. Система достигла рекордной эффективности использования аппаратных мощностей (57,8% FLOPs), что позволило существенно превзойти по масштабу предшествующие проекты и успешно обучить модель с более чем полутриллионом параметров[3].

Архитектура и обучающие данные

Архитектура модели

PaLM — это плотная (неразреженная) языковая модель с архитектурой «только декодер» (decoder-only), аналогичная моделям серии GPT. Такая архитектура ориентирована на задачи предсказания следующего токена и хорошо подходит для генерации текста. В отличие от стандартной архитектуры трансформера, PaLM использует несколько ключевых модификаций для повышения эффективности[1]:

  • Параллельные слои: Механизмы внимания и полносвязные слои вычисляются параллельно, что позволило ускорить обучение примерно на 15%.
  • SwiGLU активация: Использование активационной функции SwiGLU вместо стандартной ReLU, что значительно улучшило качество модели.

Обучающие данные

PaLM была обучена на высококачественном корпусе данных объёмом 780 миллиардов токенов. Набор данных был многоязычным и разнообразным, включая[1]:

  • Высококачественные веб-документы и книги.
  • Статьи из Википедии.
  • Диалоги из социальных сетей (50% корпуса).
  • Исходный код с GitHub (5% корпуса).

Около 78% данных было на английском языке, а остальные 22% — мультиязычный набор. Для токенизации использовалась специальная «беспотерьная» методика, которая сохраняла все пробелы (критично для кода) и разбивала нераспознанные символы Unicode на байты.

Возможности и результаты

Эмерджентные способности и few-shot обучение

PaLM продемонстрировала, что увеличение масштаба модели, объёма данных и вычислительных мощностей может приводить к эмерджентным (неожиданно возникающим) способностям. На многих задачах производительность модели резко и нелинейно возрастала только при достижении максимального масштаба, что указывало на появление новых, ранее не наблюдавшихся возможностей[3].

Модель оценивалась в режиме few-shot обучения (без донастройки, с несколькими примерами в промпте) и превзошла предыдущие крупные модели (такие как GPT-3 и LaMDA) на 28 из 29 популярных NLP-бенчмарков. На комплексном наборе заданий BIG-bench PaLM стала первой моделью, чьи результаты превзошли средний уровень, показанный людьми-испытателями[1].

Рассуждение по цепочке мыслей (Chain-of-Thought)

Одним из самых заметных достижений PaLM стала способность к многошаговому логическому рассуждению при использовании техники подсказок «цепочка мыслей» (chain-of-thought prompting)[1]. Эта методика заключается в предоставлении модели примеров, где решение задачи расписано по шагам. Обучившись на таких примерах, PaLM смогла генерировать собственную «цепочку мыслей» для решения новых сложных задач, таких как:

  • Математические задачи: На тесте GSM8K (задачи уровня начальной школы) PaLM решила 58% задач, что превзошло предыдущий state-of-the-art результат, достигнутый дообученной моделью.
  • Задачи на здравый смысл: Модель смогла генерировать развёрнутые объяснения для нетривиальных задач, например, давать толкование ранее не встречавшихся шуток.

Эта способность сделала процесс «мышления» модели более прозрачным и похожим на человеческий.

Генерация кода и многоязычность

Несмотря на то, что исходный код составлял всего 5% обучающих данных, PaLM показала уровень, сравнимый со специализированной моделью OpenAI Codex на задачах по генерации и трансформации кода. Модель также продемонстрировала сильные способности в многоязычных задачах, включая перевод[3].

Эволюция и преемники: Семейство PaLM

PaLM стала основой для целого семейства моделей, разработанных Google.

PaLM 2

Представленная в мае 2023 года PaLM 2 стала более эффективным и многоязычным преемником. Вместо погони за количеством параметров, акцент был смещен на качество обучающих данных и эффективность архитектуры. PaLM 2 обучена на текстах на более чем 100 языках и демонстрирует улучшенные способности в логике, программировании и переводе[4]. Модель выпускается в четырёх размерах (от самого маленького к большому): Gecko, Otter, Bison и Unicorn. Самый компактный вариант (Gecko) достаточно лёгок для работы на мобильных устройствах в офлайн-режиме.

Специализированные версии

На основе PaLM и PaLM 2 были созданы версии для конкретных доменов:

  • Med-PaLM 2: Специализированная модель для медицины. Стала первой системой ИИ, достигшей уровня эксперта на вопросах лицензионного экзамена врача в США (USMLE)[4].
  • Sec-PaLM 2: Модель, ориентированная на кибербезопасность, обученная выявлять уязвимости и анализировать вредоносный код[5].

PaLM-E: Мультимодальная версия

PaLM-E (Pathways Language Model Embodied) — это мультимодальная модель, которая объединяет языковую модель PaLM с визуальными данными из Vision Transformer (ViT). Это позволяет модели обрабатывать как текст, так и изображения, решая задачи, связанные с физическим миром, например, для управления роботами[6].

Этические аспекты и ограничения

Создатели PaLM подчеркивают необходимость ответственного подхода к разработке больших языковых моделей. В официальной научной статье был проведён анализ возможных смещений и токсичности в моделируемом тексте. Для обеспечения прозрачности Google опубликовала карту модели (Model Card) и паспорт данных (Datasheet) для PaLM, где документированы характеристики датасета, результаты тестирования и выявленные ограничения[1]. Эти меры соответствуют современным практикам ответственного ИИ и призваны снизить риски, связанные с предубеждениями и генерацией вредоносного контента.

Ссылки

Литература

  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311.
  • Anil, R. et al. (2023). PaLM 2 Technical Report. arXiv:2305.10403.
  • Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
  • Singhal, K. et al. (2022). Large Language Models Encode Clinical Knowledge. arXiv:2212.13138.
  • Singhal, K. et al. (2023). Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
  • Barham, P. et al. (2022). Pathways: Asynchronous Distributed Dataflow for ML. arXiv:2203.12533.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  • Wei, J. et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682.
  • Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage?. arXiv:2304.15004.
  • Lu, S. et al. (2023). Are Emergent Abilities in Large Language Models just In-Context Learning?. arXiv:2309.01809.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Rae, J. W. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
  • Diao, S. et al. (2023). Active Prompting with Chain-of-Thought for Large Language Models. arXiv:2302.12246.

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. «PaLM: Scaling Language Modeling with Pathways». arXiv. [1]
  2. «Introducing Pathways: A next-generation AI architecture». Google AI Blog. [2]
  3. 3,0 3,1 3,2 «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance». Google Research Blog. [3]
  4. 4,0 4,1 «Google AI: What to know about the PaLM 2 large language model». Google AI Blog. [4]
  5. «New AI capabilities that can help address your security challenges». Google Cloud Blog. [5]
  6. «PaLM-E: An embodied multimodal language model». Google Research Blog. [6]