Большие языковые модели Google

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Большие языковые модели Google — это серия больших языковых моделей (LLM), разработанных различными подразделениями Google, включая Google AI (ранее Google Brain) и DeepMind. Являясь одним из пионеров в области глубокого обучения и архитектуры Трансформер, Google внёс фундаментальный вклад в развитие современных LLM. История разработки этих моделей отражает путь от узкоспециализированных систем понимания языка до масштабных мультимодальных и агентных систем, которые лежат в основе многих продуктов Google и определяют вектор развития всей индустрии ИИ.

История и эволюция моделей Google

Ранние достижения и нейросетевой перевод (2011–2016)

Основы для разработки LLM в Google были заложены в рамках проекта Google Brain (2011), который был посвящён применению глубоких нейронных сетей. Одним из первых прорывов стал алгоритм Word2Vec (2013), созданный Томашем Миколовым. Он позволил представлять слова в виде векторов (эмбеддингов), отражающих их семантический контекст, что стало базовым методом для понимания языка в нейросетях.

Следующим шагом стал переход к моделям последовательностей, таким как seq2seq (2014), которые легли в основу Google Neural Machine Translation (GNMT) (2016). Перевод Переводчика Google на нейросетевую архитектуру на основе LSTM значительно повысил качество машинного перевода. Параллельно дочерняя компания DeepMind, приобретённая Google в 2014 году, продемонстрировала мощь глубокого обучения с победой системы AlphaGo над чемпионом мира по го, укрепив веру в потенциал ИИ.

Революция Transformer и рождение BERT (2017–2018)

В 2017 году исследователи Google Brain представили архитектуру Трансформер в статье «Attention Is All You Need». Эта архитектура, основанная на механизме самовнимания (self-attention), позволила обрабатывать последовательности параллельно, а не последовательно, что стало революцией в NLP и основой для всех современных LLM.

На волне этого успеха в 2018 году Google представила модель BERT (Bidirectional Encoder Representations from Transformers). BERT была первой глубоко двунаправленной моделью, которая учитывала контекст слова одновременно слева и справа. Это позволило ей достичь рекордных результатов на множестве задач понимания языка (GLUE, SQuAD) и установить новый индустриальный стандарт. BERT была выпущена в двух версиях (BASE на 110 млн параметров и LARGE на 340 млн) с открытым кодом и весами, что способствовало её массовому распространению. С 2019 года BERT начал использоваться в Поиске Google для лучшего понимания запросов.

Рост масштабов и эра диалоговых моделей (2019–2022)

После BERT Google продолжил эксперименты с масштабом и архитектурой:

  • T5 (Text-to-Text Transfer Transformer, 2019): Унифицированная модель, которая трактует любую NLP-задачу как преобразование «текст-в-текст». Обученная на гигантском корпусе C4 (Colossal Clean Crawled Corpus), T5 также была выпущена в открытый доступ в нескольких размерах (до 11 млрд параметров).
  • Meena (2020): Первая специализированная диалоговая модель Google с 2,6 млрд параметров, показавшая высокое качество ведения открытого диалога.
  • LaMDA (Language Model for Dialogue Applications, 2021): Семейство диалоговых моделей (до 137 млрд параметров), обученных на огромном корпусе диалогов (1,56 трлн слов). LaMDA была нацелена на создание более естественных и осмысленных бесед и стала известна широкой публике после того, как инженер Google заявил о её «разумности».
  • Gopher и Chinchilla (DeepMind, 2021–2022): Параллельно DeepMind исследовала законы масштабирования. Модель Gopher (280 млрд параметров) показала, как масштаб влияет на качество. А модель Chinchilla (70 млрд) продемонстрировала, что для оптимальной производительности важнее не максимальное число параметров, а правильный баланс между размером модели и объёмом обучающих данных. Этот вывод стал известен как «закон Chinchilla» и повлиял на стратегию обучения LLM во всей индустрии.

Эпоха сверхбольших и мультимодальных моделей (2022–настоящее время)

  • PaLM (Pathways Language Model, 2022): На момент анонса крупнейшая плотная (dense) модель Google с 540 млрд параметров, обученная на новой распределённой инфраструктуре Pathways. PaLM продемонстрировала прорывные способности к логическим рассуждениям, особенно с использованием техники Chain-of-Thought (CoT) prompting. На её основе были созданы специализированные версии, такие как Med-PaLM для медицины. В 2023 году была выпущена улучшенная версия PaLM 2 (~340 млрд параметров), которая легла в основу обновлённого чат-бота Bard.
  • Gemini (2023–н.в.): Новое поколение моделей, созданное объединённой командой Google DeepMind. Gemini с самого начала проектировалась как нативная мультимодальная система, способная обрабатывать текст, код, изображения, аудио и видео. Выпущена в нескольких версиях:
    • Gemini Ultra: Самая мощная модель для сложных задач.
    • Gemini Pro: Универсальная модель для широкого круга задач.
    • Gemini Nano: Компактная модель для работы на мобильных устройствах.

В 2024–2025 годах семейство было расширено версиями Gemini 1.5 (с контекстным окном до 1 млн токенов) и Gemini 2.0, получившей агентные возможности.

Архитектура и технические особенности

Фундамент: Энкодеры, декодеры и гибриды

Google использует различные варианты архитектуры Трансформер в зависимости от задачи:

  • Энкодеры (Encoder-only): Модели типа BERT. Они обрабатывают весь текст целиком и создают богатое контекстуальное представление. Идеальны для задач анализа и понимания текста (классификация, извлечение сущностей), но не для генерации.
  • Декодеры (Decoder-only): Модели типа LaMDA и PaLM (аналогично GPT). Они авторегрессионны, то есть предсказывают текст токен за токеном. Это естественные генераторы, отлично подходящие для продолжения текста, диалогов и ответов на вопросы.
  • Энкодеры-декодеры (Encoder-Decoder): Модели типа T5 и GNMT. Они имеют обе части: энкодер обрабатывает входную последовательность, а декодер генерирует выходную. Это универсальная архитектура для задач преобразования, таких как перевод или суммаризация.

Масштаб: Параметры, данные и инфраструктура

Успех Google в LLM во многом обусловлен тремя факторами:

  1. Масштаб моделей: Систематическое увеличение числа параметров от миллионов (BERT) до сотен миллиардов (PaLM, Gemini).
  2. Масштаб данных: Доступ к одному из крупнейших в мире корпусов данных (веб-индекс Google, YouTube, Google Books), что позволяет обучать модели на триллионах токенов.
  3. Инфраструктура: Использование собственных специализированных чипов — Tensor Processing Unit (TPU) — и распределённой системы Pathways, которые позволяют эффективно и стабильно обучать сверхбольшие модели.

Мультимодальность и агентность

Новейшие модели Google, особенно Gemini, движутся в сторону глубокой мультимодальности и агентности.

  • Нативная мультимодальность означает, что одна модель с самого начала обучена понимать и комбинировать различные типы данных (текст, изображения, аудио), а не просто соединять отдельные модули.
  • Агентность (Agentic AI) — это способность модели не просто отвечать на запросы, а самостоятельно планировать и выполнять последовательность действий для достижения цели (например, вызывать внешние инструменты, такие как поиск или калькулятор).

Сводная таблица ключевых моделей

Сравнение основных языковых моделей Google
Модель Год выпуска Параметры (оценка) Архитектура Ключевые особенности
BERT 2018 110–340 млн Энкодер Двунаправленное понимание контекста, SOTA на задачах NLP.
T5 2019 60 млн – 11 млрд Энкодер-декодер Унифицированный подход «текст-в-текст» для всех задач.
LaMDA 2021 137 млрд Декодер Специализация на открытых, осмысленных диалогах.
PaLM 2022 540 млрд Декодер Прорыв в логических рассуждениях (Chain-of-Thought), масштабное обучение.
Chinchilla 2022 70 млрд Декодер «Compute-optimal» модель, доказавшая важность баланса данных и параметров.
Gemini 1.0 2023 до ~1 трлн (Ultra) Мультимодальный (вероятно, MoE) Нативная мультимодальность, SOTA на множестве бенчмарков (MMLU).
Gemini 1.5 2024 Не раскрыто Мультимодальный (MoE) Контекстное окно до 1-2 млн токенов, высокая эффективность.
Gemini 2.0 2024 Не раскрыто Мультимодальный + Tools Встроенные агентные возможности, генерация изображений/аудио.

Применение в продуктах и экосистеме

Google активно интегрирует свои LLM во всю линейку продуктов:

  • Google Поиск: BERT, MUM и Gemini используются для лучшего понимания сложных запросов и предоставления прямых ответов в формате AI Overviews (ранее SGE).
  • Google Assistant и Bard (теперь Gemini): Переход от простых голосовых команд к полноценным диалоговым ассистентам на базе LaMDA, PaLM 2 и Gemini.
  • Google Workspace: Функции Duet AI (теперь Gemini for Workspace) помогают писать письма в Gmail, создавать тексты в Docs и генерировать презентации в Slides.
  • Android: Gemini Nano обеспечивает работу ИИ-функций локально на устройствах, таких как Pixel, для повышения приватности и скорости.
  • Google Cloud AI: Платформа Vertex AI предоставляет предприятиям доступ к моделям PaLM и Gemini через API для создания собственных приложений.

Роль в конкурентной среде

Google является одним из ключевых игроков в «гонке ИИ», где её основными конкурентами выступают OpenAI (с поддержкой Microsoft) и Meta.

  • Соперничество с OpenAI: Хотя Google была пионером во многих фундаментальных технологиях (включая Трансформер), запуск ChatGPT в конце 2022 года заставил Google ускорить вывод своих продуктов на рынок (например, Bard). Конкуренция разворачивается в области качества моделей (Gemini Ultra vs. GPT-4), размера контекстного окна и удобства API.
  • Контраст с Meta: Meta сделала ставку на открытый исходный код (модели LLaMA), создав мощную альтернативу закрытым моделям Google и OpenAI. В ответ на это Google также начала выпускать открытые модели, такие как Gemma, чтобы поддержать сообщество разработчиков и не уступить экосистему Meta.
  • Стратегические союзы: Google инвестирует в других игроков, например, в стартап Anthropic (создатели модели Claude), чтобы диверсифицировать подходы и укрепить свои позиции в облачной конкуренции.

Литература

  • Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR.
  • Thoppilan, R. et al. (2022). LaMDA: Language Models for Dialog Applications. arXiv:2201.08239.
  • Hoffmann, R. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. JMLR.
  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.

Ссылки