Google’s large language models — Googleの大規模言語モデル

From Systems analysis wiki
Jump to navigation Jump to search

Googleの大規模言語モデルとは、Google AI(旧Google Brain)やDeepMindを含むGoogleの様々な部門によって開発された一連の大規模言語モデル(LLM)です。深層学習とTransformerアーキテクチャ分野のパイオニアの一つとして、Googleは現代のLLMの発展に基礎的な貢献を果たしてきました。これらのモデルの開発史は、特定の言語理解システムから、多くのGoogle製品の基盤となり、AI業界全体の発展の方向性を定める大規模なマルチモーダルおよびエージェントシステムへと至る道のりを反映しています。

Googleモデルの歴史と進化

初期の実績とニューラル機械翻訳(2011–2016)

GoogleにおけるLLM開発の基礎は、深層ニューラルネットワークの応用を目的としたプロジェクトGoogle Brain(2011年)の中で築かれました。最初のブレークスルーの一つは、Tomas Mikolovによって作成されたアルゴリズムWord2Vec(2013年)でした。これにより、単語をその意味的文脈を反映したベクトル(埋め込み)として表現することが可能になり、ニューラルネットワークにおける言語理解の基本的手法となりました。

次のステップは、seq2seq(2014年)のようなシーケンス・トゥ・シーケンスモデルへの移行であり、これはGoogle Neural Machine Translation(GNMT)(2016年)の基礎となりました。Google翻訳がLSTMベースのニューラルネットワークアーキテクチャに移行したことで、機械翻訳の品質は大幅に向上しました。並行して、2014年にGoogleに買収された子会社のDeepMindは、囲碁の世界チャンピオンに勝利したシステムAlphaGoで深層学習の力を示し、AIの可能性への信頼を強固なものにしました。

Transformer革命とBERTの誕生(2017–2018)

2017年、Google Brainの研究者たちは論文「Attention Is All You Need」でTransformerアーキテクチャを発表しました。このアーキテクチャは自己注意(self-attention)機構に基づいており、シーケンスを逐次的ではなく並列的に処理することを可能にし、NLPにおける革命となり、現代のすべてのLLMの基礎となりました。

この成功を背景に、2018年にGoogleはモデルBERT(Bidirectional Encoder Representations from Transformers)を発表しました。BERTは、単語の文脈を左右同時に考慮する初の深く双方向のモデルでした。これにより、多くの言語理解タスク(GLUE, SQuAD)で記録的な結果を達成し、新たな業界標準を確立しました。BERTは2つのバージョン(1億1000万パラメータのBASEと3億4000万パラメータのLARGE)がオープンソースで重みと共に公開され、その大規模な普及に貢献しました。2019年からは、Google検索でクエリのより良い理解のためにBERTが使用されるようになりました。

スケールの拡大と対話モデルの時代(2019–2022)

BERT以降、Googleはスケールとアーキテクチャに関する実験を続けました。

  • T5 (Text-to-Text Transfer Transformer, 2019): あらゆるNLPタスクを「テキスト・ツー・テキスト」の変換として扱う統一モデル。巨大なC4(Colossal Clean Crawled Corpus)コーパスで学習されたT5も、複数のサイズ(最大110億パラメータ)でオープンアクセスとして公開されました。
  • Meena (2020): Google初の特化型対話モデルで、26億のパラメータを持ち、オープンな対話で高い品質を示しました。
  • LaMDA (Language Model for Dialogue Applications, 2021): 対話モデルのファミリー(最大1370億パラメータ)で、膨大な対話コーパス(1.56兆語)で学習されました。LaMDAはより自然で意味のある会話を生成することを目的としており、Googleのエンジニアがその「意識」について主張したことで一般に知られるようになりました。
  • Gopher と Chinchilla (DeepMind, 2021–2022): 並行してDeepMindはスケーリング則を研究していました。モデルGopher(2800億パラメータ)は、スケールが品質にどのように影響するかを示しました。そして、モデルChinchilla(700億パラメータ)は、最適なパフォーマンスのためにはパラメータの最大数よりも、モデルサイズと学習データ量の適切なバランスが重要であることを実証しました。この結論は「Chinchillaの法則」として知られるようになり、業界全体のLLM学習戦略に影響を与えました。

超大規模・マルチモーダルモデルの時代(2022–現在)

  • PaLM (Pathways Language Model, 2022): 発表時点でGoogle最大の高密度(dense)モデルで、5400億パラメータを持ち、新しい分散インフラストラクチャPathwaysで学習されました。PaLMは、特にChain-of-Thought(CoT)プロンプティング技術を使用して、論理的推論において画期的な能力を示しました。これを基に、医療用のMed-PaLMのような特化バージョンが作成されました。2023年には改良版のPaLM 2(約3400億パラメータ)がリリースされ、更新されたチャットボットBardの基盤となりました。
  • Gemini (2023–現在): Google DeepMindの統合チームによって作成された新世代モデル。Geminiは当初から、テキスト、コード、画像、音声、動画を処理できるネイティブなマルチモーダルシステムとして設計されました。複数のバージョンでリリースされています。
    • Gemini Ultra: 複雑なタスク向けの最も強力なモデル。
    • Gemini Pro: 幅広いタスクに対応する汎用モデル。
    • Gemini Nano: モバイルデバイス上で動作するためのコンパクトなモデル。

2024年から2025年にかけて、このファミリーはGemini 1.5(最大100万トークンのコンテキストウィンドウ)や、エージェント機能を持つGemini 2.0といったバージョンで拡張されました。

アーキテクチャと技術的特徴

基盤:エンコーダ、デコーダ、ハイブリッド

Googleは、タスクに応じてTransformerアーキテクチャのさまざまなバリアントを使用しています。

  • エンコーダのみ (Encoder-only): BERTタイプのモデル。テキスト全体を一度に処理し、豊かな文脈表現を生成します。テキストの分析や理解(分類、固有表現抽出)には理想的ですが、生成には向きません。
  • デコーダのみ (Decoder-only): LaMDAPaLMタイプのモデル(GPTと同様)。これらは自己回帰的であり、トークンごとにテキストを予測します。テキストの続きを生成したり、対話や質問応答に適した自然なジェネレータです。
  • エンコーダ・デコーダ (Encoder-Decoder): T5GNMTタイプのモデル。エンコーダが入力シーケンスを処理し、デコーダが出力シーケンスを生成する両方の部分を持っています。翻訳や要約のような変換タスクのための汎用アーキテクチャです。

スケール:パラメータ、データ、インフラストラクチャ

GoogleのLLMにおける成功は、主に3つの要因に基づいています。

  1. モデルのスケール: パラメータ数を数百万(BERT)から数百億(PaLM、Gemini)へと体系的に増加させています。
  2. データのスケール: 世界最大級のデータコーパス(Googleのウェブインデックス、YouTube、Google Books)へのアクセスにより、数兆トークン規模でのモデル学習が可能です。
  3. インフラストラクチャ: 独自開発の専用チップTensor Processing Unit(TPU)と分散システムPathwaysを使用することで、超大規模モデルを効率的かつ安定して学習させています。

Multimodality and Agency - マルチモーダリティとエージェント性

最新のGoogleモデル、特にGeminiは、深いマルチモーダリティとエージェント性へと向かっています。

  • ネイティブなマルチモーダリティとは、個別のモジュールを単に接続するのではなく、一つのモデルが最初から異なる種類のデータ(テキスト、画像、音声)を理解し、組み合わせるように学習されていることを意味します。
  • エージェント性(Agentic AI)とは、モデルが単に要求に応答するだけでなく、目標を達成するために一連の行動を自律的に計画し実行する能力(例えば、検索や電卓などの外部ツールを呼び出すこと)を指します。

主要モデルの概要表

Googleの主要言語モデルの比較
モデル リリース年 パラメータ数(推定) アーキテクチャ 主な特徴
BERT 2018 1億1000万~3億4000万 エンコーダ 双方向の文脈理解、NLPタスクでSOTAを達成。
T5 2019 6000万~110億 エンコーダ・デコーダ 全タスクに対する統一された「テキスト・ツー・テキスト」アプローチ。
LaMDA 2021 1370億 デコーダ オープンで意味のある対話に特化。
PaLM 2022 5400億 デコーダ 論理的推論におけるブレークスルー(Chain-of-Thought)、大規模学習。
Chinchilla 2022 700億 デコーда 「計算量最適(Compute-optimal)」モデル。データとパラメータのバランスの重要性を証明。
Gemini 1.0 2023 最大約1兆(Ultra) マルチモーダル(おそらくMoE) ネイティブなマルチモーダリティ、多数のベンチマーク(MMLU)でSOTAを達成。
Gemini 1.5 2024 非公開 マルチモーダル(MoE) 最大100万〜200万トークンのコンテキストウィンドウ、高い効率性。
Gemini 2.0 2024 非公開 マルチモーダル + ツール 組み込みのエージェント機能、画像・音声生成。

製品とエコシステムにおける応用

Googleは自社のLLMを製品ライン全体に積極的に統合しています。

  • Google検索: BERT、MUM、Geminiが複雑なクエリの理解を深め、AI Overviews(旧SGE)形式で直接的な回答を提供するために使用されています。
  • GoogleアシスタントとBard(現Gemini): LaMDA、PaLM 2、Geminiを基盤に、単純な音声コマンドから本格的な対話アシスタントへと移行しています。
  • Google Workspace: Duet AI(現Gemini for Workspace)機能が、Gmailでのメール作成、Docsでのテキスト作成、Slidesでのプレゼンテーション生成を支援します。
  • Android: Gemini Nanoが、Pixelなどのデバイス上でAI機能をローカルに実行し、プライバシーと速度を向上させています。
  • Google Cloud AI: Vertex AIプラットフォームは、企業が独自のアプリケーションを構築するために、PaLMやGeminiモデルへのAPIアクセスを提供します。

競争環境における役割

Googleは「AI競争」における主要なプレイヤーの一人であり、主な競合相手はOpenAI(Microsoftの支援を受ける)とMetaです。

  • OpenAIとの競争: Googleは多くの基本技術(Transformerを含む)のパイオニアでしたが、2022年末のChatGPTの登場により、自社製品(例:Bard)の市場投入を加速させざるを得なくなりました。競争はモデルの品質(Gemini Ultra vs. GPT-4)、コンテキストウィンドウのサイズ、APIの利便性の分野で繰り広げられています。
  • Metaとの対比: Metaはオープンソース(LLaMAモデル)に賭け、GoogleやOpenAIのクローズドモデルに対する強力な代替案を生み出しました。これに対し、Googleも開発者コミュニティを支援し、Metaにエコシステムを譲らないためにGemmaのようなオープンモデルをリリースし始めました。
  • 戦略的提携: Googleは、アプローチを多様化し、クラウド競争における地位を強化するため、スタートアップのAnthropic(Claudeモデルの開発元)など他のプレイヤーにも投資しています。

参考文献

  • Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR.
  • Thoppilan, R. et al. (2022). LaMDA: Language Models for Dialog Applications. arXiv:2201.08239.
  • Hoffmann, R. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. JMLR.
  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.

外部リンク