Decoder-only models (architecture) — デコーダオンリー

From Systems analysis wiki
Jump to navigation Jump to search

デコーダオンリーモデル(英: Decoder-Only Models)は、Transformer アーキテクチャのデコーダ部分のみに基づいた、大規模言語モデル(LLM)の主要なアーキテクチャクラスです。これらのモデルはテキスト生成タスクに特化しており、現代の多くのチャットボットやAIアシスタントの基盤となっています。

このアプローチを普及させた代表的なモデルシリーズは、OpenAIのGPTシリーズです。

概念とアーキテクチャ

デコーダオンリーモデルの基本的な考え方は、系列の自己回帰的な生成(autoregressive generation)にあります。これは、モデルがそれまでに生成されたすべての過去のトークンに基づいて次のトークンを予測することを意味します。入力プロンプト(ユーザーの要求)と既に生成されたテキストは、モデルが続きを生成していく単一のシーケンスとして扱われます。

アーキテクチャ的には、モデルはN個の同一のデコーダ層を積み重ねたスタックで構成されます。各層は、エンコーダや完全なデコーダとは異なり、2つの主要なサブレイヤーのみを含みます。

  1. マスク付きマルチヘッド自己アテンション(Masked Multi-Head Self-Attention): これは自己回帰特性を保証する重要なメカニズムです。シーケンスの処理中に、特殊な因果マスク(causal mask)が各トークンが後続のトークンを「見る」ことを防ぎます。これにより、位置iの予測は、位置<iにあるトークンのみに依存するようになります。
  2. 全結合フィードフォワードネットワーク(Feed-Forward Network): 各トークンの表現に非線形変換を適用します。

デコーダオンリーモデルには、エンコーダが存在せず、「注意を向ける」対象がないため、クロスアテンション(cross-attention)のメカニズムは存在しません。

事前学習タスク

デコーダオンリーモデルは、単一ですが非常に強力な自己教師ありタスクで学習されます。

因果言語モデリング(Causal Language Modeling, CLM)

  • 動作原理: モデルは、シーケンス内の次のトークンを予測するように学習します。各学習ステップで、テキストの断片を入力として受け取り、次のトークンの確率分布を生成する必要があります。
  • 目的: 膨大なテキストデータを用いて、正しい次のトークンの確率を最大化すること。この一見単純なタスクにより、モデルは文法、構文、世界に関する事実、そして言語の複雑なパターンを学習します。

応用

その自己回帰的な性質により、デコーダオンリーモデルはテキスト生成を必要とするあらゆるタスクに理想的です。

  • 自由形式のテキスト生成: 記事、詩、脚本などの執筆。
  • 対話システムとチャットボット: ユーザーの質問に対する会話形式での応答。
  • 要約: 長いテキストの要約作成。
  • 機械翻訳: このタスクにはエンコーダ・デコーダモデルが頻繁に使用されますが、デコーダオンリーモデルもプロンプトでタスクが指定されれば翻訳を行うことができます(例:「英語から日本語に翻訳して:...」)。
  • コード生成: テキストによる説明からのコード生成。
  • 文脈内学習(In-context learning): その規模により、大規模なデコーダモデルは、ファインチューニング(fine-tuning)を必要とせず、プロンプト内でわずかな例(few-shot)または例なし(zero-shot)で新しいタスクを解決する能力を示します。

主なモデルとその進化

  • GPTシリーズ(2018年~現在): このアプローチの先駆者であり普及者。GPT-1は事前学習の有効性を示し、GPT-2はスケーリングの力を実証し、GPT-3はfew-shot能力の出現を示しました。ChatGPTとGPT-4は、このアーキテクチャをAIアシスタントの標準にしました。
  • LLaMA(2023年~現在): Metaによるオープンモデルのシリーズで、強力なLLMへのアクセスを民主化し、コミュニティにおけるイノベーションの波を刺激しました。
  • Claude(2023年~現在): Anthropicによるモデルファミリーで、Constitutional AIを用いて安全性と制御可能性に焦点を当てています。
  • PaLMおよびGemini(2022年~現在): Googleの主力モデル。Geminiはネイティブなマルチモーダル・デコーダオンリーモデルでもあります。

他のアーキテクチャとの比較

Transformerベースの主要アーキテクチャの比較
アーキテクチャ 主なタスク コンテキストの方向 代表的なモデル
デコーダオンリー テキスト生成 単方向(左から右へ) GPT, LLaMA, Claude, Gemini
エンコーダオンリー テキスト理解 双方向 BERT, RoBERTa
エンコーダ・デコーダ 系列から系列への変換 双方向(エンコーダ) + 単方向(デコーダ) T5, BART, オリジナルのTransformer

関連項目

  • GPT