Theoretical foundations of large language models — LLMの理論的基礎

From Systems analysis wiki
Jump to navigation Jump to search

大規模言語モデルの理論的基礎(Transformerアーキテクチャに基づく)とは、現代の大規模言語モデル(LLM)の機能、学習、能力の根底にある数学的、統計的、情報理論的な原則の集合体です。これらの基礎は、Transformerアーキテクチャ上に構築されたモデルが、いかにして高い一貫性を持って人間の言語を理解し、生成できるかを説明します。

アーキテクチャの基礎:Transformerアーキテクチャ

現代のLLMは、ほぼ完全にTransformerアーキテクチャに基づいています。これは2017年の論文「Attention Is All You Need」で発表されました。このアーキテクチャは、RNNやLSTMのような再帰的な層を廃し、アテンション(attention)機構に重点を置くことで、長いシーケンスを効率的に処理し、計算を並列化することを可能にしました。

自己アテンション機構(Self-Attention)

これはTransformerアーキテクチャの中核です。自己アテンション機構により、モデルはシーケンス内の各単語(トークン)の重要性を、同じシーケンス内の他のすべての単語との関連で重み付けすることができます。各トークンに対して、3つのベクトルが生成されます。

  • Query (Q, クエリ): 現在の単語を表すベクトル。
  • Key (K, キー): 他の単語からのクエリと比較されるベクトル。
  • Value (V, バリュー): 次に渡される単語の情報を含むベクトル。

アテンションスコアは、スケール化ドット積によって計算されます。

Attention(Q,K,V)=softmax(QKTdk)V

ここで dk はキーベクトルの次元数です。このメカニズムにより、モデルは単語間の距離に関係なく、複雑な文脈的依存関係を捉えることができます。

マルチヘッドアテンション(Multi-Head Attention)は、異なる射影行列を用いて複数のアテンション計算を並列して実行するもので、これによりモデルは構文や意味の異なる側面に同時に焦点を当てることができます。

Transformerベースのアーキテクチャの種類

Transformerのコンポーネントを活用するには、主に3つのバリエーションがあります。

  1. エンコーダ・デコーダ(Encoder-Decoder): シーケンス・トゥ・シーケンス(例:機械翻訳)タスクのための古典的なアーキテクチャ。エンコーダが入力シーケンスを処理し、デコーダが出力シーケンスを生成します。例:T5, BART。
  2. エンコーダのみ(Encoder-Only): エンコーダのスタックのみを使用するモデル。シーケンス全体の文脈を深く理解する必要があるタスク(テキスト分類、固有表現抽出)に非常に適しています。例:BERT。
  3. デコーダのみ(Decoder-Only): デコーダのスタックのみを使用するモデル。自己回帰的に動作し、前のトークンに基づいて次のトークンを予測します。これは生成モデルの標準です。例:GPT, LLaMA, Claude。

位置エンコーディング

自己アテンション機構は単語の順序を考慮しないため、アーキテクチャには位置エンコーディングが追加されます。トークンの埋め込みベクトルに、シーケンス内での位置をエンコードするベクトルが加算されます。元のモデルでは、次のような正弦関数が使用されていました。

PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)

最近のモデルでは、学習可能な位置エンコーディングや回転式位置埋め込み(Rotary Position Embeddings, RoPE)も使用されています。

学習の原則:確率から最適化まで

確率的タスクとしての言語モデリング

LLMの根底にあるのは、言語モデリングというタスク、すなわちテキストシーケンスの確率を予測することです。形式的には、シーケンス X=(x1,x2,,xT) に対して、モデルは確率 P(X) を評価します。確率の連鎖律を用いると、これは条件付き確率の積に分解されます。

P(X)=t=1TP(xt|x1,,xt1)

したがって、モデルの学習は、前のトークンの文脈に基づいて次のトークン xt を予測することに帰着します。

損失関数と情報理論

予測の品質を評価し、モデルを学習させるためには、交差エントロピー損失関数が使用されます。これは、モデルによって予測された確率分布(q)と真の分布(p)の間の乖離を測定します。真の分布では、正しい次のトークンの確率は1で、その他は0です。

H(p,q)=ip(i)logq(i)

交差エントロピーの最小化は、学習データの尤度を最大化することと等価です。

関連する品質指標としてパープレキシティがあります。これは交差エントロピーの指数として定義されます:Perplexity=2H(p,q)。直感的に言えば、パープレキシティは、モデルが各ステップで「選択」する平均的な選択肢の数を示します。パープレキシティが低いほど、モデルの確信度と精度が高いことを意味します。

最適化

LLMの学習は、数十億のモデルパラメータを調整して損失関数を最小化するプロセスです。このために、勾配降下法に基づく手法が用いられます。最も一般的なのはAdam(Adaptive Moment Estimation)オプティマイザとその変種(AdamWなど)で、これらは各パラメータの学習率を適応的に調整します。

学習パラダイム

  1. 事前学習(Pre-training): モデルは、巨大なラベルなしテキストコーパス(Common Crawl, The Pile, C4など)を用いて、以下のような自己教師ありタスクで学習されます。
    • 因果言語モデリング(CLM): 次のトークンを予測する(GPTで使用)。
    • マスク化言語モデリング(MLM): テキスト内のランダムにマスクされたトークンを復元する(BERTで使用)。
  2. ファインチューニング(Fine-tuning): 事前学習後、モデルは小規模なラベル付きデータセットで特定のタスクに適応させられます。
  3. アライメント(Alignment): モデルの振る舞いを人間の好みや価値観に合わせることを目的とした、特別なファインチューニング段階。主要な手法はRLHF(人間のフィードバックによる強化学習)で、人間の好みを予測するモデルからの報酬信号を用いてモデルをファインチューニングします。

スケーリング則と創発的能力

経験的研究により、LLMの性能は、モデルサイズ(パラメータ数 N)、学習データセットのサイズ (D)、計算量 (C) という3つの要素の増加に伴い、予測可能に向上することが示されています。この依存関係はべき乗則(スケーリング則)によって記述されます。

OpenAIの研究(Kaplan et al., 2020)で提案された法則は、損失関数 LN, D, C のべき関数として減少することを示しています。後のDeepMindの研究(Hoffmann et al., 2022)はこれらの法則(Chinchilla則)を改良し、最適な学習のためにはモデルサイズとデータ量の両方をバランスよく増加させる必要があることを示しました。

スケーリングの重要な結果として、創発的能力の出現が挙げられます。これは、モデルが明示的に学習していないタスク(算術、論理的推論、コード記述など)を解決し始める際の、質的な性能の飛躍です。これらの能力は、通常、小規模なモデルには見られず、特定のスケールのしきい値に達した後にのみ現れます。

テキスト生成:デコーディング戦略

学習後、モデルは次のトークンを繰り返し予測することでテキストを生成します。モデルが出力した確率分布から次のトークンを選択するために、さまざまなデコーディング戦略が用いられます。

  • グリーディーサーチ(Greedy Search): 常に最も確率の高いトークンを選択します。高速ですが、反復的で単調なテキストになりがちです。
  • ビームサーチ(Beam Search): 各ステップで k 個の最も確率の高いシーケンスを保持することで、より最適なグローバル解を見つけることができます。
  • 温度サンプリング: トークンの確率は温度T)パラメータによって調整されます。T>1 の場合、分布はより均一になり(創造性が増す)、T<1 の場合、よりピークが鋭く(ランダム性が減る)なります。
  • Top-k サンプリング: 各ステップで、サンプリングを最も確率の高い k 個のトークンに限定します。
  • Top-p(Nucleus)サンプリング: サンプリングを、合計確率がしきい値 p を超える最小のトークンセットに限定します。これにより、候補プールのサイズを動的に調整できます。

理論的な課題と限界

  • ハルシネーション(幻覚): モデルが事実と異なるが、もっともらしく聞こえる情報を生成する傾向。これは、モデルがテキストの真実性ではなく、その確率を最適化しているためです。
  • バイアス(Bias): LLMは、学習データに存在する社会的、文化的、その他のバイアスを受け継ぎ、増幅させます。
  • 解釈可能性(「ブラックボックス」): パラメータ数が膨大であるため、モデルがどのようにして意思決定を行っているかを理解することが極めて困難であり、デバッグを妨げ、リスクを生み出します。
  • 計算の複雑さ: 自己アテンション機構はシーケンス長に対して二乗の計算量(O(n2))を持つため、処理可能なコンテキストの最大長が制限されます。

関連項目

  • 大規模言語モデル
  • BERT
  • GPT

参考文献

  • Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
  • Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
  • Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
  • Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.