GPT (OpenAI) — 生成可能な事前学習済みトランスフォーマー

From Systems analysis wiki
Jump to navigation Jump to search

GPTGenerative Pre-trained Transformer)は、OpenAIによって開発された大規模言語モデル(LLM)のファミリーです。GPTモデルはトランスフォーマーアーキテクチャに基づいており、生成的事前学習のパラダイムを実装しています。最初の段階では、モデルは明示的なラベル付けのない広範なテキストコーパスで学習し、その後、特定のタスクに合わせてファインチューニング(追加学習)することができます。

名称

頭字語GPTは、Generative Pre-trained Transformer(生成可能な事前学習済みトランスフォーマー)の略です。

  • 生成可能(Generative):モデルがテキストなどの新しいコンテンツを作成(生成)できることを意味します。
  • 事前学習済み(Pre-trained):モデルが、インターネット上のテキストなど、大規模なデータセットで広範な初期学習フェーズを経ることを示します。事前学習後、モデルはより特定のタスクを実行するために追加で「ファインチューニング」されることがよくあります。
  • トランスフォーマー(Transformer):GPTや他の多くの現代的なAIモデルの基礎となる重要な革新である、特定のニューラルネットワークアーキテクチャの名称です。

GPTの主な特徴は、自己回帰形式で学習が行われることです。つまり、モデルは前の文脈に基づいて次のトークンを予測します。モデルは、前のトークンのシーケンスが与えられた場合に次のトークンの確率を最大化するように学習します。学習中、次の要素の予測誤差を最小化することで、高い首尾一貫性と結束性を持つテキストを生成することが可能になります。

GPTにおけるテキスト生成プロセス

GPTモデルは、以下の反復的な手順に従って、トークンごとにテキストを逐次的に生成します。

  • 初期のテキストシーケンス(プロンプト、シードテキスト)を入力として受け取ります。
  • テキストの次の要素について、辞書内のすべてのトークンに対する確率分布を計算します。
  • 次のトークンを選択します。
    • 最も確率の高いものを選択(貪欲法)。
    • または、確率的サンプリング(sampling)手法を使用。
    • または、特別なフィルタリング戦略(top-k, top-p)を使用。
  • 選択されたトークンを現在のシーケンスに追加します。
  • 更新されたシーケンスが、次のトークンを予測するために再度モデルに入力されます。

トランスフォーマーアーキテクチャ:テキスト処理

次のトークンを予測するためのトランスフォーマー内部でのデータ処理プロセスには、いくつかの主要な段階が含まれます。

  • トークン化 (Tokenization):入力テキストはトークンに分割されます。トークンは、単語、単語の一部、または句読点などの小さなテキスト単位です。例えば、GPT-3モデルの語彙には約50,257個のトークンが含まれます。
  • トークン埋め込み (Embeddings):各トークンは、埋め込み行列(W_E)を使用して固定長のベクトルに変換されます。ベクトルはトークンの意味を符号化し、意味的に近いトークンは多次元空間で近くに配置されます。GPT-3モデルでは、埋め込みの次元数は12,288です。
  • トランスフォーマー層での処理
    • アテンションブロック(Attention Blocks):各トークンはシーケンス内の他のトークンと相互作用します。アテンション機構により、文脈を考慮し、単語の意味を正しく解釈することができます。
    • 全結合層(Feed-Forward Layers):アテンションの後、各トークンは非線形活性化関数を持つ2層のニューラルネットワークを介して個別に処理されます。
  • 逆変換とSoftmax:すべての層を通過した後、処理されたベクトルは、多くの場合W_Eの転置版である行列(W_U)を使用してトークン空間に逆変換されます。結果として得られるロジットベクトルは、Softmax関数によって正規化され、すべてのトークンに対する確率分布が得られます。
  • 次のトークンの選択(Sampling):次のトークンは確率分布に基づいて選択されます。温度(temperature)パラメータは選択のランダム性を制御します。温度が0の場合、最も確率の高いトークンが選択され、温度が高いほど、確率の低い選択肢が選ばれる可能性が高まり、テキストの多様性が増します。

GPTモデル

  • GPT-1(2018年):ファミリー初のモデル。約1億1700万パラメータ。2段階の学習(事前学習+NLPタスクでのファインチューニング)。
  • GPT-2(2019年):15億パラメータ。WebTextコーパスで学習。初めて長いまとまりのあるテキストを生成する能力を示した。zero-shot生成の品質が向上。
  • GPT-3(2020年):1750億パラメータ。Common Crawl、Books、Wikipediaの集合体で大規模学習。few-shotおよびzero-shot能力が大幅に向上。
  • GPT-3.5(2022年):GPT-3とGPT-4の中間バージョン。人間からのフィードバックによる強化学習(RLHF)により、指示追従能力が向上。コンテキストウィンドウが最大4096トークンに増加。
  • GPT-4(2023年):テキストと画像の入力を受け付けるマルチモーダルモデル。コンテキストが8,192および32,768トークンに安定的に拡張。精度、堅牢性、論理的推論が大幅に向上。
  • GPT-4 Turbo(2023年):GPT-4の最適化版。コンテキストウィンドウが128,000トークンに増加。遅延と運用コストが低減。
  • GPT-4o(2024年):新世代のマルチモーダルモデル(テキスト、画像、音声)。非常に高速かつ高精度な応答。コンテキストウィンドウ128,000トークン。
  • GPT-4.5(2025年):GPT-4を基にした研究版で、ユーザーの要求理解の向上、エラーの削減、複雑な応答生成の最適化が図られている。コンテキストウィンドウ128,000トークン。
  • GPT-4.1(2025年):GPT-4ファミリーの改良版で、コンテキストウィンドウが最大1,048,576トークンに拡張され、マルチモーダルに対応。

GPT-1

最初のモデルであるGPT-1は、2018年にOpenAIが論文「Improving Language Understanding by Generative Pre-Training」で発表しました。このモデルは約1億1700万のパラメータを持ち、トランスフォーマーアーキテクチャに基づいて構築されました。GPT-1の学習は、教師なし生成的 dla事前学習(pre-training)の段階と、それに続く教師ありファインチューニング(fine-tuning)の2段階で行われました。

事前学習の段階では、モデルは様々なジャンルの未発表書籍7,000冊以上を含むBookCorpusで学習されました。このコーパスの特徴は、長く連続したテキストの断片が含まれていることであり、これはモデルが複雑で広範なテキストの依存関係を処理する能力を形成する上で非常に重要でした。

ファインチューニングの段階では、モデルは以下のような特定の自然言語処理タスクを解決するために適応されました。

  • 質疑応答(Question Answering, QA) — 与えられたテキストの文脈に基づいて正しい回答を生成する。
  • テキスト含意認識(Natural Language Inference, NLI) — 2つのテキスト間の論理的関係(含意、矛盾、中立)を判断する。
  • 意味的テキスト類似性評価(Semantic Textual Similarity) — 2つのテキストシーケンス間の意味的な近さを測定する。

このアプローチにより、GPT-1は多くの標準的なテキスト理解ベンチマークで、以前のモデルを大幅に上回る性能を示しました。

GPT-1の開発は、自然言語処理(NLP)分野におけるいくつかの重要な成果と発見を示しました。

  • 生成的 dla事前学習の有効性:ラベルなしテキストの大規模なコーパスでの事前学習が、モデルに普遍的な言語表現を習得させ、根本的なアーキテクチャの変更なしに様々な応用タスクで利用できることが経験的に確認されました。
  • トランスフォーマーアーキテクチャの普遍性:多層のデコーダトランスフォーマーを使用することで、モデルはテキスト内の長期的な依存関係をうまく処理できるようになりました。これは以前の再帰型ニューラルネットワークベースのモデルでは困難でした。
  • データラベリングへの依存度の低減:この研究は、ラベルなしデータでの大規模な事前学習が、ターゲットタスクで高い品質を達成するために必要なラベル付きデータの量を大幅に削減できることを確認しました。
  • その後の発展の基盤:GPT-1の成果は、GPTファミリーの後続モデル(GPT-2、GPT-3など)の概念的および技術的な基盤を築きました。

GPT-2

GPT-2モデルは、2019年2月にOpenAIによって発表されました。サイズは前身を大幅に上回り、フルバージョンのモデルには約15億のパラメータが含まれていました。BookCorpus(約5GB)で学習したGPT-1とは異なり、GPT-2は特別に収集された約40GBのWebTextコーパスで学習されました。このコーパスには、質の高いインターネットソースからのテキストデータが含まれています。モデルのサイズと学習データの量の両方を増やすことで、GPT-2はテキスト生成の品質を大幅に向上させ、内容のある記事、物語、さらにはまとまりのある文学的な散文の断片を作成する能力を示しました。

GPT-2では、GPT-1と同様の自己回帰トランスフォーマーデコーダアーキテクチャが大きな変更なく採用されました。モデルは48の自己アテンション層から構成され、隠れ状態のサイズは1600、パラメータ数は約15億でした。学習は、マスク付きアテンション機構を用いて、前の文脈に基づいて次のトークンを予測するタスクで行われました。

GPT-2の主な違いの1つは、モデルが初めてzero-shot learning(ゼロショット学習)において高い効果を発揮したことです。これは、特定のタスクの例で明示的なファインチューニングを経ずに新しいタスクを解決する能力です。モデルは一般化されたテキストの大規模なコーパスで学習され、特定のタスクのデータで専門的な学習は行われませんでした。評価はzero-shotモードで行われ、モデルは事前学習プロセスで得た知識のみに基づいてタスクを実行しました。多くの言語モデリングタスクにおいて、GPT-2は特定のデータセット(例:Wikipedia、ニューステキスト、書籍)で特別に学習されたモデルと同等またはそれ以上の品質を達成しました。

GPT-3

GPT-3モデルは、2020年6月にOpenAIによって発表されました。これはGPT-2に続く生成的トランスフォーマーの次のステップであり、アーキテクチャを1750億パラメータにスケールアップしたことで、当時最大の言語モデルとなりました。

GPT-3のアーキテクチャは基本的に以前のままで、根本的な変更のない多層自己回帰トランスフォーマーデコーダでした。主な性能向上は、層の数、隠れ層の幅、学習の規模を増やすことによって達成されました。モデルは、Common Crawl、WebText2、Books1、Books2、Wikipediaを含む複数の大規模テキストコーパスの組み合わせで学習され、合計で約570GBのデータが使用されました。

GPT-3の主な特徴の1つは、few-shot learningおよびzero-shot learningの能力でした。モデルは、テキストプロンプトにいくつかの例を含めるか、あるいは例がなくても、翻訳、要約、質疑応答、エッセイ執筆、さらにはプログラミングまで、幅広い自然言語処理タスクを実行できました。

GPT-3.5

GPT-3.5モデルは、GPTファミリーの進化の一環として、2022年末にOpenAIによって発表されました。これは、GPT-3で使用されたスケーラブルな自己回帰トランスフォーマーデコーダのアーキテクチャを基盤とし、テキスト生成の品質、文脈処理、複雑な指示に従う能力が向上しています。GPT-3.5の正確なパラメータ数は公式には明らかにされていませんが、GPT-3モデルのパラメータ数に匹敵すると考えられています。

GPT-3.5の学習には、人間からのフィードバックに基づく強化学習(Reinforcement Learning from Human Feedback, RLHF)の手法が広範に利用され、これにより生成される回答の関連性が向上しました。モデルは、Common Crawl、Books、WebText、その他の高品質なソースを含む拡張されたテキストコーパスで学習されました。GPT-3.5の特徴として、一般的なバージョン(例:gpt-3.5-turbo)では最大コンテキストウィンドウが4096トークンに増加し、より長い対話や複雑な指示を処理できるようになりました。

実践において、GPT-3.5は以下のような幅広い自然言語処理タスクに対応するよう適応されました。

  • 一貫性のある論理的なテキストの生成
  • 質疑応答(QA)と文脈理解
  • 複数ステップの指示への追従
  • 対話における長期的な文脈の維持能力の向上

GPT-3.5を基に、さまざまな目的のためにいくつかの主要なバージョンがリリースされました。

  • text-davinci-002 — GPT-3.5に基づく最初の一般公開モデルで、生成と指示追従に最適化されています。
  • text-davinci-003 — 推論能力と複雑なテキスト生成能力がさらに向上した改良版。
  • gpt-3.5-turbo — 2022年末からChatGPTサービスで使用された、最も高性能で経済的なGPT-3.5のバージョン。

GPT-4

GPT-4モデルは、2023年3月14日にOpenAIが論文"GPT-4 Technical Report"で発表しました。これは言語モデルファミリーの次の発展段階となり、テキスト理解、意味のある創造的な回答の生成、そしてマルチモーダルデータの処理において大幅な改善をもたらしました。モデルの正確なパラメータ数やアーキテクチャの詳細は公式には明らかにされていませんが、GPT-4はサイズと複雑さにおいてGPT-3.5を大幅に上回ると一般に考えられています。GPT-4の学習は、テキストデータ、画像、その他の情報タイプを網羅する大規模なテキストおよびマルチモーダルコーパスに基づいていました。モデルはRLHF(人間からのフィードバックに基づく強化学習)の手法を使用しました。モデルの重要な特徴の1つは、コンテキストウィンドウの増加でした。基本バージョンでは最大8,192トークン、拡張バージョン(GPT-4 Turbo)では最大32,768トークンまで対応し、長いテキストや複雑な対話の処理を可能にしました。

GPT-4の学習は、大規模なテキストおよびマルチモーダルコーパスの組み合わせで行われました。テキスト部分には、インターネット、書籍、記事、コードリポジトリから厳選された高品質なデータが含まれていました。マルチモーダルバージョンでは、対応するテキスト記述付きの専門的な画像データセットが使用されました。

学習はいくつかの段階で行われました。

  • テキストと画像に関する大規模な教師なし事前学習
  • 特定のタスクに関する教師ありファインチューニング
  • 信頼性、安全性、指示解釈の質を向上させるための、人間からのフィードバックに基づく強化学習(RLHF)の最終段階

学習プロセスを最適化するために、数千のGPUと、深いアーキテクチャを持つ超大規模モデルの学習を安定させることができる専門のオプティマイザを使用した分散学習技術が適用されました。エラー頻度の低減、「ハルシネーション」に対するモデルの耐性の向上、長い入力シーケンスでの生成の安定性の向上に特に注意が払われました。

GPT-4を基に、いくつかの主要なバージョンがリリースされました。

  • GPT-4(2023年3月):テキストおよび画像の入力をサポートする基本バージョン。コンテキストウィンドウは8,192トークン(拡張版は32,768トークン)。
  • GPT-4 Turbo(2023年11月):GPT-4の最適化された改良版で、コンテキストウィンドウが128,000トークンに増加。計算コストの削減と生成の高速化。関数呼び出し(function calling)およびJSON出力モードをサポート。
  • GPT-4o(2024年5月):テキスト、画像、音声を処理できる新世代のマルチモーダルバージョン。応答速度と対話の質が向上。コンテキストウィンドウは128,000トークン。
  • GPT-4.5(2025年2月):複雑なテキストの生成能力が向上し、指示実行の精度が高まり、ハルシネーションのレベルが低減された研究版。コンテキストウィンドウは128,000トークン。
  • GPT-4.1(2025年4月):コンテキストが最大1,048,576トークンに大幅に拡張された安定版。プログラミング、長文テキストの処理、マルチモーダル推論のタスクにおける効率が向上。

GPT-5

2025年8月7日、OpenAIはGPT‑5を「最も賢く、速く、役立つ」モデルとして発表しました。このモデルには、推論モード(「thinking」)が組み込まれ、執筆、プログラミング、健康、マルチモーダル理解といった実用的なシナリオに重点が置かれています。GPT‑5は、すべての認証済みユーザー向けにChatGPTのデフォルトモデルとなりました。[1]

GPT‑5は、2つの主要コンポーネントからなる単一のシステムです。日常的なクエリに対応する高速で経済的な応答(gpt‑5‑main)と、複雑なタスクに対応する詳細な推論(gpt‑5‑thinking)です。ルーターが、対話の種類、複雑さ、ツールの必要性、ユーザーからの明示的なヒント(例:「think hard about this」)に基づいて、適切なモードをリアルタイムで選択します。ChatGPTでは「ミニ/プロ」バリアントも利用可能で、システムカードにはGPT‑4/oシリーズのファミリー名とGPT‑5のバリアントとの対応関係が記載されています。

APIでは3つのサイズ(gpt-5gpt-5‑minigpt-5‑nano)が利用可能で、すべてテキストと画像を扱えます。最大の合計コンテキストは40万トークン(入力に最大約27万2000、推論と出力に最大12万8000)で、これはAPIのGPT‑5ファミリー全体で固定されています。公開ページにも同様の指標と価格カードが記載されています。

ウェブ検索や公開されている事実に基づいたデータセットにおいて、GPT‑5はハルシネーションを大幅に削減しています。GPT‑4oと比較してエラーが約45%少なく、OpenAI o3と比較して「thinking」モードでは約80%少なくなっています。また、不可能なタスクを含むテストにおいて、「欺瞞」への傾向が減少したことも確認されています。

GPTモデルの発展
世代 リリース年 パラメータ数 テキストコーパスのサイズ 主な特徴
GPT-1 2018 約1億1700万 約5 GB (BooksCorpus) 大規模コーパスでの生成的 dla事前学習、2段階学習 (pretraining + fine-tuning)
GPT-2 2019 15億 約40 GB (WebText) テキスト生成の向上、モデルの部分的な公開
GPT-3 2020 1750億 約570 GB (Common Crawl, WebText2など) 大規模なin-context learning、ファインチューニングなしでのfew-shotおよびzero-shot学習が可能
GPT-3.5 2022 約60億~1750億 (バージョンによる) >570 GB + 追加のinstruction tuning 安定性の向上、指示追従の学習、ChatGPTの基盤
GPT-4 2023 非公開 (推定:5000億以上) 非公開 (推定:数兆トークン) マルチモーダル (テキスト + 画像)、精度の向上、ハルシネーションへの耐性
GPT-4 Turbo 2023 非公開 GPT-4の学習に基づく コンテキストを128,000トークンに拡大、生成速度とコストの最適化
GPT-4o 2024 非公開 マルチモーダルデータでの学習 テキスト、画像、音声のマルチモーダル処理、高速な応答
GPT-4.5 2025 非公開 拡張されたテキストおよびマルチモーダルコーパス 指示実行の向上、エラー頻度の低減、研究リリース
GPT-4.1 2025 非公開 更新されたコーパス、品質の最適化 コンテキストが最大1,048,576トークン、性能と精度の向上、マルチモーダル


GPTモデルのアーキテクチャパラメータ
モデル リリース年 パラメータ数 層の数 隠れ状態のサイズ アテンションヘッドの数 コンテキストウィンドウ 学習コーパスのサイズ
GPT-1 2018 約1億1700万 12 768 12 512トークン 約5 GB (BooksCorpus)
GPT-2 2019 15億 48 1600 25 1024トークン 約40 GB (WebText)
GPT-3 2020 1750億 96 12,288 96 2048トークン 約570 GB (Common Crawl + WebText2 + その他)
GPT-3.5 2022 約60億~1750億 (バージョンによる) (推定約96) (推定:GPT-3と同様) (非公開) 4096トークン 拡張されたCommon Crawl + 追加データセット
GPT-4 2023 (非公開、推定:5000億以上) (非公開) (非公開) (非公開) 8,192トークン 推定数兆トークン
GPT-4 Turbo 2023 (非公開) (非公開) (非公開) (非公開) 32,768トークン コスト削減のために最適化されたGPT-4バージョン
GPT-4o 2024 (非公開) (非公開) (非公開) (非公開) 128,000トークン マルチモーダルデータ(テキスト、音声、画像)での学習
GPT-4.5 2025 (非公開) (非公開) (非公開) (非公開) 128,000トークン 指示実行の向上、エラー頻度の低減
GPT-4.1 2025 (非公開) (非公開) (非公開) (非公開) 1,048,576トークン マルチモーダル、コンテキストを拡大したスケーラブルな学習

外部リンク

注釈

  1. 「Introducing GPT-5」。2025年9月2日。 [1]

参考文献

  • Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
  • Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
  • Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
  • Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  • Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
  • OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
  • Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.