T5 (Text-to-Text Transfer Transformer) — T5
T5(Text-to-Text Transfer Transformer)は、Google AIの研究者によって開発され、2019年に発表された大規模言語モデルのファミリーです[1]。T5の主要な革新は、統一された「text-to-text」フレームワークであり、あらゆる自然言語処理(NLP)タスクを、あるテキストシーケンスを別のテキストシーケンスに変換する問題として扱います。これにより、翻訳、要約、質疑応答、分類といった幅広いタスクに対して、単一のモデル、損失関数、学習手順を使用することが可能になりました[2]。
モデルは標準的な「エンコーダー・デコーダー」トランスフォーマーアーキテクチャに基づいており、この点がBERT(エンコーダーのみ)やGPT(デコーダーのみ)のようなモデルとは異なります。T5に関する研究は、根本的に新しい手法を創造するというよりは、NLPにおける様々な転移学習の手法を体系的に調査・比較するための大規模な実証研究として考案されました[1]。
Text-to-Text Paradigm - Text-to-Textパラダイム
T5の中心的なアイデアは、すべてのタスクが統一された形式で定式化されることです。モデルは入力としてテキストを受け取り、出力としてもテキストを生成します。モデルが与えられたタスクを区別できるように、入力シーケンスには特別なテキストのプレフィックス(指示)が追加されます[2]。
- 翻訳: `translate English to German: That is good.` → `Das ist gut.`
- 感情分類: `sst2 sentence: a very exciting film.` → `positive`
- 要約: `summarize: [記事の長いテキスト]` → `[短い要約]`
このアプローチは、BERTのようなアーキテクチャで特徴的だった、個々のタスクごとに特有の「ヘッド」(task-specific heads)を開発する必要性をなくし、モデルの適用プロセスを根本的に簡素化します[3]。
アーキテクチャとスケーリング
エンコーダー・デコーダーアーキテクチャ
T5は、2つの部分から構成される標準的なトランスフォーマーアーキテクチャを使用します[1]:
- エンコーダー: 入力シーケンス全体を一度に処理し、文脈に応じた豊富な表現を生成します。BERTと同様に、T5のエンコーダーは双方向です。
- デコーダー: エンコーダーから受け取った表現を使用して、出力テキストをトークンごとに(自己回帰的に)生成します。
このハイブリッド構造により、T5は言語理解タスクとテキスト生成タスクの両方を効率的に解決できます[4]。
主な改良点
T5のアーキテクチャには、オリジナルのトランスフォーマーモデルと比較していくつかの変更点が含まれています:
- 相対位置エンベディング: 絶対的な正弦波エンベディングの代わりに、T5は単純でありながら効果的な形式の相対位置エンコーディングを使用します。この方法では、アテンションのロジットに、トークン間の相対的な距離のみに依存する学習可能なスカラーバイアスが追加されます[1]。
- 修正されたレイヤー正規化(Layer Norm): 正規化は残差接続(residual connection)の外側に移動され、学習の安定性を向上させるために加算的なバイアスが削除されています。
モデルのスケール
オリジナルの論文では、モデルはパラメータ数が異なるいくつかの構成で提示され、これによりスケールの影響を体系的に調査することが可能になりました[5]:
- T5-Small: 約6000万パラメータ
- T5-Base: 約2億2000万パラメータ
- T5-Large: 約7億7000万パラメータ
- T5-3B: 約30億パラメータ
- T5-11B: 約110億パラメータ
この研究は、モデルのスケールを拡大することが、その性能を向上させる最も確実な方法の一つであることを示しました[1]。
Pre-training: C4 Dataset and Span Corruption Task - 事前学習:C4データセットとSpan Corruptionタスク
Span Corruption Task - Span Corruptionタスク
T5の事前学習には、ノイズ除去(denoising)タスク、具体的にはスパン破壊(span corruption)と呼ばれる特定のバリアントが選ばれました[6]。この手法は次のように機能します:
- 入力テキスト内のトークンの15%がランダムにマスクされます。
- 個々のトークンがマスクされるBERTにおけるMLM手法とは異なり、T5では連続したフラグメント(spans)全体がマスクされます。
- 破壊された各スパンは、単一のユニークなマスク・トークン(例:`<X>`, `<Y>`)に置き換えられます。
- モデルは、対応するマスクで区切られた、削除されたフラグメントのシーケンスを出力するように学習します。
このアプローチにより、モデルはテキストのシーケンス全体を予測する必要があり、これは単純な言語モデリングよりも効果的な事前学習タスクであることが示されました[1]。
C4 Dataset (Colossal Clean Crawled Corpus) - C4データセット(Colossal Clean Crawled Corpus)
転移学習の可能性を実現するため、研究者たちは約750GBの容量を持つ、巨大で高品質にクリーンアップされたテキストデータセットC4を作成しました[2]。これは、一般公開されているウェブコーパスCommon Crawlを大規模にクリーンアップおよびフィルタリングすることによって得られました[7]。クリーンアッププロセスには、重複の削除、定型文(「Lorem ipsum」)、不完全な文の除去、および不適切な語彙のフィルタリングが含まれていました[8]。
C4データセットへの批判
「クリーンな」コーパスを作成するという公言された目標にもかかわらず、C4のフィルタリングプロセスは体系的なバイアスについて批判を受けています。研究により、不適切な語彙フィルターがLGBTQ+コミュニティに関連するテキストやアフリカ系アメリカ人英語(AAE)のテキストを不均衡に削除していることが示されました[8]。さらに、データセット内には相当量の攻撃的なコンテンツや著作権で保護されたコンテンツが発見されました。これらの問題は、客観的に「質の高い」データセットを作成することの難しさと、フィルタリングに関する技術的な決定が意図しない社会的バイアスをどのように引き起こすかを例証しています。
結果とパフォーマンス
発表当時、T5はGLUE、SuperGLUE、SQuAD、要約タスクなど、多くのベンチマークで新たな最高性能(state-of-the-art)を記録しました[2]。特に、T5-11BモデルはSuperGLUEで人間レベルに近い結果を達成し、複雑な論理的推論を必要とするタスクに対応できる能力を示しました[9]。これらの結果は、研究の中心的な仮説を裏付けました。すなわち、統一されたフレームワーク、大規模なスケール、そして質の高いデータセットの組み合わせが、NLPで最先端の結果を達成するための極めて強力な戦略であるということです。
T5の進化とバリエーション
T5のアプローチは、その後の多くのモデルの基礎となりました:
- mT5: 101言語をカバーするmC4コーパスで学習されたT5の多言語版[10]。
- ByT5: トークン化を完全に排除し、生のUTF-8バイトで直接動作する実験的なバージョン。これにより、タイプミスに強く、あらゆる言語を「そのまま」処理できます[11]。
- Switch Transformer: Mixture-of-Experts(MoE)アーキテクチャを導入したT5のスケーラブルなバージョン。これにより、妥当な計算コストを維持しながら、パラメータ数を数兆にまで増加させることが可能になりました[12]。
- FLAN-T5: これは新しいアーキテクチャではなく、標準のT5に、指示(instruction tuning)として定式化された数百のタスクで追加のファインチューニングを施したものです。これにより、未知の新しいタスクに対するゼロショット(例なし)での汎化能力が大幅に向上しました[13]。
- UL2: T5のアイデアを発展させたモデルで、Mixture of Denoisersという新しい事前学習目的を使用します。これは、汎用性を向上させるために様々なテキストマスキング手法を組み合わせたものです[14]。
外部リンク
参考文献
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv:1910.10683.
- Xue, L. et al. (2021). mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer. arXiv:2010.11934.
- Dodge, J. et al. (2021). Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. arXiv:2104.08758.
- Fedus, W. et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Ni, J. et al. (2021). Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models. arXiv:2108.08877.
- Guo, M. et al. (2021). LongT5: Efficient Text-To-Text Transformer for Long Sequences. arXiv:2112.07916.
- Xue, L. et al. (2022). ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. arXiv:2105.13626.
- Tay, Y. et al. (2022). UL2: Unifying Language Learning Paradigms. arXiv:2205.05131.
- Chung, H. W. et al. (2022). Scaling Instruction-Finetuned Language Models. arXiv:2210.11416.
- Longpre, S. et al. (2023). The Flan Collection: Designing Data and Methods for Effective Instruction Tuning. arXiv:2301.13688.
脚注
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 Raffel, Colin; Shazeer, Noam; Roberts, Adam; et al. «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Journal of Machine Learning Research. [1]
- ↑ 2.0 2.1 2.2 2.3 «Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer». Google Research Blog. [2]
- ↑ «A Detailed Look At Google's T5 Model in NLP». DhiWise Blog. [3]
- ↑ «T5 (Text-to-Text Transfer Transformer)». GeeksforGeeks. [4]
- ↑ «T5». Hugging Face Transformers Documentation. [5]
- ↑ «T5 (language model)». In Wikipedia. [6]
- ↑ «C4 Dataset». Papers With Code. [7]
- ↑ 8.0 8.1 Dodge, J.; Sap, M.; Marasović, A.; et al. «Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus». arXiv. [8]
- ↑ «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit, r/linguistics. [9]
- ↑ Xue, Linting; Constant, Noah; Roberts, Adam; et al. «mT5: A massively multilingual pre-trained text-to-text transformer». arXiv. [10]
- ↑ Xue, Linting; Barua, Aditya; Constant, Noah; et al. «ByT5: Towards a token-free future with pre-trained byte-to-byte models». arXiv. [11]
- ↑ Fedus, William; Zoph, Barret; Shazeer, Noam. «Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity». arXiv. [12]
- ↑ Chung, Hyung Won; et al. «Scaling Instruction-Finetuned Language Models». arXiv. [13]
- ↑ Tay, Yi; Dehghani, Mostafa; Tran, Vinh; et al. «UL2: Unifying Language Learning Paradigms». arXiv. [14]