Few-Shot and Zero-Shot Learning — フューショットとゼロショット
少数ショット学習(Few-shot Learning, FSL)およびゼロショット学習(Zero-shot Learning, ZSL)は、ラベル付きデータの不足という問題を解決することを目的とした機械学習のパラダイムです。これらは、モデルが非常に限られた情報から学習し、知識を汎化させることを可能にします。これは、大規模なデータセットの収集が不可能または非現実的な実世界のシナリオで人工知能を応用するための鍵となります。
データ不足という普遍的な問題
現代の深層学習モデルは目覚ましい成果を上げていますが、その性能は通常、膨大な量のラベル付きデータに直接依存します。このようなデータの収集とアノテーションは、コストと時間がかかり、多くの場合、実行不可能なプロセスです。この「データ飢餓」として知られる問題は、特に次のような分野で深刻です:
- 希少疾患の診断。
- 専門的な工業生産。
- ロボット工学と新しい物体とのインタラクション。
- 絶えず出現する新製品やトピックの分類。
FSLとZSLは、「ビッグデータ」から「スマートデータ」へと焦点を移し、知識の効率的な転移と汎化に重点を置くことで、この問題の解決策を提示します。
Few-shot Learning - 少数ショット学習
少数ショット学習(Few-shot Learning, FSL)とは、モデルがサポートセット(support set)と呼ばれる非常に少数のラベル付きサンプル(通常1~5個)に基づいて新しいクラスを認識するよう学習するパラダイムです。
基本的な考え方
FSLの基本的な考え方は、特定のクラスの特徴を学習するだけでなく、学習プロセスそのもの(learning to learn)を学ぶことです。モデルは、最小限のサンプルを用いて、未知の新しいタスクに迅速に適応できなければなりません。これは、事前に獲得した知識と適応戦略を利用することで実現されます。
FSLの主なアプローチ
- メタ学習(「学習するための学習」): これはFSLにおける主要なパラダイムです。モデルは、新しいタスクに効率的に適応する方法を学ぶために、多種多様なタスクで訓練されます。
- メトリックベース: モデル(例:シャムネットワーク、プロトタイプネットワーク)は、ベクトル間の距離が意味的な近さを反映する埋め込み空間を構築することを学習します。新しいサンプルの分類は、その埋め込みをサポートセットの埋め込みと比較することによって行われます。
- 最適化ベース: モデル(例:MAML)は、新しいタスクに対して迅速に(数ステップの勾配降下で)ファインチューニングできるようなパラメータの初期化を見つけることを学習します。
- 文脈内学習(In-Context Learning): 大規模言語モデル(LLM)の登場により、サポートセットの例をプロンプト内で直接モデルに提供するアプローチが普及しました。モデルは、重みを更新することなく、推論時に「暗黙のメタ学習」を実行してタスクに適応します。
FSLの発展的アプローチ
- One-shot Learning: これは、各クラスのサンプル数が1つ(「N-way K-shot」表記法でK=1)であるFSLの特殊なケースです。典型的なアーキテクチャの例として、Matching NetworksやSiamese Networksがあります。
- 生成的アプローチとデータ拡張: FSLでは、追加のデータサンプルを合成するために、生成的モデル(GAN、VAE、拡散モデル)が積極的に利用されます。これにより、サポートセットを人為的に拡張し、特に希少なクラスや珍しいクラスに対する分類性能を向上させることができます。
- トランスダクティブFSL: 標準的な(帰納的な)アプローチとは異なり、このアプローチでは、モデルは適応時にラベル付きのサポートセットだけでなく、ラベルなしのテストサンプル(クエリ)の集合全体も考慮します。これにより、例えばラベル伝播(label propagation)のような技術を用いてクエリ内のデータ構造を捉え、分類の頑健性を高めることができます。
Zero-shot Learning - ゼロショット学習
ゼロショット学習(Zero-shot Learning, ZSL)とは、モデルが学習段階で一度も見たことのないクラスを認識できるパラダイムです。
基本的な考え方
これは、既知のクラスと未知のクラスの両方を記述する補助的な意味情報を利用することで実現されます。モデルは、入力特徴空間(例:画像)から共通の意味空間へのマッピングを学習します。
意味情報のメカニズム
- 意味的属性: クラスは、人間が定義した属性のセットによって記述されます(例:「シマウマ」クラスの場合:[縞模様がある, 蹄がある, 哺乳類である])。
- 単語埋め込み(Word Embeddings): クラス名やそのテキスト記述は、事前学習済みの言語モデル(例:Word2Vec、BERT)を用いて埋め込みに変換されます。
- LLMにおけるプロンプティング: CLIPのようなマルチモーダルモデルの登場により、画像の埋め込みとクラスのテキスト記述(例:「犬の写真」「猫の写真」)の埋め込みとを比較することでZSLが実行できるようになりました。
ZSLの種類:従来型、一般化、帰納的、トランスダクティブ
- 従来型ZSL: テスト段階では、モデルは未知のクラスのサンプルのみを分類する必要があります。
- 一般化ZSL(Generalized ZSL, GZSL): より現実的で複雑なシナリオで、モデルは既知のクラスと未知のクラスの両方からサンプルを分類する必要があります。これは、モデルが新しいものを認識するだけでなく、既知のものと区別し、既知のクラスへのバイアスと戦うことを要求します。
- 帰納的ZSL: 未知のクラスに関する情報に一切アクセスすることなく、既知のクラスのデータと意味記述のみでモデルを学習させる標準的な設定です。
- トランスダクティブZSL: より高度な手法で、学習中にモデルが未知のクラスのラベルなしサンプルを利用できます。これにより、意味空間を事前に適応させ、最終的な性能を向上させることが可能になります。
ZSLにおける生成的アプローチ
- 未知クラスの特徴生成: GZSLにおけるバイアスの問題を解決するため、生成的モデル(VAE、GAN)が広く利用されます。これらのモデルは、画像そのものではなく、未知クラスの意味記述に基づいてその特徴ベクトル(埋め込み)を合成します。これにより、最終的な分類器を学習するためのデータセットのバランスをとることができます。
比較分析と相乗効果
| 側面 | 少数ショット学習(FSL) | ゼロショット学習(ZSL) |
|---|---|---|
| 基本的な考え方 | 少数の例に基づいて新しいクラスに迅速に適応する方法を学習する。 | 意味記述に基づいて新しいクラスを認識する方法を学習する。 |
| 新しいタスク/クラスのデータ要件 | 新しい各クラスに対して少数のラベル付きサンプル(1~5個)。 | ラベル付きサンプルはゼロ。意味記述が必要。 |
| 知識転移 | 手続き的知識(「適応方法」)や優れた特徴空間の学習。 | 意味的な関係や属性を学習し、共通の意味空間を介して知識を転移する。 |
| 典型的なユースケース | 迅速なプロトタイピング、パーソナライゼーション、希少物体の認識、ロボット工学。 | 新種の発見、新たなトピックの分類、全く新しいタイプの製品の処理。 |
主要なニュアンスと現代の動向
- Zero-shot LearningとZero-shot Promptingの違い: これらの概念を区別することが重要です。ZSLは、特別なモデルと意味情報を必要とする機械学習のアーキテクチャパラダイムです。一方、Zero-shot Promptingは、大規模言語モデル(例:GPT-4)がプロンプト内に例を含めずに、自身の内部知識のみに依存してタスクを解決する応用的なプロンプトエンジニアリング技術です。
- 大規模な事前学習の役割: FSLとZSLの近年の成功は、強力な基盤モデル(BERT、CLIP、GPT-4)に大きく依存しています。膨大なデータセットでの事前学習によって、汎用的で意味的にリッチな埋め込みフロントエンドが構築され、これがデータ不足の状況下での迅速な適応と意味的推論のための優れた基盤となります。
FSLとZSLは、データ利用効率のスペクトルにおいて異なる点を表しており、しばしば組み合わせて使用されます。例えば、ZSLを用いて表現を初期化し、その後、新しいクラスの最初のサンプルが登場した際にFSLを用いてファインチューニングする、といった利用法があります。
主要な研究機関と貢献者
FSLとZSLの分野の研究は、学術界と産業界の研究所の両方で活発に進められています。
- 大学: スタンフォード大学、北京大学、シンガポール国立大学。
- 産業研究所: Google AI、Meta AI、OpenAI。
強力な基盤モデルの登場により、研究の焦点はFSL/ZSL専用のアーキテクチャ開発から、これらのモデルを効率的に適応させる手法へと移っています。
参考文献
- Finn, C. et al. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv:1703.03400.
- Koch, G. et al. (2015). Siamese Neural Networks for One-Shot Image Recognition. PDF.
- Vinyals, O. et al. (2016). Matching Networks for One Shot Learning. arXiv:1606.04080.
- Snell, J. et al. (2017). Prototypical Networks for Few-Shot Learning. arXiv:1703.05175.
- Sung, F. et al. (2018). Learning to Compare: Relation Network for Few-Shot Learning. arXiv:1711.06025.
- Chen, Y. et al. (2021). Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning. arXiv:2003.04390.
- Wang, Y. et al. (2020). Generalizing from a Few Examples: A Survey on Few-Shot Learning. arXiv:1904.05046.
- Xian, Y. et al. (2018). Zero-Shot Learning — A Comprehensive Evaluation of the State of the Art. arXiv:1707.00600.
- Verma, V. K. et al. (2018). Generalized Zero-Shot Learning via Synthesized Examples. arXiv:1712.03878.
- Radford, A. et al. (2021). Learning Transferable Visual Models from Natural Language Supervision. arXiv:2103.00020.
- Xian, Y. et al. (2019). Zero-Shot Learning via Simultaneous Generating and Learning. arXiv:1910.09446.
- Verma, V. K. et al. (2017). Zero-Shot Learning via Generative Adversarial Training of Class-Conditional Feature Vectors. arXiv:1712.00981.
関連項目
- Большие языковые модели