PaLM (Pathways Language Model) — PaLM
PaLM(Pathways Language Model)は、Googleによって開発された大規模言語モデル(LLM)のファミリーです。2022年4月に発表された最初のバージョンのモデルは、5400億のパラメータを含み、当時世界最大級の言語モデルの一つとなり、大規模なスケーリングの結果として画期的な能力を示しました[1]。
PaLMの主要な技術的基盤はPathwaysです。これはGoogleの新しい機械学習システムアーキテクチャであり、数千のアクセラレータチップ上での分散コンピューティングを効率的に調整することができます[2]。PaLMはこのシステムの初の大規模なデモンストレーションとなり、巨大なスケールでの前例のない学習効率を示しました。
Pathways System: Foundation for Scaling - Pathwaysシステム:スケーリングの基盤
2021年にGoogleが発表したPathwaysのコンセプトは、異なるドメインの知識を効率的に汎化し、何千ものタスクを同時に実行できる単一のニューラルネットワークを構築することを目指していました。PaLMはこのシステムの初の大規模な応用となり、その学習は2つのクラウドクラスター(TPU v4 Pods)にまとめられた6144個の専用プロセッサTPU v4上で並列化されました[1]。
その作成時点では、これは単一モデルの学習に使用された史上最大のTPU構成でした。このシステムは、ハードウェア能力の利用効率で記録的な数値(57.8% FLOPs)を達成し、これにより先行プロジェクトをスケールで大幅に上回り、5000億を超えるパラメータを持つモデルの学習に成功しました[3]。
アーキテクチャと学習データ
モデルのアーキテクチャ
PaLMは、GPTシリーズのモデルと同様に、「デコーダのみ」(decoder-only)のアーキテクチャを持つ密な(スパースではない)言語モデルです。このようなアーキテクチャは、次のトークンを予測するタスクに特化しており、テキスト生成に適しています。標準的なトランスフォーマーアーキテクチャとは異なり、PaLMは効率を向上させるためにいくつかの重要な変更点を取り入れています[1]:
- 並列層:アテンション機構と全結合層が並列に計算されることで、学習が約15%高速化されました。
- SwiGLU活性化関数:標準的なReLUの代わりにSwiGLU活性化関数を使用することで、モデルの品質が大幅に向上しました。
学習データ
PaLMは、7800億トークンからなる高品質なデータコーパスで学習されました。データセットは多言語で多様なものであり、以下を含んでいました[1]:
- 高品質なウェブドキュメントと書籍。
- Wikipediaの記事。
- ソーシャルメディアの対話(コーパスの50%)。
- GitHubのソースコード(コーパスの5%)。
データの約78%が英語で、残りの22%は多言語データセットでした。トークン化には、すべての空白を保持し(コードにとって重要)、認識されないUnicode文字をバイトに分割する特殊な「ロスレス」な手法が使用されました。
能力と結果
創発的能力とfew-shot学習
PaLMは、モデルのスケール、データ量、計算能力を増大させることが、創発的(予期せず現れる)能力につながることを示しました。多くのタスクにおいて、モデルのパフォーマンスは最大スケールに達したときにのみ急激かつ非線形に向上し、これは以前には見られなかった新しい能力の出現を示唆していました[3]。
モデルはfew-shot学習モード(ファインチューニングなし、プロンプトにいくつかの例を含める)で評価され、29の一般的なNLPベンチマークのうち28で、GPT-3やLaMDAなどの先行する大規模モデルを上回りました。総合的なタスクセットであるBIG-benchにおいて、PaLMは人間の評価者が示す平均的なレベルを上回る結果を出した最初のモデルとなりました[1]。
Chain-of-Thought Reasoning - 思考の連鎖による推論
PaLMの最も注目すべき成果の一つは、「思考の連鎖」(chain-of-thought prompting)というプロンプト手法を用いた際の、多段階の論理的推論能力です[1]。この手法は、タスクの解決策がステップごとに記述された例をモデルに提供することに基づいています。このような例から学習することで、PaLMは次のような新しい複雑なタスクを解決するために、独自の「思考の連鎖」を生成できるようになりました:
- 数学の問題:GSM8Kテスト(小学校レベルの問題)で、PaLMは58%の問題を解決し、これはファインチューニングされたモデルによって達成された以前のstate-of-the-artの結果を上回りました。
- 常識問題:モデルは、これまで見たことのないジョークを解説するなど、自明でないタスクに対して詳細な説明を生成することができました。
この能力により、モデルの「思考」プロセスはより透明性が高く、人間らしくなりました。
コード生成と多言語性
学習データに占めるソースコードの割合はわずか5%であったにもかかわらず、PaLMはコードの生成と変換のタスクにおいて、専門モデルであるOpenAI Codexに匹敵するレベルを示しました。また、このモデルは翻訳を含む多言語タスクにおいても高い能力を発揮しました[3]。
進化と後継モデル:PaLMファミリー
PaLMは、Googleが開発した一連のモデルファミリーの基礎となりました。
PaLM 2
2023年5月に発表されたPaLM 2は、より効率的で多言語対応した後継モデルです。パラメータ数を追求する代わりに、学習データの質とアーキテクチャの効率性に重点が置かれました。PaLM 2は100以上の言語のテキストで学習されており、論理、プログラミング、翻訳において向上した能力を示しています[4]。モデルは4つのサイズ(小さい順に)でリリースされています:Gecko、Otter、Bison、Unicorn。最もコンパクトなバージョン(Gecko)は、オフラインモードでモバイルデバイス上で動作するのに十分軽量です。
特化バージョン
PaLMおよびPaLM 2をベースに、特定のドメイン向けのバージョンが作成されました:
- Med-PaLM 2:医療に特化したモデル。米国の医師免許試験(USMLE)の問題で専門家レベルに達した初のAIシステムとなりました[4]。
- Sec-PaLM 2:サイバーセキュリティに特化したモデルで、脆弱性の特定や悪意のあるコードの分析を行うように学習されています[5]。
PaLM-E: Multimodal Version - PaLM-E:マルチモーダル版
PaLM-E(Pathways Language Model Embodied)は、PaLM言語モデルとVision Transformer(ViT)からの視覚データを組み合わせたマルチモーダルモデルです。これにより、モデルはテキストと画像の両方を処理し、ロボットの制御など、物理世界に関連するタスクを解決することができます[6]。
倫理的側面と限界
PaLMの開発者たちは、大規模言語モデルの開発における責任あるアプローチの必要性を強調しています。公式の科学論文では、モデル化されたテキストにおける潜在的なバイアスや有害性の分析が行われました。透明性を確保するため、GoogleはPaLMのモデルカード(Model Card)とデータシート(Datasheet)を公開し、データセットの特性、テスト結果、特定された限界を文書化しました[1]。これらの措置は、責任あるAIの現代的な実践に沿ったものであり、偏見や有害なコンテンツの生成に関連するリスクを低減することを目的としています。
外部リンク
参考文献
- Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311.
- Anil, R. et al. (2023). PaLM 2 Technical Report. arXiv:2305.10403.
- Driess, D. et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
- Singhal, K. et al. (2022). Large Language Models Encode Clinical Knowledge. arXiv:2212.13138.
- Singhal, K. et al. (2023). Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617.
- Barham, P. et al. (2022). Pathways: Asynchronous Distributed Dataflow for ML. arXiv:2203.12533.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
- Wei, J. et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682.
- Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage?. arXiv:2304.15004.
- Lu, S. et al. (2023). Are Emergent Abilities in Large Language Models just In-Context Learning?. arXiv:2309.01809.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Rae, J. W. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
- Diao, S. et al. (2023). Active Prompting with Chain-of-Thought for Large Language Models. arXiv:2302.12246.
脚注
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. "PaLM: Scaling Language Modeling with Pathways". arXiv. [1]
- ↑ "Introducing Pathways: A next-generation AI architecture". Google AI Blog. [2]
- ↑ 3.0 3.1 3.2 "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". Google Research Blog. [3]
- ↑ 4.0 4.1 "Google AI: What to know about the PaLM 2 large language model". Google AI Blog. [4]
- ↑ "New AI capabilities that can help address your security challenges". Google Cloud Blog. [5]
- ↑ "PaLM-E: An embodied multimodal language model". Google Research Blog. [6]