Chinchilla (language model) — チンチラ

Chinchilla（チンチラ）は、DeepMindの研究グループによって開発され、2022年3月に発表された大規模言語モデル（LLM）です^[1]。このモデルは約700億のパラメータを持ち、1兆4000億トークン規模のテキストコーパスで学習されました。

Chinchillaの主な特徴は、その計算量的に最適な学習アプローチにあります。パラメータ数の増加に重点が置かれていた以前のモデルとは異なり、Chinchillaはモデルサイズと学習データ量の両方を比例してスケールさせる必要があるという仮説に基づいて作成されました。このアプローチにより、ChinchillaはGopher（2800億パラメータ）やGPT-3（1750億パラメータ）といった、はるかに大規模なモデルよりも幅広い言語タスクにおいて優れた性能を示しました^[2]。

背景と開発経緯

Chinchillaの開発は、DeepMindがGopherモデルファミリーを基に行ったLLMのスケーリングに関する研究の成果です^[3]。2021年に発表されたGopherモデルは、2800億のパラメータを持っていましたが、比較的小規模な3000億トークンのコーパスで学習されていました。当時、業界では、モデルの性能は主にそのサイズ（パラメータ数）を増やすことによって向上し、学習データ量は比較的一定に保たれるというアプローチが主流でした。

計算量的に最適な学習に関する仮説

DeepMindの研究者たちは、Gopherを含む多くの大規模モデルが、そのサイズに対して学習不足（undertrained）であるという仮説を立てました。これらのモデルは、学習データが不足していたため、与えられた計算予算内で達成可能な最高の品質に到達していませんでした^[2]。

この仮説の核心は、計算リソースを最適に利用するためには、モデルサイズと学習データ量を互いに比例して増加させるべきであるという点にありました。言い換えれば、モデルのパラメータ数を2倍にする場合、学習トークン数も約2倍にする必要があるということです^[1]。この結論は、固定されたデータ量で実験が行われていたためモデルサイズの増加価値を過大評価していた、それまでの研究とは異なるものでした。

この仮説を検証するため、DeepMindのチームは、50億から5000億トークンのデータセットで400以上の異なるサイズのモデルを学習させるという広範な実験を行いました。その結果、並行したスケーリングが最適な戦略であることが確認されました。これらの知見に基づき、新しいパラダイムの実践的なテストとしてChinchillaモデルが開発されました^[4]。

アーキテクチャと学習

アーキテクチャ上の特徴

Chinchillaは自己回帰型のTransformerファミリーに属し、アーキテクチャはGPT-2/GPT-3モデルに近いものです^[3]。Gopherから多くの設計を引き継いでいますが、ネットワークの深さを維持しつつサイズを削減するための重要な違いがあります：

パラメータ: 約700億。80層に分散。
モデルの幅: 自己アテンションヘッドの数を64に（Gopherの128から）削減し、層の内部次元を8192に（Gopherの約16384から）削減。
オプティマイザ: Adamの代わりにAdamWを使用。これにより、大規模データセットでの収束が改善されます^[3]。

このようなアーキテクチャにより、ChinchillaはGopherと同じネットワークの深さを保ちながら、パラメータ数を大幅に削減することができました。これにより、メモリと計算リソースへの要求が低減されました。

スケーリングと学習データ

仮説を検証するため、ChinchillaはGopherと同じ計算予算で学習されましたが、リソースはデータ側に再配分されました。700億パラメータのモデルは、Gopherで使用されたデータ量の約4倍にあたる1兆4000億トークンのコーパスで学習されました^[1]。

この比率、すなわちパラメータ1つあたり約20トークンという関係は、チンチラポイント（Chinchilla Point）として知られるようになり、現代のLLMにおける計算量的に最適な学習の指針となっています^[5]。この実験は、この最適限界に近い条件で学習されたChinchillaが、学習不足でありながらより大規模なモデルよりも、その潜在能力をより完全に発揮できることを確認しました。

結果と性能

幅広い標準的なテストにおいて、Chinchillaは以前のモデルを大幅に上回る性能を示しました。Gopherだけでなく、OpenAIのGPT-3（1750億パラメータ）やMegatron-Turing NLG（5300億パラメータ）など、当時最新の他のLLMも確実に上回りました^[1]。

最も象徴的な結果は、数百の多様なタスクにおける知識と推論を評価する包括的なベンチマークであるMMLU（Measuring Massive Multitask Language Understanding）での成績でした。Chinchillaは平均正解率67.5%を達成し、このクラスのモデルとして新記録を樹立、Gopherの結果を7パーセントポイント上回りました^[4]。

高い性能に加えて、Chinchillaは使用上の経済性も示しました。モデルサイズが小さいこと（競合の1750億以上に対し700億）は、推論（inference）やファインチューニング（fine-tuning）に必要な計算リソースが大幅に少なくて済むことを意味し、その実用化を容易にします。

意義と影響

Chinchillaに関する研究は、大規模言語モデルの学習アプローチに根本的な影響を与えました。

チンチラのスケーリング則（Chinchilla scaling laws）: 明らかにされたモデルサイズとデータ量の最適な比率は、業界におけるその後の開発の事実上の標準となり、指針となりました。
焦点のサイズからデータへの移行: この研究は、単にパラメータ数を無差別に増やすだけでなく、学習コーパスの作成、クリーニング、拡張により多くの注意を払うよう業界を促しました。
マルチモーダルシステムへの応用: Chinchillaは、画像とテキストを理解できるDeepMindのマルチモーダルモデルFlamingoにおいて、主要な言語コンポーネントとして使用されました^[6]。

Chinchillaモデル自体は一般公開されませんでしたが、その概念と科学論文で発表された結果は、LLM分野全体の発展の軌道を変え、人工知能の能力をより効率的かつバランスよく向上させる道筋を示しました。

参考文献

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

脚注

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). “Training Compute-Optimal Large Language Models”. NeurIPS 2022. [1]
↑ ^2.0 ^2.1 Wali, K. (2022). “DeepMind launches GPT-3 rival, Chinchilla”. Analytics India Magazine. [2]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). “Scaling Language Models: Methods, Analysis & Insights from Training Gopher”. arXiv:2112.11446.
↑ ^4.0 ^4.1 “Training Compute-Optimal Large Language Models”. proceedings.neurips.cc.
↑ “What is the Chinchilla Point ("Chinchilla Optimal")?”. Legal Genie.
↑ “Chinchilla (language model)”. Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). “Training Compute-Optimal Large Language Models”. NeurIPS 2022. [1]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). “DeepMind launches GPT-3 rival, Chinchilla”. Analytics India Magazine. [2]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). “Scaling Language Models: Methods, Analysis & Insights from Training Gopher”. arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 “Training Compute-Optimal Large Language Models”. proceedings.neurips.cc.

[legalgenie-5] “What is the Chinchilla Point ("Chinchilla Optimal")?”. Legal Genie.

[wiki_eng-6] “Chinchilla (language model)”. Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (language model) — チンチラ

Contents

背景と開発経緯

計算量的に最適な学習に関する仮説

アーキテクチャと学習

アーキテクチャ上の特徴

スケーリングと学習データ

結果と性能

意義と影響

参考文献

脚注

Navigation menu

Chinchilla (language model) — チンチラ

背景と開発経緯

計算量的に最適な学習に関する仮説

アーキテクチャと学習

アーキテクチャ上の特徴

スケーリングと学習データ

結果と性能

意義と影響

参考文献

脚注

Navigation menu

Search