Chinchilla (Sprachmodell)

Chinchilla ist ein großes Sprachmodell (LLM), das von der Forschungsgruppe DeepMind entwickelt und im März 2022 vorgestellt wurde^[1]. Das Modell enthält etwa 70 Milliarden Parameter und wurde mit einem Textkorpus von 1,4 Billionen Token trainiert.

Ein wesentliches Merkmal von Chinchilla ist sein rechenleistungsoptimaler (compute-optimaler) Trainingsansatz. Im Gegensatz zu früheren Modellen, bei denen der Schwerpunkt auf der Erhöhung der Parameteranzahl lag, wurde Chinchilla auf der Grundlage der Hypothese entwickelt, dass sowohl die Modellgröße als auch das Volumen der Trainingsdaten proportional skaliert werden müssen. Dank dieses Ansatzes zeigte Chinchilla in einem breiten Spektrum von Sprachaufgaben eine Überlegenheit gegenüber deutlich größeren Modellen wie Gopher (280 Mrd. Parameter) und GPT-3 (175 Mrd. Parameter)^[2].

Hintergrund und Entstehungsgeschichte

Die Entwicklung von Chinchilla war das Ergebnis von Forschungen zur Skalierung von LLMs, die bei DeepMind auf Basis der Gopher-Modellfamilie durchgeführt wurden^[3]. Das 2021 vorgestellte Gopher-Modell hatte 280 Milliarden Parameter, wurde aber auf einem vergleichsweise kleinen Korpus von 300 Milliarden Token trainiert. Zu dieser Zeit dominierte in der Branche der Ansatz, dass die Leistung von Modellen hauptsächlich durch die Erhöhung ihrer Größe (Anzahl der Parameter) gesteigert wurde, während das Datenvolumen relativ konstant blieb.

Hypothese des compute-optimalen Trainings

Die Forscher von DeepMind stellten die Hypothese auf, dass viele große Modelle, einschließlich Gopher, im Verhältnis zu ihrer Größe untertrainiert (undertrained) waren. Sie erreichten bei einem gegebenen Rechenbudget nicht die maximal mögliche Qualität, da ihnen die Trainingsdaten fehlten^[2].

Der Kern der Hypothese war, dass für eine optimale Nutzung der Rechenressourcen die Modellgröße und das Volumen der Trainingsdaten proportional zueinander erhöht werden sollten. Mit anderen Worten, bei einer Verdopplung der Modellparameter muss auch die Anzahl der Trainingstoken etwa verdoppelt werden^[1]. Diese Schlussfolgerung widersprach früheren Forschungen, die den Wert der Vergrößerung der Modellgröße überschätzt hatten, da sie bei einem festen Datenvolumen durchgeführt wurden.

Um diese Hypothese zu überprüfen, führte das DeepMind-Team umfangreiche Experimente durch und trainierte über 400 Modelle unterschiedlicher Größe mit Datensätzen von 5 bis 500 Milliarden Token. Die Ergebnisse bestätigten, dass die parallele Skalierung die optimale Strategie ist. Auf Grundlage dieser Erkenntnisse wurde das Chinchilla-Modell als praktischer Test für dieses neue Paradigma entwickelt^[4].

Architektur und Training

Architektonische Merkmale

Chinchilla gehört zur Familie der autoregressiven Transformer und ähnelt in seiner Architektur den Modellen GPT-2/GPT-3^[3]. Es übernahm viele Designentscheidungen von Gopher, jedoch mit entscheidenden Unterschieden, die darauf abzielten, die Größe bei gleichbleibender Netzwerktiefe zu reduzieren:

Parameter: ~70 Mrd. Parameter, verteilt auf 80 Schichten.
Modellbreite: Die Anzahl der Self-Attention-Köpfe wurde auf 64 reduziert (im Vergleich zu 128 bei Gopher), und die innere Dimensionalität der Schichten auf 8192 (im Vergleich zu ~16384 bei Gopher).
Optimierer: Es wird AdamW anstelle von Adam verwendet, was die Konvergenz bei großen Datensätzen verbessert^[3].

Diese Architektur ermöglichte es Chinchilla, die gleiche Netzwerktiefe wie Gopher beizubehalten, jedoch mit einer deutlich geringeren Anzahl von Parametern, was die Anforderungen an Speicher und Rechenressourcen senkte.

Skalierung und Trainingsdaten

Zur Überprüfung der Hypothese wurde Chinchilla mit dem gleichen Rechenbudget wie Gopher trainiert, jedoch mit einer Umverteilung der Ressourcen zugunsten der Daten. Das Modell mit 70 Milliarden Parametern wurde auf einem Korpus von 1,4 Billionen Token trainiert, was etwa dem Vierfachen der für Gopher verwendeten Datenmenge entspricht^[1].

Dieses Verhältnis von etwa 20 Token pro Parameter wurde als Chinchilla-Punkt (Chinchilla Point) bekannt und dient als Richtwert für das compute-optimale Training moderner LLMs^[5]. Das Experiment bestätigte, dass Chinchilla, da es näher an dieser optimalen Grenze trainiert wurde, sein Potenzial vollständiger ausschöpfen konnte als untertrainierte, wenn auch größere, Modelle.

Ergebnisse und Leistung

In einer Vielzahl von Standardtests zeigte Chinchilla eine signifikante Überlegenheit gegenüber früheren Modellen. Es übertraf nicht nur Gopher souverän, sondern auch andere damals moderne LLMs, darunter GPT-3 von OpenAI (175 Mrd. Parameter) und Megatron-Turing NLG (530 Mrd. Parameter)^[1].

Besonders aussagekräftig war das Ergebnis im umfassenden Benchmark MMLU (Measuring Massive Multitask Language Understanding), der Wissen und logisches Denken in Hunderten von heterogenen Aufgaben bewertet. Chinchilla erreichte eine durchschnittliche Genauigkeit von 67,5 %, was einen neuen Rekord für Modelle dieser Klasse darstellte und das Ergebnis von Gopher um 7 Prozentpunkte übertraf^[4].

Neben seiner hohen Effektivität erwies sich Chinchilla auch als wirtschaftlich im Einsatz. Die geringere Modellgröße (70 Mrd. im Vergleich zu über 175 Mrd. bei vergleichbaren Modellen) bedeutet, dass für Inferenz (inference) und Feinabstimmung (fine-tuning) erheblich weniger Rechenressourcen benötigt werden, was seine praktische Anwendung vereinfacht.

Bedeutung und Einfluss

Die Chinchilla-Forschung hatte einen fundamentalen Einfluss auf die Ansätze zum Training großer Sprachmodelle.

Chinchilla-Skalierungsgesetze (Chinchilla scaling laws): Das entdeckte optimale Verhältnis zwischen Modellgröße und Datenmenge wurde zum De-facto-Standard und Richtwert für nachfolgende Entwicklungen in der Branche.
Verlagerung des Fokus von der Größe auf die Daten: Die Arbeit regte die Industrie dazu an, mehr Aufmerksamkeit auf die Erstellung, Bereinigung und Erweiterung von Trainingskorpora zu legen, anstatt nur die Anzahl der Parameter wahllos zu erhöhen.
Anwendung in multimodalen Systemen: Chinchilla wurde als zentrale Sprachkomponente im multimodalen Modell Flamingo von DeepMind verwendet, das in der Lage ist, Bilder und Text zu verstehen^[6].

Obwohl das Chinchilla-Modell selbst nicht öffentlich zugänglich gemacht wurde, haben seine Konzepte und die in der wissenschaftlichen Arbeit veröffentlichten Ergebnisse die Entwicklungsrichtung des gesamten LLM-Bereichs verändert und den Weg zu einem effizienteren und ausgewogeneren Wachstum der Fähigkeiten künstlicher Intelligenz aufgezeigt.

Literatur

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

Anmerkungen

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). „Training Compute-Optimal Large Language Models“. NeurIPS 2022. [1]
↑ ^2.0 ^2.1 Wali, K. (2022). „DeepMind launches GPT-3 rival, Chinchilla“. Analytics India Magazine. [2]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
↑ ^4.0 ^4.1 „Training Compute-Optimal Large Language Models“. proceedings.neurips.cc.
↑ „What is the Chinchilla Point ("Chinchilla Optimal")?“. Legal Genie.
↑ „Chinchilla (language model)“. Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). „Training Compute-Optimal Large Language Models“. NeurIPS 2022. [1]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). „DeepMind launches GPT-3 rival, Chinchilla“. Analytics India Magazine. [2]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 „Training Compute-Optimal Large Language Models“. proceedings.neurips.cc.

[legalgenie-5] „What is the Chinchilla Point ("Chinchilla Optimal")?“. Legal Genie.

[wiki_eng-6] „Chinchilla (language model)“. Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (Sprachmodell)

Contents

Hintergrund und Entstehungsgeschichte

Hypothese des compute-optimalen Trainings

Architektur und Training

Architektonische Merkmale

Skalierung und Trainingsdaten

Ergebnisse und Leistung

Bedeutung und Einfluss

Literatur

Anmerkungen

Navigation menu

Chinchilla (Sprachmodell)

Hintergrund und Entstehungsgeschichte

Hypothese des compute-optimalen Trainings

Architektur und Training

Architektonische Merkmale

Skalierung und Trainingsdaten

Ergebnisse und Leistung

Bedeutung und Einfluss

Literatur

Anmerkungen

Navigation menu

Search