Theoretische Grundlagen von LLMs

Theoretische Grundlagen großer Sprachmodelle (basierend auf der Transformer-Architektur) – dies ist eine Sammlung mathematischer, statistischer und informationstheoretischer Prinzipien, die der Funktionsweise, dem Training und den Fähigkeiten moderner großer Sprachmodelle (LLMs) zugrunde liegen. Diese Grundlagen erklären, wie Modelle, die auf der Transformer-Architektur basieren, menschliche Sprache mit einem hohen Maß an Kohärenz verstehen und generieren können.

Architektonische Grundlagen: Die Transformer-Architektur

Moderne LLMs basieren fast vollständig auf der Transformer-Architektur, die 2017 im Paper „Attention Is All You Need“ vorgestellt wurde. Diese Architektur verzichtete auf rekurrente Schichten (wie in RNNs und LSTMs) und setzte stattdessen auf den Aufmerksamkeitsmechanismus (Attention), was die effiziente Verarbeitung langer Sequenzen und die Parallelisierung von Berechnungen ermöglichte.

Self-Attention-Mechanismus

Dies ist das Kernstück der Transformer-Architektur. Der Self-Attention-Mechanismus ermöglicht es dem Modell, die Wichtigkeit jedes Wortes (Tokens) in einer Sequenz im Verhältnis zu allen anderen Wörtern in derselben Sequenz abzuwägen. Für jedes Token werden drei Vektoren erstellt:

Query (Q, Abfrage): Ein Vektor, der das aktuelle Wort repräsentiert.
Key (K, Schlüssel): Ein Vektor, mit dem die Abfragen von anderen Wörtern verglichen werden.
Value (V, Wert): Ein Vektor, der die Informationen über das Wort enthält, die weitergegeben werden.

Die Aufmerksamkeitsbewertung wird als skaliertes Skalarprodukt berechnet:

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

wobei $d_{k}$ die Dimension der Key-Vektoren ist. Dieser Mechanismus ermöglicht es dem Modell, komplexe kontextuelle Abhängigkeiten zu erfassen, unabhängig von der Entfernung zwischen den Wörtern.

Multi-Head Attention ist die parallele Ausführung mehrerer solcher Berechnungen mit unterschiedlichen Projektionsmatrizen, was es dem Modell ermöglicht, sich gleichzeitig auf verschiedene Aspekte von Syntax und Semantik zu konzentrieren.

Architekturtypen basierend auf dem Transformer

Es gibt drei Hauptvarianten für die Verwendung der Transformer-Komponenten:

Encoder-Decoder: Die klassische Architektur für Sequenz-zu-Sequenz-Aufgaben (z. B. maschinelle Übersetzung). Der Encoder verarbeitet die Eingabesequenz, und der Decoder generiert die Ausgabesequenz. Beispiele: T5, BART.
Nur Encoder (Encoder-Only): Modelle, die nur den Encoder-Stapel verwenden. Sie eignen sich hervorragend für Aufgaben, die ein tiefes Verständnis des Kontexts der gesamten Sequenz erfordern (Textklassifikation, Erkennung benannter Entitäten). Beispiel: BERT.
Nur Decoder (Decoder-Only): Modelle, die nur den Decoder-Stapel verwenden. Sie arbeiten autoregressiv und sagen das nächste Token auf der Grundlage der vorherigen voraus. Dies ist der Standard für generative Modelle. Beispiele: GPT, LLaMA, Claude.

Positionale Kodierung

Da der Self-Attention-Mechanismus die Wortreihenfolge nicht berücksichtigt, wird der Architektur eine positionale Kodierung hinzugefügt. Zu den Token-Embeddings werden Vektoren addiert, die ihre Position in der Sequenz kodieren. Im ursprünglichen Modell wurden Sinus- und Kosinusfunktionen verwendet:

PE (pos, 2 i) = \sin (pos / 1000 0^{2 i / d_{model}})

PE (pos, 2 i + 1) = \cos (pos / 1000 0^{2 i / d_{model}})

In modernen Modellen werden auch lernbare und rotationale positionale Kodierungen (Rotary Position Embeddings, RoPE) verwendet.

Trainingsprinzipien: Von der Wahrscheinlichkeit zur Optimierung

Sprachmodellierung als probabilistische Aufgabe

Die Grundlage von LLMs ist die Aufgabe der Sprachmodellierung – die Vorhersage der Wahrscheinlichkeit einer Textsequenz. Formal schätzt das Modell für eine Sequenz $X = (x_{1}, x_{2}, \dots, x_{T})$ die Wahrscheinlichkeit $P (X)$ . Mithilfe der Kettenregel der Wahrscheinlichkeit wird dies in ein Produkt bedingter Wahrscheinlichkeiten zerlegt:

P (X) = \prod_{t = 1}^{T} P (x_{t} | x_{1}, \dots, x_{t - 1})

Somit läuft das Training des Modells auf die Vorhersage des nächsten Tokens $x_{t}$ basierend auf dem Kontext der vorherigen Tokens hinaus.

Verlustfunktion und Informationstheorie

Zur Bewertung der Vorhersagequalität und zum Trainieren des Modells wird die Kreuzentropie-Verlustfunktion verwendet. Sie misst die Divergenz zwischen der vom Modell vorhergesagten Wahrscheinlichkeitsverteilung ( $q$ ) und der wahren Verteilung ( $p$ ), bei der das korrekte nächste Token eine Wahrscheinlichkeit von 1 hat und alle anderen 0.

H (p, q) = - \sum_{i} p (i) \log q (i)

Die Minimierung der Kreuzentropie ist äquivalent zur Maximierung der Likelihood der Trainingsdaten.

Eine verwandte Qualitätsmetrik ist die Perplexität, die als Exponentialfunktion der Kreuzentropie definiert ist: $Perplexity = 2^{H (p, q)}$ . Intuitiv gibt die Perplexität die durchschnittliche Anzahl der Optionen an, aus denen das Modell bei jedem Schritt „wählt“. Je niedriger die Perplexität, desto sicherer und genauer ist das Modell.

Optimierung

Das Training eines LLM ist ein Prozess der Minimierung der Verlustfunktion durch Anpassung von Milliarden von Modellparametern. Dafür werden Methoden verwendet, die auf dem Gradientenabstieg basieren. Am weitesten verbreitet ist der Adam-Optimierer (Adaptive Moment Estimation) und seine Varianten (z. B. AdamW), die die Lernrate für jeden Parameter adaptiv anpassen.

Trainingsparadigmen

Vortraining (Pre-training): Das Modell wird auf riesigen, ungelabelten Textkorpora (Common Crawl, The Pile, C4) mithilfe von selbstüberwachten Aufgaben trainiert, wie zum Beispiel:
- Kausale Sprachmodellierung (Causal Language Modeling, CLM): Vorhersage des nächsten Tokens (verwendet in GPT).
- Maskierte Sprachmodellierung (Masked Language Modeling, MLM): Wiederherstellung zufällig maskierter Tokens im Text (verwendet in BERT).
Feinabstimmung (Fine-tuning): Nach dem Vortraining wird das Modell auf kleineren, gelabelten Datensätzen an spezifische Aufgaben angepasst.
Alignment (Anpassung): Eine spezielle Phase der Feinabstimmung, die darauf abzielt, das Verhalten des Modells mit menschlichen Präferenzen und Werten in Einklang zu bringen. Eine Schlüsselmethode ist RLHF (Reinforcement Learning from Human Feedback), bei dem das Modell mithilfe eines Belohnungssignals von einem Modell trainiert wird, das menschliche Präferenzen vorhersagt.

Skalierungsgesetze und emergente Fähigkeiten

Empirische Studien haben gezeigt, dass die Leistung von LLMs vorhersagbar mit der Zunahme von drei Faktoren verbessert wird: Modellgröße (Anzahl der Parameter, $N$ ), Größe des Trainingsdatensatzes ( $D$ ) und Rechenaufwand ( $C$ ). Diese Beziehung wird durch Potenzgesetze (Scaling Laws) beschrieben.

Das von OpenAI vorgeschlagene Gesetz (Kaplan et al., 2020) zeigt, dass die Verlustfunktion $L$ als Potenzfunktion von $N$ , $D$ und $C$ abnimmt. Eine spätere Arbeit von DeepMind (Hoffmann et al., 2022) präzisierte diese Gesetze (die Chinchilla-Gesetze) und zeigte, dass für ein optimales Training sowohl die Modellgröße als auch die Datenmenge ausgewogen erhöht werden müssen.

Eine wichtige Folge der Skalierung ist das Auftreten emergenter Fähigkeiten – qualitativer Leistungssprünge, bei denen das Modell beginnt, Aufgaben zu lösen, für die es nicht explizit trainiert wurde (z. B. Arithmetik, logisches Denken, Codegenerierung). Diese Fähigkeiten fehlen in der Regel bei kleineren Modellen und treten erst auf, nachdem eine bestimmte Skalierungsschwelle erreicht wurde.

Textgenerierung: Dekodierungsstrategien

Nach dem Training generiert das Modell Text, indem es iterativ das nächste Token vorhersagt. Die Auswahl des nächsten Tokens aus der vom Modell ausgegebenen Wahrscheinlichkeitsverteilung erfolgt mithilfe verschiedener Dekodierungsstrategien:

Greedy Search (Gierige Suche): Es wird immer das wahrscheinlichste Token ausgewählt. Dies ist schnell, führt aber oft zu repetitivem und langweiligem Text.
Beam Search (Strahlen-/Bündelsuche): Bei jedem Schritt werden die $k$ wahrscheinlichsten Sequenzen beibehalten, was das Finden global optimalerer Lösungen ermöglicht.
Sampling mit Temperatur: Die Wahrscheinlichkeiten der Tokens werden durch einen Temperatur-Parameter ( $T$ ) angepasst. Bei $T > 1$ wird die Verteilung gleichmäßiger (mehr Kreativität), bei $T < 1$ spitzer (weniger Zufälligkeit).
Top-k Sampling: Bei jedem Schritt wird die Auswahl auf die $k$ wahrscheinlichsten Tokens beschränkt.
Top-p (Nucleus) Sampling: Die Auswahl wird auf den kleinsten Satz von Tokens beschränkt, deren kumulative Wahrscheinlichkeit den Schwellenwert $p$ überschreitet. Dies ermöglicht eine dynamische Anpassung der Größe des Kandidatenpools.

Theoretische Probleme und Einschränkungen

Halluzinationen: Die Neigung von Modellen, faktisch falsche, aber plausibel klingende Informationen zu generieren. Dies liegt daran, dass die Modelle die Wahrscheinlichkeit von Text optimieren, nicht dessen Wahrheitsgehalt.
Verzerrung (Bias): LLMs erben und verstärken soziale, kulturelle und andere Verzerrungen, die in den Trainingsdaten vorhanden sind.
Interpretierbarkeit („Black Box“): Aufgrund der enormen Anzahl von Parametern ist es äußerst schwierig zu verstehen, wie genau das Modell Entscheidungen trifft, was das Debugging erschwert und Risiken birgt.
Berechnungskomplexität: Der Self-Attention-Mechanismus hat eine quadratische Komplexität in Bezug auf die Sequenzlänge ( $O (n^{2})$ ), was die maximale Länge des verarbeitbaren Kontexts einschränkt.

Siehe auch

Große Sprachmodelle
BERT
GPT

Literatur

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
Brown, T. B. et al. (2020). Language Models Are Few-Shot Learners. arXiv:2005.14165.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
Touvron, H. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. DOI:10.1145/3442188.3445922.

Category:Artificial intelligence

Theoretische Grundlagen von LLMs

Contents

Architektonische Grundlagen: Die Transformer-Architektur

Self-Attention-Mechanismus

Architekturtypen basierend auf dem Transformer

Positionale Kodierung

Trainingsprinzipien: Von der Wahrscheinlichkeit zur Optimierung

Sprachmodellierung als probabilistische Aufgabe

Verlustfunktion und Informationstheorie

Optimierung

Trainingsparadigmen

Skalierungsgesetze und emergente Fähigkeiten

Textgenerierung: Dekodierungsstrategien

Theoretische Probleme und Einschränkungen

Siehe auch

Literatur

Navigation menu

Theoretische Grundlagen von LLMs

Architektonische Grundlagen: Die Transformer-Architektur

Self-Attention-Mechanismus

Architekturtypen basierend auf dem Transformer

Positionale Kodierung

Trainingsprinzipien: Von der Wahrscheinlichkeit zur Optimierung

Sprachmodellierung als probabilistische Aufgabe

Verlustfunktion und Informationstheorie

Optimierung

Trainingsparadigmen

Skalierungsgesetze und emergente Fähigkeiten

Textgenerierung: Dekodierungsstrategien

Theoretische Probleme und Einschränkungen

Siehe auch

Literatur

Navigation menu

Search