Decoder-only models (architecture) (Decoder-Only-Modelle) (DE)

Decoder-Only-Modelle (engl. Decoder-Only Models) sind eine dominierende Klasse von Architekturen für große Sprachmodelle (LLM), die ausschließlich auf dem dekodierenden Teil (dem Decoder) der Transformer-Architektur basieren. Diese Modelle sind auf Aufgaben der Textgenerierung spezialisiert und bilden die Grundlage für die meisten modernen Chatbots und KI-Assistenten.

Die wegweisende Modellreihe, die diesen Ansatz populär gemacht hat, ist die GPT-Serie von OpenAI.

Konzept und Architektur

Die Grundidee von Decoder-Only-Modellen liegt in der autoregressiven Generierung von Sequenzen. Das bedeutet, dass das Modell das nächste Token auf der Grundlage aller zuvor generierten Token vorhersagt. Der Eingabe-Prompt (Benutzeranfrage) und der bereits generierte Text werden als eine einzige Sequenz betrachtet, die das Modell fortsetzt.

Architektonisch besteht das Modell aus einem Stapel von $N$ identischen Decoder-Schichten. Jede Schicht enthält, im Gegensatz zu einem Encoder oder einem vollständigen Decoder, nur zwei grundlegende Unterschichten:

Maskierte Multi-Head Self-Attention (Masked Multi-Head Self-Attention): Dies ist der Schlüsselmechanismus, der die autoregressive Eigenschaft sicherstellt. Während der Verarbeitung einer Sequenz verhindert eine spezielle kausale Maske (causal mask), dass jedes Token auf nachfolgende Token „blicken“ kann. Somit hängt die Vorhersage für die Position $i$ nur von den Token an den Positionen $< i$ ab.
Feedforward-Neuronales-Netz (Feed-Forward Network): Wendet eine nichtlineare Transformation auf die Repräsentation jedes Tokens an.

In Decoder-Only-Modellen fehlt der Mechanismus der Cross-Attention, da kein Encoder vorhanden ist, auf den „geachtet“ werden könnte.

Aufgaben des Pre-Trainings

Decoder-Only-Modelle werden auf einer einzigen, aber sehr leistungsfähigen, selbstüberwachten Aufgabe trainiert:

Kausales Sprachmodellieren (Causal Language Modeling, CLM)

Funktionsprinzip: Das Modell wird trainiert, das nächste Token in einer Sequenz vorherzusagen. Bei jedem Trainingsschritt erhält es ein Textfragment als Eingabe und muss eine Wahrscheinlichkeitsverteilung für das nächste Token generieren.
Ziel: Die Maximierung der Wahrscheinlichkeit des korrekten nächsten Tokens über riesige Mengen von Textdaten. Diese auf den ersten Blick einfache Aufgabe zwingt das Modell, Grammatik, Syntax, Fakten über die Welt und komplexe sprachliche Muster zu lernen.

Anwendung

Dank ihrer autoregressiven Natur eignen sich Decoder-Only-Modelle ideal für alle Aufgaben, die eine Textgenerierung erfordern:

Freie Textgenerierung: Verfassen von Artikeln, Gedichten, Drehbüchern usw.
Dialogsysteme und Chatbots: Beantwortung von Benutzerfragen in einem konversationellen Stil.
Zusammenfassung: Erstellung kurzer Zusammenfassungen langer Texte.
Maschinelle Übersetzung: Obwohl hierfür oft Encoder-Decoder-Modelle verwendet werden, können auch Decoder-Only-Modelle Übersetzungen bewältigen, wenn die Aufgabe im Prompt formuliert ist (z. B. „Übersetze vom Englischen ins Deutsche: ...“).
Code-Generierung: Generierung von Code aus einer textuellen Beschreibung.
In-Context-Learning: Aufgrund ihrer Größe zeigen große Decoder-Modelle die Fähigkeit, neue Aufgaben zu lösen, indem sie nur wenige Beispiele (few-shot) oder sogar gar keine (zero-shot) direkt im Prompt erhalten, ohne dass ein zusätzliches Training (Fine-Tuning) erforderlich ist.

Wichtige Modelle und ihre Entwicklung

GPT-Serie (2018–heute): Pioniere und Wegbereiter des Ansatzes. GPT-1 zeigte die Effektivität des Pre-Trainings, GPT-2 demonstrierte die Leistungsfähigkeit der Skalierung und GPT-3 offenbarte die aufkommenden few-shot-Fähigkeiten. ChatGPT und GPT-4 etablierten diese Architektur als Standard für KI-Assistenten.
LLaMA (2023–heute): Eine Serie von Open-Source-Modellen von Meta, die den Zugang zu leistungsstarken LLMs demokratisiert und eine Innovationswelle in der Community ausgelöst hat.
Claude (2023–heute): Eine Modellfamilie von Anthropic, die sich auf Sicherheit und Steuerbarkeit mithilfe von Constitutional AI konzentriert.
PaLM und Gemini (2022–heute): Die Flaggschiff-Modelle von Google. Gemini ist zudem ein nativ multimodales Decoder-Only-Modell.

Vergleich mit anderen Architekturen

Vergleich der Schlüsselarchitekturen auf Basis des Transformers
Architektur	Hauptaufgabe	Kontextrichtung	Typische Modelle
Decoder-Only	Textgenerierung	Unidirektional (von links nach rechts)	GPT, LLaMA, Claude, Gemini
Encoder-Only	Textverständnis	Bidirektional	BERT, RoBERTa
Encoder-Decoder	Sequenz-zu-Sequenz-Transformation	Bidirektional (Encoder) + Unidirektional (Decoder)	T5, BART, ursprünglicher Transformer

Decoder-only models (architecture) (Decoder-Only-Modelle) (DE)

Contents

Konzept und Architektur

Aufgaben des Pre-Trainings

Kausales Sprachmodellieren (Causal Language Modeling, CLM)

Anwendung

Wichtige Modelle und ihre Entwicklung

Vergleich mit anderen Architekturen

Navigation menu

Decoder-only models (architecture) (Decoder-Only-Modelle) (DE)

Konzept und Architektur

Aufgaben des Pre-Trainings

Kausales Sprachmodellieren (Causal Language Modeling, CLM)

Anwendung

Wichtige Modelle und ihre Entwicklung

Vergleich mit anderen Architekturen

Navigation menu

Search