GPT (OpenAI) (DE)
GPT (Generative Pre-trained Transformer) ist eine Familie von großen Sprachmodellen (LLMs), die von OpenAI entwickelt wurde. GPT-Modelle basieren auf der Transformer-Architektur und implementieren das Paradigma des generativen Vortrainings: In der ersten Phase wird das Modell auf umfangreichen Textkorpora ohne explizite Annotationen trainiert und kann anschließend für spezifische Aufgaben nachgeschult (fine-tuned) werden.
Benennung
Die Abkürzung GPT steht für Generative Pre-trained Transformer (Generativer, vortrainierter Transformer).
- Generativ (Generative): bedeutet, dass das Modell in der Lage ist, neue Inhalte, wie zum Beispiel Text, zu erstellen (generieren).
- Vortrainiert (Pre-trained): weist darauf hin, dass das Modell eine umfangreiche anfängliche Trainingsphase auf einem großen Datenbestand (z. B. Texte aus dem Internet) durchläuft. Nach dem Vortraining kann das Modell oft zusätzlich für spezifischere Aufgaben "feinjustiert" (fine-tuned) werden.
- Transformer: ist der Name einer spezifischen neuronalen Netzwerkarchitektur, die die entscheidende Innovation darstellt, auf der GPT und viele andere moderne KI-Modelle basieren.
Die Hauptmerkmal von GPT besteht darin, dass das Training in autoregressiver Form stattfindet – das Modell sagt das nächste Token auf der Grundlage des vorhergehenden Kontexts voraus. Das heißt, das Modell wird trainiert, die Wahrscheinlichkeit des nächsten Tokens zu maximieren, wenn die Sequenz der vorhergehenden Tokens bekannt ist. Während des Trainings wird der Vorhersagefehler für das nächste Element minimiert, was die Erstellung von Texten mit hoher Kohärenz und Stimmigkeit ermöglicht.
Prozess der Textgenerierung in GPT
Das GPT-Modell generiert Text sequenziell, Token für Token, nach folgendem iterativen Schema:
- Es erhält eine anfängliche Textsequenz (Prompt, Seed-Text) als Eingabe.
- Es berechnet die Wahrscheinlichkeitsverteilung über alle Tokens im Vokabular für das nächste Textelement.
- Es wählt das nächste Token aus:
- entweder anhand der höchsten Wahrscheinlichkeit (gierige Auswahl),
- oder mittels stochastischem Sampling (sampling),
- oder unter Verwendung spezieller Filterstrategien (top-k, top-p).
- Es fügt das ausgewählte Token zur aktuellen Sequenz hinzu.
- Die aktualisierte Sequenz wird erneut als Eingabe für das Modell verwendet, um das nächste Token vorherzusagen.
Transformer-Architektur: Textverarbeitung
Der Prozess der Datenverarbeitung innerhalb eines Transformers zur Vorhersage des nächsten Tokens umfasst mehrere Hauptschritte:
- Tokenisierung (Tokenization). Der Eingabetext wird in Tokens zerlegt – kleine Texteinheiten, die Wörter, Wortteile oder Satzzeichen sein können. Im GPT-3-Modell umfasst das Vokabular beispielsweise etwa 50.257 Tokens.
- Token-Embeddings (Embeddings). Jedes Token wird mithilfe einer Embedding-Matrix (W_E) in einen Vektor fester Länge umgewandelt. Die Vektoren kodieren die Bedeutung der Tokens: semantisch ähnliche Tokens liegen im mehrdimensionalen Raum nahe beieinander. Im GPT-3-Modell beträgt die Dimensionalität der Embeddings 12.288.
- Verarbeitung in den Transformer-Schichten.
- Aufmerksamkeitsblöcke (Attention Blocks): Jedes Token interagiert mit anderen Tokens in der Sequenz. Der Aufmerksamkeitsmechanismus ermöglicht es, den Kontext zu berücksichtigen und die Bedeutung von Wörtern korrekt zu interpretieren.
- Feed-Forward-Schichten (Feed-Forward Layers): Nach der Aufmerksamkeit wird jedes Token separat durch ein zweischichtiges neuronales Netz mit nichtlinearer Aktivierung verarbeitet.
- Rücktransformation und Softmax. Nach allen Schichten wird der verarbeitete Vektor mithilfe einer Matrix (W_U), die oft die transponierte Version von W_E ist, zurück in den Token-Raum transformiert. Der resultierende Vektor von Logits wird mit der Softmax-Funktion normalisiert, um eine Wahrscheinlichkeitsverteilung über alle Tokens zu erhalten.
- Auswahl des nächsten Tokens (Sampling). Das nächste Token wird auf der Grundlage der Wahrscheinlichkeitsverteilung ausgewählt. Der Temperatur-Parameter (temperature) steuert die Zufälligkeit der Auswahl: Bei einer Temperatur von 0 wird das wahrscheinlichste Token gewählt, bei höheren Temperaturen steigt die Wahrscheinlichkeit für die Auswahl weniger wahrscheinlicher Varianten, was zu einer größeren Vielfalt im Text führt.
GPT-Modelle
- GPT-1 (2018): das erste Modell der Familie; etwa 117 Millionen Parameter; Training in zwei Phasen (Vortraining + Feinabstimmung für NLP-Aufgaben).
- GPT-2 (2019): 1,5 Milliarden Parameter; Training auf dem WebText-Korpus; erstmals fähig, lange, zusammenhängende Texte zu generieren; verbesserte Zero-Shot-Generierungsqualität.
- GPT-3 (2020): 175 Milliarden Parameter; umfangreiches Training auf einer Kombination aus Common Crawl, Books und Wikipedia; starke Entwicklung der Few-Shot- und Zero-Shot-Fähigkeiten.
- GPT-3.5 (2022): Zwischenversion zwischen GPT-3 und GPT-4; verbessertes Befolgen von Anweisungen durch Training mit menschlichem Feedback (RLHF); vergrößertes Kontextfenster auf 4096 Tokens.
- GPT-4 (2023): multimodales Modell mit Text- und Bildeingabe; stabile Erweiterung des Kontexts auf 8.192 und 32.768 Tokens; erhebliche Verbesserung von Genauigkeit, Robustheit und logischem Denken.
- GPT-4 Turbo (2023): optimierte Version von GPT-4; vergrößertes Kontextfenster auf 128.000 Tokens; geringere Latenz und Betriebskosten.
- GPT-4o (2024): multimodales Modell der neuen Generation (Text, Bild, Audio); sehr hohe Geschwindigkeit und Genauigkeit der Antworten; Kontextfenster von 128.000 Tokens.
- GPT-4.5 (2025): Forschungsversion auf Basis von GPT-4 mit verbessertem Verständnis von Benutzeranfragen, reduzierter Fehlerquote und optimierter Generierung komplexer Antworten; Kontextfenster von 128.000 Tokens.
- GPT-4.1 (2025): verbesserte Version der GPT-4-Familie mit einem Kontextfenster von bis zu 1.048.576 Tokens und Unterstützung für Multimodalität.
GPT-1
Das erste Modell, GPT-1, wurde 2018 von OpenAI in der Arbeit "Improving Language Understanding by Generative Pre-Training" vorgestellt. Das Modell umfasste etwa 117 Millionen Parameter und basierte auf der Transformer-Architektur. Das Training von GPT-1 erfolgte in zwei Phasen: einer Phase des unüberwachten generativen Vortrainings (pre-training), gefolgt von einer Phase der überwachten Feinabstimmung (fine-tuning).
In der Vortrainingsphase wurde das Modell auf dem BookCorpus trainiert, der über 7.000 unveröffentlichte Bücher verschiedener Genres enthielt. Eine Besonderheit dieses Korpus war das Vorhandensein langer, zusammenhängender Textpassagen, was entscheidend dafür war, dass das Modell die Fähigkeit entwickelte, komplexe und weitreichende textuelle Abhängigkeiten zu verarbeiten.
In der Phase der Feinabstimmung wurde das Modell an die Lösung spezialisierter Aufgaben der natürlichen Sprachverarbeitung angepasst, darunter:
- Beantwortung von Fragen (Question Answering, QA) – die Generierung einer korrekten Antwort auf der Grundlage eines gegebenen Textkontexts;
- Erkennung textueller Implikationen (Natural Language Inference, NLI) – die Bestimmung der logischen Beziehung zwischen zwei Texten: Implikation, Widerspruch oder Neutralität;
- Bewertung semantischer Ähnlichkeit (Semantic Textual Similarity) – die Messung des Grades der semantischen Nähe zwischen zwei Textsequenzen.
Dank dieses Ansatzes zeigte GPT-1 auf einer Reihe von Standard-Benchmarks für Aufgaben des Textverständnisses eine deutliche Überlegenheit gegenüber früheren Modellen.
Die Entwicklung von GPT-1 demonstrierte eine Reihe wichtiger Errungenschaften und Erkenntnisse im Bereich der natürlichen Sprachverarbeitung (NLP):
- Effektivität des generativen Vortrainings. Es wurde empirisch bestätigt, dass das Vortraining auf großen Korpora unannotierten Textes dem Modell ermöglicht, universelle Sprachrepräsentationen zu erlernen, die für die anschließende Anwendung in verschiedenen Aufgaben geeignet sind, ohne dass grundlegende architektonische Änderungen erforderlich sind.
- Universalität der Transformer-Architektur. Die Verwendung eines mehrschichtigen Decoder-Transformers ermöglichte es dem Modell, langfristige Abhängigkeiten im Text erfolgreich zu verarbeiten, was für Modelle auf Basis rekurrenter neuronaler Netze zuvor schwierig war.
- Verringerung der Abhängigkeit von annotierten Daten. Die Arbeit bestätigte, dass ein groß angelegtes Vortraining auf unannotierten Daten den Umfang der für das Erreichen einer hohen Qualität bei Zielaufgaben erforderlichen annotierten Daten erheblich reduzieren kann.
- Grundlage für die zukünftige Entwicklung. Die Ergebnisse von GPT-1 legten die konzeptionellen und technischen Grundlagen für nachfolgende Versionen der GPT-Modellfamilie (GPT-2, GPT-3 und weitere).
GPT-2
Das Modell GPT-2 wurde von OpenAI im Februar 2019 vorgestellt. Es übertraf seinen Vorgänger erheblich in der Größe: Die Vollversion des Modells enthielt etwa 1,5 Milliarden Parameter. Im Gegensatz zu GPT-1, das auf dem BookCorpus (~5 GB) trainiert wurde, wurde GPT-2 auf dem speziell zusammengestellten WebText-Korpus mit einem Volumen von etwa 40 GB trainiert, der hochwertige Textdaten aus Internetquellen enthielt. Die Vergrößerung sowohl der Modellgröße als auch des Trainingsdatenumfangs ermöglichte es GPT-2, die Qualität der Textgenerierung erheblich zu verbessern: Es zeigte die Fähigkeit, aussagekräftige Artikel, Geschichten und sogar zusammenhängende Fragmente literarischer Prosa zu erstellen.
In GPT-2 wurde eine autoregressive Transformer-Decoder-Architektur verwendet, die der von GPT-1 ähnlich war, ohne wesentliche Änderungen. Das Modell bestand aus 48 Selbstaufmerksamkeitsschichten, hatte eine verborgene Zustandsgröße von 1600 und umfasste etwa 1,5 Milliarden Parameter. Das Training erfolgte durch die Aufgabe, das nächste Token auf der Grundlage des vorhergehenden Kontexts unter Verwendung eines maskierten Aufmerksamkeitsmechanismus vorherzusagen.
Eines der Hauptunterscheidungsmerkmale von GPT-2 war, dass das Modell erstmals eine hohe Effektivität im Zero-Shot-Learning demonstrierte – die Fähigkeit, neue Aufgaben zu lösen, ohne explizites Feintuning an Beispielen für diese Aufgaben durchlaufen zu haben. Das Modell wurde auf einem großen Korpus allgemeiner Texte trainiert und durchlief kein spezialisiertes Training auf den Daten spezifischer Aufgaben. Die Bewertung erfolgte im Zero-Shot-Modus, bei dem das Modell Aufgaben ausschließlich auf der Grundlage des im Vortrainingsprozess erworbenen Wissens ausführte. In einer Reihe von Sprachmodellierungsaufgaben erreichte GPT-2 eine Qualität, die mit den Ergebnissen von Modellen vergleichbar oder sogar besser war, die speziell auf spezialisierten Datensätzen (z. B. Wikipedia, Nachrichtentexte, Bücher) trainiert wurden.
GPT-3
Das Modell GPT-3 wurde von OpenAI im Juni 2020 vorgestellt. Es war der nächste Schritt in der Entwicklung generativer Transformer nach GPT-2 und zeichnete sich durch die Skalierung der Architektur auf 175 Milliarden Parameter aus, was es zum damals größten Sprachmodell machte.
Die Architektur von GPT-3 blieb im Kern dieselbe – ein mehrschichtiger autoregressiver Transformer-Decoder ohne grundlegende Änderungen. Die wesentlichen Leistungsverbesserungen wurden durch die Erhöhung der Anzahl der Schichten, der Breite der verborgenen Schichten und des Trainingsumfangs erreicht. Das Modell wurde auf einer Kombination mehrerer großer Textkorpora trainiert, darunter Common Crawl, WebText2, Books1, Books2 und Wikipedia, mit einem Gesamtvolumen von etwa 570 GB an Daten.
Eine der Hauptbesonderheiten von GPT-3 war seine Fähigkeit zum Few-Shot-Learning und Zero-Shot-Learning: Das Modell konnte eine breite Palette von Aufgaben der natürlichen Sprachverarbeitung ausführen, darunter Übersetzung, Zusammenfassung, Beantwortung von Fragen, das Verfassen von Aufsätzen und sogar Programmierung, basierend nur auf wenigen Beispielen in der Texteingabe oder ganz ohne Beispiele.
GPT-3.5
Das Modell GPT-3.5 wurde von OpenAI Ende 2022 im Rahmen der evolutionären Entwicklung der GPT-Familie vorgestellt. Es basierte auf der in GPT-3 verwendeten Architektur eines skalierten autoregressiven Transformer-Decoders, mit Verbesserungen in der Qualität der Textgenerierung, der Kontextverarbeitung und der Fähigkeit, komplexe Anweisungen zu befolgen. Die genaue Anzahl der Parameter von GPT-3.5 wurde offiziell nicht bekannt gegeben, es wird jedoch angenommen, dass sie mit der der GPT-3-Modelle vergleichbar ist.
Das Training von GPT-3.5 umfasste den erweiterten Einsatz von Methoden des bestärkenden Lernens durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF), was die Relevanz der generierten Antworten erhöhte. Das Modell wurde auf erweiterten Textkorpora trainiert, die Common Crawl, Books, WebText und andere hochwertige Quellen umfassten. Ein besonderes Merkmal von GPT-3.5 war die Vergrößerung des maximalen Kontextfensters auf 4096 Tokens in populären Versionen (z. B. gpt-3.5-turbo), was die Verarbeitung längerer Dialoge und komplexer Anweisungen ermöglichte.
In der Praxis wurde GPT-3.5 für die Lösung einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung angepasst, wie zum Beispiel:
- Generierung von zusammenhängendem und logischem Text;
- Beantwortung von Fragen (QA) und Kontextverständnis;
- Befolgen von mehrstufigen Anweisungen;
- Verbessertes Beibehalten des Langzeitkontexts in Dialogen
Auf Basis von GPT-3.5 wurden mehrere Schlüsselversionen veröffentlicht, die für unterschiedliche Zwecke konzipiert wurden:
- text-davinci-002 – das erste öffentlich zugängliche Modell auf Basis von GPT-3.5, optimiert für Generierung und das Befolgen von Anweisungen.
- text-davinci-003 – eine verbesserte Version mit noch größerer Fähigkeit zum schlussfolgernden Denken und zur Generierung komplexer Texte.
- gpt-3.5-turbo – die leistungsstärkste und kostengünstigste Version von GPT-3.5, die ab Ende 2022 im Dienst ChatGPT verwendet wurde.
GPT-4
Das Modell GPT-4 wurde von OpenAI am 14. März 2023 in der Arbeit "GPT-4 Technical Report" vorgestellt. Es markierte die nächste Entwicklungsstufe der Sprachmodellfamilie und bot signifikante Verbesserungen im Bereich des Textverständnisses, der Generierung sinnvoller und kreativer Antworten sowie der Verarbeitung multimodaler Daten. Die genaue Anzahl der Parameter und architektonische Details des Modells wurden offiziell nicht offengelegt, es wird jedoch allgemein angenommen, dass GPT-4 GPT-3.5 in Größe und Komplexität erheblich übertrifft. Das Training von GPT-4 basierte auf umfangreichen Text- und multimodalen Korpora, die Textdaten, Bilder und andere Informationstypen umfassten. Das Modell nutzte Methoden des RLHF (bestärkendes Lernen durch menschliches Feedback). Ein wichtiges Merkmal des Modells war die Vergrößerung des Kontextfensters: auf 8.192 Tokens in der Basisversion und auf 32.768 Tokens in der erweiterten Version (GPT-4 Turbo), was die Arbeit mit langen Texten und komplexen Dialogen ermöglichte.
Das Training von GPT-4 erfolgte auf einer Kombination aus umfangreichen Text- und multimodalen Korpora. Der Textteil umfasste sorgfältig ausgewählte, hochwertige Daten aus dem Internet, Büchern, Artikeln und Code-Repositories. Für die multimodale Version wurden spezialisierte Datensätze von Bildern mit entsprechenden textuellen Beschreibungen verwendet.
Das Training verlief in mehreren Phasen:
- umfangreiches unüberwachtes Vortraining auf Texten und Bildern,
- überwachte Feinabstimmung (supervised fine-tuning) für spezialisierte Aufgaben,
- eine abschließende Phase des bestärkenden Lernens durch menschliches Feedback (RLHF) zur Verbesserung der Zuverlässigkeit, Sicherheit und Qualität der Anweisungsinterpretation.
Zur Optimierung des Trainingsprozesses wurden Techniken des verteilten Trainings unter Verwendung von Tausenden von GPUs und spezialisierten Optimierern eingesetzt, die das Training von extrem großen Modellen mit tiefer Architektur stabilisieren konnten. Besonderes Augenmerk wurde auf die Reduzierung der Fehlerhäufigkeit, die Verbesserung der Widerstandsfähigkeit der Modelle gegen "Halluzinationen" und die Erhöhung der Stabilität der Generierung bei langen Eingabesequenzen gelegt.
Auf Basis von GPT-4 wurden mehrere Hauptversionen veröffentlicht:
- GPT-4 (März 2023): Basisversion mit Unterstützung für Text- und Bildeingabe; Kontextfenster von 8.192 Tokens (erweiterte Version – 32.768 Tokens).
- GPT-4 Turbo (November 2023): optimierte Modifikation von GPT-4 mit einem vergrößerten Kontextfenster von 128.000 Tokens; reduzierte Rechenkosten und beschleunigte Generierung; Unterstützung für Funktionsaufrufe (function calling) und JSON-Ausgabe.
- GPT-4o (Mai 2024): multimodale Version der neuen Generation mit der Fähigkeit, Text, Bilder und Audio zu verarbeiten; verbesserte Antwortgeschwindigkeit und Interaktionsqualität; Kontextfenster von 128.000 Tokens.
- GPT-4.5 (Februar 2025): Forschungsversion mit verbesserter Generierung komplexer Texte, erhöhter Genauigkeit bei der Ausführung von Anweisungen und reduzierter Halluzinationsrate; Kontextfenster von 128.000 Tokens.
- GPT-4.1 (April 2025): stabile Version mit einer drastischen Erweiterung des Kontexts auf 1.048.576 Tokens; verbesserte Effizienz bei Programmieraufgaben, der Arbeit mit langen Texten und Multimodalität.
GPT-5
Am 7. August 2025 stellte OpenAI GPT‑5 als „das intelligenteste, schnellste und nützlichste“ Modell vor, mit einem integrierten Denkmodus („thinking“) und einem Fokus auf reale Szenarien – Schreiben, Programmieren, Gesundheit und multimodales Verständnis. GPT‑5 wurde zum Standardmodell in ChatGPT für alle angemeldeten Benutzer.[1]
GPT‑5 ist ein einheitliches System aus zwei Hauptkomponenten: einer schnellen, kostengünstigen Antwort für alltägliche Anfragen (gpt‑5‑main) und einem tiefgehenden Denkprozess für komplexe Aufgaben (gpt‑5‑thinking). Ein Router wählt in Echtzeit den passenden Modus basierend auf dem Dialogtyp, der Komplexität, dem Bedarf an Tools und expliziten Hinweisen des Benutzers (z. B. “think hard about this”). In ChatGPT sind auch „Mini/Pro“‑Varianten verfügbar; in der Systemübersicht wird die Zuordnung der Namen der GPT‑4/o‑Serie zu den GPT‑5‑Varianten dargestellt.
In der API sind drei Größen verfügbar: gpt-5, gpt-5‑mini und gpt-5‑nano (alle für Text + Bild). Der maximale Gesamtkontext beträgt 400.000 Tokens (bis zu ca. 272.000 für die Eingabe und bis zu 128.000 für den Denkprozess + Ausgabe), was für die gesamte GPT‑5‑Familie in der API festgelegt ist. Auf der öffentlichen Seite werden dieselben Metriken und Preisinformationen angegeben.
Bei Websuchen und offenen faktischen Datensätzen reduziert GPT‑5 Halluzinationen erheblich: etwa 45 % weniger Fehler im Vergleich zu GPT‑4o und ca. ~80 % weniger im Vergleich zu OpenAI o3 im „thinking“‑Modus. Es wurde auch eine geringere Neigung zur „Täuschung“ in Tests mit unlösbaren Aufgaben festgestellt.
| Generation | Erscheinungsjahr | Anzahl der Parameter | Größe des Textkorpus | Hauptmerkmale |
|---|---|---|---|---|
| GPT-1 | 2018 | ≈117 Mio. | ≈5 GB (BooksCorpus) | Generatives Vortraining auf großen Korpora, zweistufiges Training (Pre-training + Fine-tuning) |
| GPT-2 | 2019 | 1,5 Mrd. | ≈40 GB (WebText) | Verbesserte Textgenerierung; teilweise Veröffentlichung des Modells |
| GPT-3 | 2020 | 175 Mrd. | ≈570 GB (Common Crawl, WebText2 etc.) | Umfangreiches In-Context-Learning; Fähigkeit zum Few-Shot- und Zero-Shot-Lernen ohne Feinabstimmung |
| GPT-3.5 | 2022 | ~6–175 Mrd. (verschiedene Versionen) | >570 GB + zusätzliches Instruction Tuning | Verbesserte Stabilität; Training zum Befolgen von Anweisungen; Basis von ChatGPT |
| GPT-4 | 2023 | Nicht offengelegt (Schätzungen: 500 Mrd.+) | Nicht offengelegt (vermutlich mehrere Billionen Tokens) | Multimodalität (Text + Bilder); erhöhte Genauigkeit; Robustheit gegenüber Halluzinationen |
| GPT-4 Turbo | 2023 | Nicht offengelegt | Basiert auf dem Training von GPT-4 | Erweiterung des Kontexts auf 128.000 Tokens; Optimierung von Geschwindigkeit und Generierungskosten |
| GPT-4o | 2024 | Nicht offengelegt | Training auf multimodalen Daten | Multimodale Verarbeitung von Text, Bildern und Audio; hohe Antwortgeschwindigkeit |
| GPT-4.5 | 2025 | Nicht offengelegt | Erweiterte Text- und multimodale Korpora | Verbessertes Befolgen von Anweisungen; Reduzierung der Fehlerquote; Forschungsveröffentlichung |
| GPT-4.1 | 2025 | Nicht offengelegt | Aktualisierte Korpora; Qualitätsoptimierung | Kontext bis zu 1.048.576 Tokens; Steigerung von Leistung und Genauigkeit; Multimodalität |
| Modell | Erscheinungsjahr | Anzahl der Parameter | Anzahl der Schichten | Größe des verborgenen Zustands | Anzahl der Aufmerksamkeitsköpfe | Kontextfenster | Größe des Trainingskorpus |
|---|---|---|---|---|---|---|---|
| GPT-1 | 2018 | ≈117 Mio. | 12 | 768 | 12 | 512 Tokens | ≈5 GB (BooksCorpus) |
| GPT-2 | 2019 | 1,5 Mrd. | 48 | 1600 | 25 | 1024 Tokens | ≈40 GB (WebText) |
| GPT-3 | 2020 | 175 Mrd. | 96 | 12.288 | 96 | 2048 Tokens | ≈570 GB (Common Crawl + WebText2 + weitere) |
| GPT-3.5 | 2022 | ~6–175 Mrd. (verschiedene Versionen) | (Schätzung ~96) | (Schätzung: analog zu GPT-3) | (nicht offengelegt) | 4096 Tokens | Erweiterter Common Crawl + zusätzliche Datensätze |
| GPT-4 | 2023 | (nicht offengelegt, Schätzung: 500+ Mrd.) | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | 8.192 Tokens | Vermutlich mehrere Billionen Tokens |
| GPT-4 Turbo | 2023 | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | 32.768 Tokens | Optimierte Version von GPT-4 zur Kostensenkung |
| GPT-4o | 2024 | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | 128.000 Tokens | Training auf multimodalen Daten (Text, Audio, Bild) |
| GPT-4.5 | 2025 | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | 128.000 Tokens | Verbessertes Befolgen von Anweisungen; Reduzierung der Fehlerquote |
| GPT-4.1 | 2025 | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | (nicht offengelegt) | 1.048.576 Tokens | Multimodalität; skaliertes Training mit erweitertem Kontext |
Weblinks
- „Better Language Models and Their Implications“, OpenAI, 14. Februar 2019
Einzelnachweise
Literatur
- Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
- OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
- Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.
Category:Artificial intelligence