BERT (Sprachmodell)
BERT (Bidirectional Encoder Representations from Transformers, bidirektionale Encoder-Repräsentationen von Transformern) ist ein großes Sprachmodell (LLM) für das Verstehen natürlicher Sprache, das von Forschern bei Google entwickelt und 2018 vorgestellt wurde. BERT läutete eine neue Ära in der Verarbeitung natürlicher Sprache (NLP) ein, indem es eine beispiellose Leistung bei einer Vielzahl von Aufgaben zeigte und das Paradigma „Vortraining + Feinabstimmung“ (Pre-Training & Fine-Tuning) als Industriestandard etablierte.
Die Schlüsselinnovation von BERT ist seine tiefgreifend bidirektionale Architektur, die es dem Modell ermöglicht, den Kontext eines Wortes gleichzeitig von links und rechts in allen Schichten des Netzwerks zu berücksichtigen. Dies wird durch eine neue Vortrainingsaufgabe erreicht: das Masked Language Modeling (MLM).
Name und Funktionsprinzip
Die Abkürzung BERT steht für Bidirectional Encoder Representations from Transformers.
- Bidirectional (Bidirektional): Dies verweist auf das Hauptmerkmal des Modells – die Fähigkeit, den Kontext eines Wortes gleichzeitig in beide Richtungen (von links nach rechts und von rechts nach links) zu verarbeiten. Im Gegensatz zu unidirektionalen Modellen (wie GPT), die bei der Verarbeitung eines Wortes nur den vorangehenden Kontext sehen, betrachtet BERT die gesamte Sequenz, was ihm ein tieferes und genaueres Verständnis der Wortbedeutung ermöglicht.
- Encoder (Encoder): Dies bedeutet, dass BERT nur den Encoder-Teil der Transformer-Architektur verwendet. Die Aufgabe des Encoders besteht darin, die eingegebene Textsequenz zu lesen und für jedes Token eine reichhaltige kontextuelle Repräsentation (einen Vektor) zu erstellen. BERT ist nicht für die freie Textgenerierung wie Decoder-Modelle konzipiert.
- Representations (Repräsentationen): Das Modell wird trainiert, um hochwertige numerische Repräsentationen (Vektoren oder Embeddings) für Wörter und Sätze zu erstellen, die dann zur Lösung verschiedener NLP-Aufgaben verwendet werden können.
- from Transformers: Dies weist darauf hin, dass die Architektur des Modells vollständig auf dem Transformer basiert.
Entstehungsgeschichte
Die Entwicklung von BERT war das Ergebnis mehrerer wichtiger Durchbrüche im Bereich NLP:
- Kontextuelle Embeddings: Modelle wie Word2vec und GloVe erstellten statische Vektoren für Wörter, die den Kontext nicht berücksichtigten. Das Modell ELMo (2018) war ein Fortschritt, da es kontextabhängige Repräsentationen mithilfe von bidirektionalen LSTM-Netzwerken erzeugte. Diese Bidirektionalität war jedoch „oberflächlich“ (eine Konkatenation von zwei unidirektionalen Modellen).
- Transfer-Lernen und GPT: Mitte 2018 stellte OpenAI das Modell GPT vor, das die Wirksamkeit des Vortrainings eines großen Transformer-Modells auf ungelabelten Daten mit anschließender Feinabstimmung (Fine-Tuning) für spezifische Aufgaben demonstrierte. GPT war jedoch streng unidirektional (von links nach rechts), was seine Fähigkeiten bei Aufgaben, die ein Verständnis des gesamten Kontexts erfordern, einschränkte.
Im Bewusstsein dieser Einschränkungen entwickelten Forscher bei Google unter der Leitung von Jacob Devlin BERT, um ein wirklich tiefgreifend bidirektionales Modell zu schaffen. Der Artikel über BERT wurde im Oktober 2018 auf arXiv veröffentlicht, und der Code sowie vortrainierte Modelle wurden öffentlich zugänglich gemacht, was ein explosives Interesse in der wissenschaftlichen Gemeinschaft auslöste. BERT brach Rekorde in 11 wichtigen NLP-Benchmarks, darunter GLUE und SQuAD, und wurde als der „ImageNet-Moment“ für NLP bezeichnet, da ein einziges universelles Modell leicht für eine Vielzahl von Aufgaben angepasst werden konnte.
Architektur
BERT basiert vollständig auf dem Encoder-Teil der Transformer-Architektur. Es besteht aus mehreren identischen Schichten, die übereinander gestapelt sind. Es gibt zwei Hauptversionen:
- BERT-Base: 12 Schichten, 12 Attention-Heads, 768 Dimensionen im verborgenen Zustand, insgesamt ca. 110 Millionen Parameter.
- BERT-Large: 24 Schichten, 16 Attention-Heads, 1024 Dimensionen im verborgenen Zustand, insgesamt ca. 340 Millionen Parameter.
Jede Schicht enthält zwei Haupt-Subschichten:
- Multi-Head Self-Attention-Mechanismus: Ermöglicht es jedem Token in der Eingabesequenz, auf alle anderen Tokens zu „achten“ und deren Wichtigkeit zur Bestimmung seiner eigenen kontextuellen Bedeutung abzuwägen.
- Feed-Forward-Netzwerk: Wird auf jedes Token einzeln angewendet.
Eingabedaten
Für eine korrekte Funktionsweise erfordert BERT eine spezielle Formatierung der Eingabedaten. Die dem Modell zugeführte Token-Sequenz beginnt immer mit einem speziellen Token `[CLS]` (classification), das für Klassifikationsaufgaben des gesamten Textes verwendet wird. Wenn dem Modell ein Satzpaar zugeführt wird (z. B. bei Frage-Antwort-Systemen), werden diese durch das Token `[SEP]` (separator) getrennt.
Die endgültige Repräsentation jedes Tokens am Eingang ist die Summe von drei Embeddings:
- Token-Embedding: Ein Vektor, der einem bestimmten Token aus dem Vokabular entspricht (BERT verwendet die WordPiece-Tokenisierung).
- Segment-Embedding: Gibt an, zu welchem Satz (dem ersten oder dem zweiten) das Token gehört.
- Positions-Embedding: Gibt die Position des Tokens in der Sequenz an, da die Transformer-Architektur an sich die Wortreihenfolge nicht berücksichtigt.
Vortrainingsaufgaben
Um eine tiefgreifende Bidirektionalität zu gewährleisten, wird BERT gleichzeitig auf zwei einzigartigen Aufgaben trainiert.
Masked Language Modeling (MLM)
Dies ist die Schlüsselinnovation von BERT. Anstatt das nächste Wort wie in Standard-Sprachmodellen vorherzusagen, sagt BERT zufällig „maskierte“ Wörter in einem Satz voraus. Der Prozess sieht wie folgt aus:
- Aus der Eingabesequenz werden zufällig 15 % der Tokens ausgewählt.
- Von diesen 15 %:
- 80 % werden durch das spezielle Token `[MASK]` ersetzt.
- 10 % werden durch ein zufälliges Token aus dem Vokabular ersetzt.
- 10 % bleiben unverändert.
- Die Aufgabe des Modells besteht darin, die ursprünglichen Werte dieser 15 % der Tokens auf der Grundlage ihres umgebenden (linken und rechten) Kontexts vorherzusagen.
Dieses Schema zwingt das Modell, tiefe semantische und syntaktische Beziehungen zwischen Wörtern zu lernen und ermöglicht es ihm, wirklich bidirektional zu sein.
Next Sentence Prediction (NSP)
Diese Aufgabe wurde entwickelt, um BERT beizubringen, die Beziehungen zwischen Sätzen zu verstehen, was für Aufgaben wie Frage-Antwort-Systeme oder Textual Entailment (NLI) entscheidend ist. Dem Modell wird ein Satzpaar (A und B) zugeführt, und es muss vorhersagen, ob Satz B eine logische Fortsetzung von Satz A ist.
- In 50 % der Fälle ist B tatsächlich der nächste Satz aus dem Originaltext.
- In 50 % der Fälle ist B ein zufälliger Satz, der aus einer anderen Stelle im Korpus entnommen wurde.
Spätere Forschungen (z. B. im RoBERTa-Modell) zeigten, dass die NSP-Aufgabe weniger wichtig ist als MLM und zugunsten effizienterer Trainingsschemata aufgegeben werden kann, aber im ursprünglichen BERT spielte sie eine wichtige Rolle.
Anwendung und Feinabstimmung (Fine-Tuning)
Die Stärke von BERT liegt im Paradigma des Transfer-Lernens. Nach einem umfangreichen und kostspieligen Vortraining auf riesigen Korpora (Wikipedia + BooksCorpus) kann das vortrainierte Modell einfach und schnell für die Lösung einer spezifischen Anwendungsaufgabe feinabgestimmt (fine-tuned) werden.
Der Feinabstimmungsprozess sieht typischerweise wie folgt aus: 1. Zur Architektur des vortrainierten BERT wird eine kleine, untrainierte, aufgabenspezifische Schicht hinzugefügt (z. B. ein Klassifikator für die Sentiment-Analyse). 2. Das gesamte Modell (einschließlich der Gewichte von BERT und der neuen Schicht) wird auf einem kleinen, gelabelten Datensatz für diese spezifische Aufgabe trainiert.
Beispiele für Aufgaben, für die BERT angepasst wird:
- Textklassifikation (Sentiment-Analyse, Spam-Filter): An den Ausgang des `[CLS]`-Tokens wird ein Klassifikator angehängt.
- Frage-Antwort-Systeme (z. B. SQuAD): Das Modell wird trainiert, die Anfangs- und End-Tokens der Antwort in einem gegebenen Text vorherzusagen.
- Named Entity Recognition (NER): An den Ausgang jedes Tokens wird ein Klassifikator angehängt, der bestimmt, ob das Token Teil eines Namens, einer Organisation, eines Datums usw. ist.
Varianten und abgeleitete Modelle
Der Erfolg von BERT führte zur Entstehung einer ganzen Familie von Modellen, die auf seinen Ideen basieren:
- RoBERTa (von Facebook AI): „Robustly Optimized BERT“. Es handelt sich nicht um eine neue Architektur, sondern vielmehr um das Ergebnis eines gründlicheren und längeren Trainings von BERT: auf mehr Daten, ohne die NSP-Aufgabe und mit dynamischer Maskierung. RoBERTa zeigte, dass das ursprüngliche BERT „untertrainiert“ war und übertraf es in allen wichtigen Benchmarks.
- DistilBERT (von Hugging Face): Eine verkleinerte Version von BERT, die durch Wissensdestillation erstellt wurde. DistilBERT ist 40 % kleiner, 60 % schneller und behält 97 % der Leistung von BERT bei, was es ideal für den Einsatz in Produktionsumgebungen und auf Geräten mit begrenzten Ressourcen macht.
- ALBERT (A Lite BERT, von Google): Eine Version, die zur Reduzierung der Parameteranzahl optimiert wurde. Es verwendet zwei Schlüsseltechniken: Embedding-Faktorisierung und schichtübergreifende Parameterteilung (Cross-Layer Parameter Sharing). Dies ermöglicht die Erstellung wesentlich größerer Modelle mit einer geringeren Anzahl von Parametern.
- mBERT (Multilingual BERT): Eine Version von BERT, die auf 104 Sprachen gleichzeitig vortrainiert wurde. Sie zeigte eine erstaunliche Fähigkeit zum sprachübergreifenden Wissenstransfer (Cross-Lingual Transfer).
- Domänenspezifische Modelle: Eine Vielzahl von Modellen, die auf Daten aus spezifischen Bereichen feinabgestimmt wurden, wie BioBERT (Biomedizin), SciBERT (wissenschaftliche Texte) und FinBERT (Finanzwesen).
- ModernBERT (2024–2025): Eine neue Generation von BERT-ähnlichen Modellen von den Unternehmen Answer.AI und LightOn, die moderne Architekturoptimierungen wie RoPE (Rotary Position Embeddings) und die Unterstützung längerer Kontexte (bis zu 8192 Tokens) beinhalten, während die Grundprinzipien von BERT beibehalten werden.
Vergleich mit anderen Modellen
| Modell | Entwickler | Architektur | Kontextrichtung | Hauptaufgabe |
|---|---|---|---|---|
| BERT | Encoder | Bidirektional | Textverständnis, Klassifikation, Extraktion | |
| GPT | OpenAI | Decoder | Unidirektional (links nach rechts) | Textgenerierung, Sequenzfortsetzung |
| XLNet | Google / CMU | Autoregressiv (Permutation) | Bidirektional (theoretisch) | Textverständnis (Alternative zu MLM) |
| T5 | Encoder-Decoder | Bidirektional (Encoder) + Unidirektional (Decoder) | Universelle „Text-zu-Text“-Transformation |
Einfluss
BERT hat die NLP-Welt revolutioniert und den Grundstein für viele nachfolgende Entwicklungen gelegt:
- Etablierte das Paradigma „Vortraining + Feinabstimmung“ als den dominierenden Ansatz in der NLP.
- Bewies die Wichtigkeit eines tiefen bidirektionalen Kontexts für das Sprachverständnis.
- Senkte die Einstiegshürde für die Erstellung hochleistungsfähiger NLP-Systeme, da Forscher und Entwickler nicht mehr für jede Aufgabe komplexe Architekturen von Grund auf neu erstellen mussten.
- Wurde in die Google-Suche integriert, was eines der größten Updates der Suchmaschine in ihrer Geschichte darstellte und den praktischen Nutzen des Modells eindrucksvoll demonstrierte.
- Schuf ein ganzes Ökosystem von abgeleiteten Modellen, Werkzeugen und Forschungen („BERTology“) und wurde zu einer der meistzitierten Arbeiten im Bereich der KI.
Obwohl neuere und größere Modelle wie GPT-3 und GPT-4 BERT in vielen Benchmarks (insbesondere bei generativen Aufgaben) übertroffen haben, bleiben BERT und seine Varianten nach wie vor ein leistungsstarkes und weit verbreitetes Werkzeug für Aufgaben, die ein tiefes Textverständnis erfordern.
Links
- Offizielles BERT-Repository auf GitHub
- Ankündigung von BERT im Google AI Blog
- The Illustrated BERT – eine visuelle Erklärung der BERT-Architektur
Literatur
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762.
- Peters, M. E. et al. (2018). Deep Contextualized Word Representations. arXiv:1802.05365.
- Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.
- Lan, Z. et al. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv:1909.11942.
- Sanh, V. et al. (2020). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108.
- Yang, Z. et al. (2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding. arXiv:1906.08237.
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv:1910.10683.
- Lee, J. et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. arXiv:1901.08746.
- Warner, B. et al. (2024). Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference. arXiv:2412.13663.