Große Sprachmodelle von Google

From Systems analysis wiki
Jump to navigation Jump to search

Große Sprachmodelle von Google — eine Serie von großen Sprachmodellen (LLMs), die von verschiedenen Abteilungen bei Google entwickelt wurden, darunter Google AI (ehemals Google Brain) und DeepMind. Als einer der Pioniere im Bereich des Deep Learning und der Transformer-Architektur hat Google grundlegende Beiträge zur Entwicklung moderner LLMs geleistet. Die Entwicklungsgeschichte dieser Modelle spiegelt den Weg von hochspezialisierten Systemen zum Sprachverständnis bis hin zu umfangreichen multimodalen und agentenbasierten Systemen wider, die die Grundlage vieler Google-Produkte bilden und die Entwicklungsrichtung der gesamten KI-Branche bestimmen.

Geschichte und Evolution der Google-Modelle

Frühe Erfolge und neuronale maschinelle Übersetzung (2011–2016)

Die Grundlagen für die Entwicklung von LLMs bei Google wurden im Rahmen des Projekts Google Brain (2011) gelegt, das sich der Anwendung tiefer neuronaler Netze widmete. Einer der ersten Durchbrüche war der von Tomáš Mikolov entwickelte Algorithmus Word2Vec (2013). Er ermöglichte die Darstellung von Wörtern als Vektoren (Embeddings), die ihren semantischen Kontext widerspiegeln, und wurde zu einer grundlegenden Methode für das Sprachverständnis in neuronalen Netzen.

Der nächste Schritt war der Übergang zu Sequenz-zu-Sequenz-Modellen wie seq2seq (2014), die die Basis für Google Neural Machine Translation (GNMT) (2016) bildeten. Die Umstellung von Google Translate auf eine neuronale Architektur, die auf LSTMs basierte, verbesserte die Qualität der maschinellen Übersetzung erheblich. Gleichzeitig demonstrierte die Tochtergesellschaft DeepMind, die 2014 von Google übernommen wurde, die Leistungsfähigkeit des Deep Learning mit dem Sieg des Systems AlphaGo über den Go-Weltmeister und stärkte damit das Vertrauen in das Potenzial der KI.

Die Transformer-Revolution und die Geburt von BERT (2017–2018)

Im Jahr 2017 stellten Forscher von Google Brain die Transformer-Architektur in dem Paper „Attention Is All You Need“ vor. Diese Architektur, die auf dem Mechanismus der Selbst-Aufmerksamkeit (Self-Attention) basiert, ermöglichte die parallele statt der sequenziellen Verarbeitung von Sequenzen, was eine Revolution im NLP darstellte und zur Grundlage für alle modernen LLMs wurde.

Auf dieser Erfolgswelle stellte Google 2018 das Modell BERT (Bidirectional Encoder Representations from Transformers) vor. BERT war das erste tief bidirektionale Modell, das den Kontext eines Wortes gleichzeitig von links und rechts berücksichtigte. Dadurch erreichte es Rekordergebnisse bei zahlreichen Aufgaben des Sprachverständnisses (GLUE, SQuAD) und setzte einen neuen Industriestandard. BERT wurde in zwei Versionen (BASE mit 110 Mio. Parametern und LARGE mit 340 Mio. Parametern) als Open Source mit Gewichten veröffentlicht, was zu seiner massenhaften Verbreitung beitrug. Seit 2019 wird BERT in der Google-Suche eingesetzt, um Suchanfragen besser zu verstehen.

Skalierung und die Ära der dialogorientierten Modelle (2019–2022)

Nach BERT setzte Google seine Experimente mit Skalierung und Architektur fort:

  • T5 (Text-to-Text Transfer Transformer, 2019): Ein einheitliches Modell, das jede NLP-Aufgabe als eine „Text-zu-Text“-Transformation behandelt. T5 wurde auf dem riesigen C4-Korpus (Colossal Clean Crawled Corpus) trainiert und ebenfalls in mehreren Größen (bis zu 11 Mrd. Parameter) als Open Source veröffentlicht.
  • Meena (2020): Das erste spezialisierte dialogorientierte Modell von Google mit 2,6 Mrd. Parametern, das eine hohe Qualität in offenen Dialogen zeigte.
  • LaMDA (Language Model for Dialogue Applications, 2021): Eine Familie von dialogorientierten Modellen (bis zu 137 Mrd. Parameter), die auf einem riesigen Dialogkorpus (1,56 Billionen Wörter) trainiert wurden. LaMDA zielte darauf ab, natürlichere und sinnvollere Gespräche zu ermöglichen und wurde der breiten Öffentlichkeit bekannt, nachdem ein Google-Ingenieur behauptete, das Modell sei „empfindungsfähig“.
  • Gopher und Chinchilla (DeepMind, 2021–2022): Parallel dazu untersuchte DeepMind die Skalierungsgesetze. Das Modell Gopher (280 Mrd. Parameter) zeigte, wie sich die Skalierung auf die Qualität auswirkt. Das Modell Chinchilla (70 Mrd.) demonstrierte hingegen, dass für eine optimale Leistung nicht die maximale Anzahl an Parametern entscheidend ist, sondern das richtige Gleichgewicht zwischen Modellgröße und der Menge der Trainingsdaten. Diese Erkenntnis wurde als „Chinchilla-Gesetz“ bekannt und beeinflusste die Trainingsstrategie für LLMs in der gesamten Branche.

Die Ära der ultra-großen und multimodalen Modelle (2022–heute)

  • PaLM (Pathways Language Model, 2022): Zum Zeitpunkt seiner Ankündigung das größte dichte (dense) Modell von Google mit 540 Mrd. Parametern, trainiert auf der neuen verteilten Infrastruktur Pathways. PaLM zeigte bahnbrechende Fähigkeiten im logischen Schlussfolgern, insbesondere unter Verwendung der Chain-of-Thought (CoT) Prompting-Technik. Auf seiner Basis wurden spezialisierte Versionen wie Med-PaLM für die Medizin entwickelt. 2023 wurde eine verbesserte Version, PaLM 2 (~340 Mrd. Parameter), veröffentlicht, die die Grundlage für den überarbeiteten Chatbot Bard bildete.
  • Gemini (2023–heute): Eine neue Generation von Modellen, entwickelt vom vereinten Team von Google DeepMind. Gemini wurde von Grund auf als nativ multimodales System konzipiert, das Text, Code, Bilder, Audio und Video verarbeiten kann. Es wurde in mehreren Versionen veröffentlicht:
    • Gemini Ultra: Das leistungsstärkste Modell für komplexe Aufgaben.
    • Gemini Pro: Ein vielseitiges Modell für ein breites Aufgabenspektrum.
    • Gemini Nano: Ein kompaktes Modell für den Einsatz auf mobilen Geräten.

In den Jahren 2024–2025 wurde die Familie um die Versionen Gemini 1.5 (mit einem Kontextfenster von bis zu 1 Million Token) und Gemini 2.0 erweitert, das agentenbasierte Fähigkeiten erhielt.

Architektur und technische Merkmale

Fundament: Encoder, Decoder und Hybride

Google verwendet je nach Aufgabe verschiedene Varianten der Transformer-Architektur:

  • Nur-Encoder (Encoder-only): Modelle wie BERT. Sie verarbeiten den gesamten Text auf einmal und erzeugen eine reichhaltige kontextuelle Repräsentation. Ideal für Aufgaben der Textanalyse und des Textverständnisses (Klassifikation, Entitätsextraktion), aber nicht für die Generierung.
  • Nur-Decoder (Decoder-only): Modelle wie LaMDA und PaLM (ähnlich wie GPT). Sie sind autoregressiv, d.h. sie sagen den Text Token für Token voraus. Dies sind natürliche Generatoren, die sich hervorragend für die Textfortsetzung, Dialoge und die Beantwortung von Fragen eignen.
  • Encoder-Decoder: Modelle wie T5 und GNMT. Sie bestehen aus beiden Teilen: Der Encoder verarbeitet die Eingabesequenz, und der Decoder generiert die Ausgabesequenz. Dies ist eine universelle Architektur für Transformationsaufgaben wie Übersetzung oder Zusammenfassung.

Skalierung: Parameter, Daten und Infrastruktur

Der Erfolg von Google im Bereich der LLMs ist maßgeblich auf drei Faktoren zurückzuführen:

  1. Modellskalierung: Die systematische Erhöhung der Anzahl der Parameter von Millionen (BERT) bis zu Hunderten von Milliarden (PaLM, Gemini).
  2. Datenskalierung: Der Zugriff auf einen der weltweit größten Datenkorpora (Google-Webindex, YouTube, Google Books), der es ermöglicht, Modelle mit Billionen von Token zu trainieren.
  3. Infrastruktur: Die Nutzung eigener spezialisierter Chips — Tensor Processing Unit (TPU) — und des verteilten Systems Pathways, die ein effizientes und stabiles Training von extrem großen Modellen ermöglichen.

Multimodalität und Agentenfähigkeiten

Die neuesten Modelle von Google, insbesondere Gemini, entwickeln sich in Richtung tiefgreifender Multimodalität und Agentenfähigkeiten.

  • Native Multimodalität bedeutet, dass ein einziges Modell von Grund auf darauf trainiert ist, verschiedene Datentypen (Text, Bilder, Audio) zu verstehen und zu kombinieren, anstatt nur separate Module miteinander zu verbinden.
  • Agentenfähigkeit (Agentic AI) ist die Fähigkeit eines Modells, nicht nur auf Anfragen zu antworten, sondern selbstständig eine Abfolge von Aktionen zu planen und auszuführen, um ein Ziel zu erreichen (z. B. durch den Aufruf externer Werkzeuge wie einer Suche oder eines Taschenrechners).

Zusammenfassende Tabelle der wichtigsten Modelle

Vergleich der wichtigsten Sprachmodelle von Google
Modell Erscheinungsjahr Parameter (geschätzt) Architektur Wichtige Merkmale
BERT 2018 110–340 Mio. Encoder Bidirektionales Kontextverständnis, SOTA bei NLP-Aufgaben.
T5 2019 60 Mio. – 11 Mrd. Encoder-Decoder Einheitlicher „Text-zu-Text“-Ansatz für alle Aufgaben.
LaMDA 2021 137 Mrd. Decoder Spezialisierung auf offene, sinnvolle Dialoge.
PaLM 2022 540 Mrd. Decoder Durchbruch im logischen Schlussfolgern (Chain-of-Thought), Training im großen Maßstab.
Chinchilla 2022 70 Mrd. Decoder „Compute-optimales“ Modell, das die Bedeutung der Balance zwischen Daten und Parametern bewies.
Gemini 1.0 2023 bis zu ~1 Bio. (Ultra) Multimodal (wahrscheinlich MoE) Native Multimodalität, SOTA bei zahlreichen Benchmarks (MMLU).
Gemini 1.5 2024 Nicht offengelegt Multimodal (MoE) Kontextfenster bis zu 1-2 Mio. Token, hohe Effizienz.
Gemini 2.0 2024 Nicht offengelegt Multimodal + Tools Integrierte Agentenfähigkeiten, Bild-/Audioerzeugung.

Anwendung in Produkten und im Ökosystem

Google integriert seine LLMs aktiv in seine gesamte Produktpalette:

  • Google Suche: BERT, MUM und Gemini werden verwendet, um komplexe Suchanfragen besser zu verstehen und direkte Antworten im Format von AI Overviews (früher SGE) zu liefern.
  • Google Assistant und Bard (jetzt Gemini): Der Übergang von einfachen Sprachbefehlen zu vollwertigen dialogorientierten Assistenten auf Basis von LaMDA, PaLM 2 und Gemini.
  • Google Workspace: Die Funktionen von Duet AI (jetzt Gemini for Workspace) helfen beim Verfassen von E-Mails in Gmail, Erstellen von Texten in Docs und Generieren von Präsentationen in Slides.
  • Android: Gemini Nano ermöglicht die Ausführung von KI-Funktionen lokal auf Geräten wie dem Pixel, um Datenschutz und Geschwindigkeit zu verbessern.
  • Google Cloud AI: Die Plattform Vertex AI bietet Unternehmen über eine API Zugriff auf die Modelle PaLM und Gemini, um eigene Anwendungen zu entwickeln.

Rolle im Wettbewerbsumfeld

Google ist einer der Hauptakteure im „KI-Wettrennen“, in dem seine Hauptkonkurrenten OpenAI (mit Unterstützung von Microsoft) und Meta sind.

  • Rivalität mit OpenAI: Obwohl Google bei vielen grundlegenden Technologien (einschließlich des Transformers) Pionierarbeit leistete, zwang der Start von ChatGPT Ende 2022 Google dazu, die Markteinführung seiner Produkte (wie Bard) zu beschleunigen. Der Wettbewerb konzentriert sich auf die Modellqualität (Gemini Ultra vs. GPT-4), die Größe des Kontextfensters und die Benutzerfreundlichkeit der API.
  • Kontrast zu Meta: Meta hat auf Open Source gesetzt (LLaMA-Modelle) und damit eine leistungsstarke Alternative zu den geschlossenen Modellen von Google und OpenAI geschaffen. Als Reaktion darauf hat auch Google begonnen, offene Modelle wie Gemma zu veröffentlichen, um die Entwickler-Community zu unterstützen und das Ökosystem nicht an Meta zu verlieren.
  • Strategische Allianzen: Google investiert in andere Akteure, wie zum Beispiel in das Startup Anthropic (Entwickler des Claude-Modells), um seine Ansätze zu diversifizieren und seine Position im Cloud-Wettbewerb zu stärken.

Literatur

  • Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR.
  • Thoppilan, R. et al. (2022). LaMDA: Language Models for Dialog Applications. arXiv:2201.08239.
  • Hoffmann, R. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
  • Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. JMLR.
  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.