Kontextuelles Vergessen
Kontextuelles Vergessen bei großen Sprachmodellen ist ein vielschichtiges Phänomen, bei dem ein großes Sprachmodell (LLM) zuvor bereitgestellte Informationen innerhalb einer einzigen Interaktion verliert, ignoriert oder ineffizient nutzt[1]. Im Gegensatz zum menschlichen Gedächtnis verfügen LLMs nicht über einen dauerhaften Zustandsspeicher und stützen sich ausschließlich auf das Kontextfenster – eine begrenzte Menge an Text (in Token), die das Modell gleichzeitig verarbeiten kann. Dieses Fenster fungiert als Kurzzeit- oder Arbeitsgedächtnis des Modells[2].
Die bekannteste Ausprägung dieser Einschränkung ist das Problem des „Verlusts in der Mitte“ (Lost in the Middle) – die Tendenz von Modellen, Informationen am Anfang und am Ende eines langen Kontexts besser zu verarbeiten als in der Mitte[2]. Dieses Phänomen ist keine Fehlfunktion, sondern eine grundlegende Eigenschaft, die sich aus der Transformer-Architektur und den Prinzipien ihres Trainings ergibt.
Zwei Arten des Vergessens: Kontextuelles und Katastrophales
Es ist wichtig, zwischen zwei grundsätzlich unterschiedlichen Arten des „Vergessens“ bei LLMs zu unterscheiden: dem intrakontextuellen und dem katastrophalen Vergessen.
Intrakontextuelles Vergessen (Verlust in der Mitte)
Diese Art des Vergessens tritt während einer einzigen Interaktionssitzung (Inferenz) mit einem bereits trainierten Modell auf. Es hängt mit den Beschränkungen des Kontextfensters zusammen. Wenn der Umfang eines Dialogs oder Dokuments die Größe des Fensters überschreitet, „vergisst“ das Modell die ältesten Teile, um Platz für neue zu schaffen. Selbst innerhalb des Fensters können Informationen aus der Mitte des Kontexts weniger effizient genutzt werden. Dies ist eine Einschränkung des Arbeitsgedächtnisses des Modells[3]. In der Publizistik wird dieses Phänomen auch als „Kontext-Degradations-Syndrom“ (Context Degradation Syndrome, CDS) bezeichnet[1].
Katastrophales Vergessen (Modelldrift)
Diese Art des Vergessens, auch als „Modelldrift“ (model drift) bekannt, tritt während des Nachtrainierens (Fine-Tuning) eines Modells auf neuen Daten auf. Wenn ein Modell, das auf einem riesigen Korpus allgemeinen Wissens vortrainiert wurde, auf einem hochspezialisierten Datensatz (z. B. medizinischen Texten) nachtrainiert wird, ändern sich seine Gewichte. Dies kann zur Degradation oder zum „Löschen“ zuvor erlernter Kenntnisse und Fähigkeiten führen, die nicht mit der neuen Aufgabe zusammenhängen[4].
Ursachen und Mechanismen
Kontextuelles Vergessen ist eine direkte Folge der Transformer-Architektur und der Geometrie von Vektorräumen.
Der „Lost in the Middle“-Effekt
Eine Studie der Stanford University aus dem Jahr 2023 mit dem Titel „Lost in the Middle“ zeigte anschaulich, dass die Leistung von LLMs bei der Extraktion von Informationen aus langen Kontexten eine U-förmige Kurve aufweist[2]. Die Genauigkeit der Antworten ist am höchsten, wenn sich die relevante Information ganz am Anfang (Primacy-Effekt) oder ganz am Ende (Recency-Effekt) des Kontexts befindet, und sinkt erheblich, wenn sie in der Mitte „versteckt“ ist. Ursachen für dieses Phänomen:
- Aufmerksamkeitsmechanismus: Die Transformer-Architektur widmet von Natur aus den Anfangstoken (sogenannte „Aufmerksamkeitsanker“ oder attention sinks) überproportional viel Aufmerksamkeit, um die globale Kohärenz aufrechtzuerhalten, sowie dem lokalen Kontext, was zu einer Abschwächung des „Fokus“ auf die Mitte führt[5].
- Daten für das Vortraining: Modelle werden meist auf relativ kurzen Texten trainiert, bei denen wichtige Informationen selten Zehntausende von Token vom Anfang entfernt sind, was sie daran hindert, sehr lange Kontexte effizient zu nutzen[6].
Erscheinungsformen und Folgen
- Kontext-Degradations-Syndrom: Im Laufe langer Dialoge beginnt das Modell, „den Faden zu verlieren“, Antworten zu wiederholen, zuvor festgelegten Fakten zu widersprechen und immer allgemeinere und ungenauere Antworten zu geben[1].
- Fehler bei mehrstufigen Aufgaben: Bei Aufgaben, bei denen die Bedingungen über mehrere Runden präzisiert werden, kann sich das Modell an einer falschen anfänglichen Annahme „festbeißen“ und nachfolgende Präzisierungen ignorieren, was zur völligen Unfähigkeit führt, die Aufgabe zu lösen[7].
- Unzuverlässigkeit bei der Dokumentenanalyse: Bei der Analyse langer Berichte oder juristischer Dokumente kann ein LLM Schlüsselfakten in den mittleren Abschnitten übersehen, was es zu einem unzuverlässigen Werkzeug für solche Aufgaben macht.
Strategien zur Minderung und Prävention
Forscher und Entwickler wenden verschiedene Ansätze an, um das Problem des kontextuellen Vergessens zu lösen.
Vergrößerung des Kontextfensters
Der direkteste Ansatz ist die Vergrößerung des Kontextfensters. Moderne Modelle wie Claude 3 (200.000 Token) und Gemini 1.5 Pro (bis zu 2 Millionen Token) haben diese Grenze erheblich erweitert[8][9]. Studien zeigen jedoch, dass eine bloße Vergrößerung des Fensters keine effiziente Nutzung garantiert und das Problem des „Verlusts in der Mitte“ bestehen bleibt[2].
Fortgeschrittenes Prompt-Engineering
Eine durchdachte Strukturierung von Prompts kann die Leistung erheblich verbessern. Das Unternehmen Anthropic empfiehlt folgende Praktiken[10]:
- Platzierung von Dokumenten am Anfang: Lange Texte an den Anfang des Prompts stellen, vor den Anweisungen und der Frage.
- Verwendung von XML-Tags: Dokumente in `<document>`-Tags einschließen, um sie klar abzugrenzen.
- Begründung der Antworten mit Zitaten: Das Modell anweisen, zuerst relevante Zitate zu extrahieren und dann auf deren Grundlage die Antwort zu formulieren.
Externalisierung des Gedächtnisses: Retrieval-Augmented Generation (RAG)
Ein grundlegend anderer Ansatz besteht darin, nicht alle Informationen in das Kontextfenster zu laden, sondern sie in ein externes System (eine Vektordatenbank) auszulagern und bei Bedarf bereitzustellen.
- Abrufen (Retrieve): Bei einer Anfrage sucht das System in der externen Datenbank nach relevanten Informationen.
- Erweitern (Augment): Die gefundenen Fragmente werden der ursprünglichen Anfrage hinzugefügt.
- Generieren (Generate): Das LLM generiert eine Antwort auf der Grundlage des bereitgestellten Kontexts.
RAG ermöglicht die Arbeit mit praktisch unbegrenzten Datenmengen und gewährleistet den Zugriff auf aktuelle und verifizierte Informationen, was das Risiko von Halluzinationen verringert und heute die zuverlässigste Lösung darstellt[11].
Weblinks
- Lost in the Middle: How Language Models Use Long Contexts – die Originalstudie der Stanford University.
- Ankündigung von Claude mit einem 100K-Token-Kontextfenster von Anthropic.
Literatur
- Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. arXiv:2307.03172.
- An, C. et al. (2024). Why Does the Effective Context Length of LLMs Fall Short?. arXiv:2410.18745.
- Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
- Yang, A. et al. (2024). Context Parallelism for Scalable Million-Token Inference. arXiv:2411.01783.
- Chen, S. et al. (2023). Extending Context Window of Large Language Models via Positional Interpolation. arXiv:2306.15595.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Li, S. et al. (2023). Functional Interpolation for Relative Positions Improves Long Context Transformers. arXiv:2310.04418.
- Dong, Z. et al. (2024). Exploring Context Window of Large Language Models via Decomposed Positional Vectors. arXiv:2405.18009.
- Laban, P. et al. (2025). LLMs Get Lost in Multi-Turn Conversation. arXiv:2505.06120.
- Li, R. et al. (2024). Extending Context Window in Large Language Models with Segmented Base Adjustment for Rotary Position Embeddings. Applied Sciences, 14(7), 3076. DOI:10.3390/app14073076.
- Yang, A. & Reizenstein, J. (2024). Exploring Context Window of LLMs via Decomposed Positional Vectors (NeurIPS Poster). NeurIPS 2024.
Einzelnachweise
- ↑ 1.0 1.1 1.2 Howard, James. „Context Degradation Syndrome: When Large Language Models Lose the Plot“. jameshoward.us. [1]
- ↑ 2.0 2.1 2.2 2.3 Liu, Nelson F.; et al. „Lost in the Middle: How Language Models Use Long Contexts“. arXiv. [2]
- ↑ Liu, Nelson F.; et al. „Lost in the Middle: How Language Models Use Long Contexts“. ACL Anthology. [3]
- ↑ Greyling, Cobus. „Catastrophic Forgetting In LLMs“. Medium. [4]
- ↑ „Exploring Context Window of Large Language Models via Decomposed Positional Vectors“. NeurIPS Proceedings. [5]
- ↑ An, Chenxin; et al. „Why Does the Effective Context Length of LLMs Fall Short?“. arXiv. [6]
- ↑ „LLMs Get Lost In Multi-Turn Conversation“. arXiv. [7]
- ↑ „Introducing the next generation of Claude“. Anthropic. [8]
- ↑ „Google's Gemini 1.5 Pro - Revolutionizing AI with a 1M Token Context Window“. Medium. [9]
- ↑ „Long context prompting tips“. Anthropic Documentation. [10]
- ↑ „What is Retrieval-Augmented Generation (RAG)?“. Google Cloud. [11]