Generated Knowledge Prompting (DE)
Generated Knowledge Prompting (GKP, auf Deutsch etwa Prompting mit generiertem Wissen) ist eine Methode des Prompt-Engineerings, die entwickelt wurde, um die Fähigkeit von großen Sprachmodellen (LLM) bei der Lösung von Aufgaben zu verbessern, die schlussfolgerndes Denken und die Nutzung von Faktenwissen erfordern[1]. Die Grundidee von GKP besteht darin, das Modell anzuweisen, die Aufgabe in zwei Schritten zu lösen: Zuerst generiert es eine Reihe relevanter Fakten zum Thema der Anfrage, und anschließend formuliert es auf Basis dieses Wissens die endgültige Antwort[2].
Dieser Ansatz ermöglicht es LLMs, ihr internes, parametrisiertes Wissen zu aktivieren und zu nutzen, das implizit in Milliarden von Parametern kodiert, aber bei Standardanfragen oft nicht zugänglich ist. GKP löst das Problem, dass Modelle „nicht wissen, was sie wissen“, und hilft ihnen, disparate Fakten zu verknüpfen, um eine korrekte Schlussfolgerung zu ziehen[2].
Geschichte und Ursprung
Die Methode des Generated Knowledge Prompting wurde erstmals im wissenschaftlichen Artikel „Generated Knowledge Prompting for Commonsense Reasoning“ von einer Forschergruppe unter der Leitung von Jiacheng Liu vorgestellt. Die ursprüngliche Version der Arbeit wurde am 15. Oktober 2021 im Preprint-Archiv arXiv veröffentlicht, die endgültige Version wurde 2022 auf der renommierten Konferenz Association for Computational Linguistics (ACL) präsentiert[1].
GKP war eine der ersten und bedeutendsten Methoden, die eine Veränderung des Paradigmas der Interaktion mit LLMs vorschlug, indem sie den Fokus von der einmaligen Generierung einer Antwort hin zu einem zweistufigen kognitiven Prozess verlagerte.
Zweistufiger Wirkmechanismus
Der Mechanismus von GKP teilt eine komplexe Aufgabe in zwei einfachere Teilprozesse auf: die Extraktion relevanter Informationen und deren anschließende Nutzung zur Schlussfolgerung.
Schritt 1: Wissensgenerierung (Knowledge Generation)
Im ersten Schritt wird ein Sprachmodell (der „Wissensgenerator“) verwendet, um mehrere (M) Wissensfragmente zu erstellen, die für die ursprüngliche Frage relevant sind. Dieser Prozess wird durch Few-Shot-Prompting initiiert, bei dem dem Modell einige Beispiele für das „In-Context-Learning“ bereitgestellt werden.
Der Prompt zur Wissensgenerierung hat eine klar definierte Struktur:
- Anweisung: Eine allgemeine Vorgabe, z. B.: „Generiere einige Fakten zum Thema.“
- Demonstrationsbeispiele: Mehrere von Menschen verfasste Paare aus „Frage-Wissen“. Diese Beispiele spielen eine entscheidende Rolle, da sie dem Modell beibringen, welche Art von Informationen als nützlich erachtet wird. Das generierte Wissen sollte dabei nicht die Antwort selbst direkt enthalten.
- Neue Frage: Die ursprüngliche Anfrage des Nutzers, für die Wissen generiert werden soll.
Für eine Frage werden M Wissensvarianten generiert (in der Originalarbeit M=20), um eine vielfältige Auswahl an Fakten für den zweiten Schritt zu erhalten[1].
Schritt 2: Wissensintegration und Antwortformulierung (Knowledge Integration)
Im zweiten Schritt wird ein anderes Sprachmodell (das „Inferenzmodell“) verwendet, das sowohl im Zero-Shot-Modus arbeiten als auch für eine bestimmte Aufgabe feingetunt sein kann.
Der Integrationsprozess läuft wie folgt ab:
- Anfrage-Augmentierung: Die ursprüngliche Frage (q) wird nacheinander mit jedem der M generierten Wissensfragmente (km) kombiniert. Dadurch entstehen M+1 augmentierte Anfragen (einschließlich der ursprünglichen Frage ohne Wissen).
- Bewertung und Auswahl der Antwort: Das Inferenzmodell bewertet für jede augmentierte Anfrage die bedingte Wahrscheinlichkeit jeder möglichen Antwortoption (a). Als endgültige Antwort wird die Option ausgewählt, die bei mindestens einer der Anfragen die höchste Wahrscheinlichkeitsbewertung erhalten hat.
Dieser zweistufige Mechanismus führt eine Art metakognitiven Prozess ein: „Bevor du antwortest, denke nach und formuliere, was du über dieses Thema weißt.“
Effektivität und Testergebnisse
Die Effektivität von GKP wurde anhand einer Reihe von akademischen Benchmarks zur Bewertung des logischen Denkens auf der Grundlage von Alltagswissen (Commonsense Reasoning) überprüft. Die Methode zeigte eine signifikante Leistungssteigerung im Vergleich zu Basisansätzen.
| Name des Benchmarks | Aufgabe | Genauigkeit des Basismodells (%) | Genauigkeit mit GKP (%) | Verbesserung (%) |
|---|---|---|---|---|
| NumerSense | Numerisches Alltagsverständnis | 64.05 | 72.47 | +8.42 |
| CommonsenseQA | Allgemeines Alltagsverständnis | 39.89 | 47.26 | +7.37 |
| CommonsenseQA 2.0 | Allgemeines Alltagsverständnis | 70.20 | 73.03 | +2.83 |
| QASC | Wissenschaftliches Alltagsverständnis | 76.74 | 80.33 | +3.59 |
Die größte Verbesserung wird im Zero-Shot-Modus beobachtet, was beweist, dass GKP das interne Wissen des Modells ohne zusätzliches Fine-Tuning effektiv aktivieren kann.
Vergleichende Analyse mit anderen Techniken
GKP vs. Chain-of-Thought (CoT)
Der Hauptunterschied zwischen GKP und Chain-of-Thought (CoT) liegt in der Art der generierten Informationen:
- GKP generiert deklaratives Wissen – Fakten, Definitionen, Aussagen über die Welt (das „Was“). Es liefert dem Modell zusätzlichen Kontext.
- CoT generiert prozedurales Wissen – logische Schritte, Berechnungen, eine Abfolge von Schlussfolgerungen (das „Wie“). Es liefert dem Modell einen Denkpfad.
Somit stellt GKP die faktische Grundlage bereit, während CoT die logische Struktur für die Schlussfolgerung liefert[3].
GKP vs. Retrieval-Augmented Generation (RAG)
Im Gegensatz zu GKP verwendet die Methode der Retrieval-Augmented Generation (RAG) externe, nicht-parametrische Wissensquellen.
- GKP nutzt internes Wissen, das das Modell während des Trainings gelernt hat. Es veranlasst das Modell, sich an das zu „erinnern“, was es bereits weiß.
- RAG nutzt externes Wissen aus Datenbanken, Dokumenten oder dem Internet. Es veranlasst das Modell, Informationen in der Außenwelt zu „suchen“.
Die Wahl zwischen GKP und RAG hängt von der Aufgabe ab: GKP ist effektiv, wenn das erforderliche Wissen allgemein bekannt ist und in den Trainingsdaten gut repräsentiert ist, während RAG für hochspezialisierte, aktuelle oder proprietäre Daten unverzichtbar ist.
Einschränkungen und Risiken
- Das Problem der „Halluzinationen“: Das Hauptrisiko von GKP ist die Möglichkeit, falsche Fakten zu generieren. Wenn das Modell im ersten Schritt eine falsche Aussage generiert, wird diese im zweiten Schritt als wahr angenommen, was zu einer selbstbewussten, aber völlig falschen Antwort führt.
- Rechenaufwand: Die Methode erfordert mehrfache Aufrufe des LLM (M+1 Aufrufe für eine Anfrage), was die Antwortzeit (Latenz) und die Nutzungskosten im Vergleich zum Standard-Prompting erheblich erhöht.
- Komplexität der Prompt-Erstellung: Die Effektivität von GKP hängt stark von der Qualität der Few-Shot-Beispiele ab, deren Erstellung eine nicht-triviale und zeitaufwändige Aufgabe ist.
Weiterentwicklung und hybride Ansätze
Die in GKP verankerten Ideen dienten als Katalysator für die Entwicklung komplexerer und zuverlässigerer Prompting-Techniken, wie zum Beispiel:
- Hint-before-Solving (HSP): Ein direkter ideologischer Nachfolger von GKP, der das zweistufige Prinzip („zuerst Wissen, dann Handlung“) nicht auf eine einfache Antwort, sondern auf den komplexeren Denkprozess in CoT anwendet[4].
- Verify-and-Edit (VE): Ein hybrides Framework, das eine Antwort auf das Problem der „Halluzinationen“ in GKP und CoT darstellt. VE generiert zunächst eine Argumentationskette (wie CoT), überprüft dann automatisch die Schlüsselfakten mithilfe einer externen Suche (wie RAG) und bearbeitet die Argumentation, bevor die endgültige Antwort generiert wird[5].
Weblinks
Literatur
- Liu, J. et al. (2021). Generated Knowledge Prompting for Commonsense Reasoning. arXiv:2110.08387
- Liu, J. et al. (2022). Generated Knowledge Prompting for Commonsense Reasoning. In *Proc. ACL 2022*. ACL:2022
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903
- Wang, X. et al. (2022). Self-Consistency Improves Chain-of-Thought Reasoning in Language Models. arXiv:2203.11171
- Fu, J. et al. (2024). Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge. arXiv:2402.14310
- Zhao, R. et al. (2023). Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework. arXiv:2305.03268
- Lin, B. et al. (2020). NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models. Dataset page
- Talmor, A. et al. (2019). CommonsenseQA: A Question-Answering Challenge Targeting Commonsense Knowledge. ACL paper
- Khot, T. et al. (2019). QASC: A Dataset for Question Answering via Sentence Composition. arXiv:1910.11473
- Mu, J. et al. (2023). Learning to Compress Prompts with Gist Tokens. arXiv:2304.08467
Einzelnachweise
- ↑ 1.0 1.1 1.2 1.3 Liu, J., Liu, A., Lu, X., et al. (2022). „Generated Knowledge Prompting for Commonsense Reasoning“. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. [1]
- ↑ 2.0 2.1 Liu, J., Liu, A., Lu, X., et al. (2021). „Generated Knowledge Prompting for Commonsense Reasoning“. arXiv preprint arXiv:2110.08387. [2]
- ↑ Wei, J., Wang, X., Schuurmans, D., et al. (2022). „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“. arXiv preprint arXiv:2201.11903. [3]
- ↑ Katz, O., Maman, Y., et al. (2024). „Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Scaffolding“. arXiv preprint arXiv:2402.14310. [4]
- ↑ Zhao, R., Zhang, J., et al. (2023). „Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework“. arXiv preprint arXiv:2305.03268. [5]