Chain-of-Verification (DE)

From Systems analysis wiki
Jump to navigation Jump to search

Chain-of-Verification (CoVe) ist eine Methode, die vorgeschlagen wurde, um die Anzahl von Halluzinationen (die Generierung von faktisch falschen, aber plausibel erscheinenden Antworten) in großen Sprachmodellen (LLM) zu reduzieren[1]. Der Ansatz, der von einer Forschungsgruppe von Meta AI unter der Leitung von Shehzaad Dhuliawala entwickelt und in der Arbeit „Chain-of-Verification Reduces Hallucination in Large Language Models“ (2023) vorgestellt wurde, gehört zur Klasse der Methoden der Selbstüberprüfung und Selbstkorrektur (self-verification) von LLMs[2]. Die Grundidee von CoVe besteht in der schrittweisen Überprüfung der generierten Antwort durch das Modell selbst, ohne auf externe Quellen zurückzugreifen[2]. Dies regt das System an, mehr „vernünftige“ Anstrengungen in die Selbstanalyse der Antwort und die Korrektur eigener Fehler zu investieren, bevor die Antwort dem Benutzer präsentiert wird[2].

Hintergrund: Halluzinationen in Sprachmodellen

Große Sprachmodelle (LLMs) leiden häufig unter dem Phänomen der „Halluzinationen“ – der Generierung von Antworten, die plausibel erscheinen, aber faktisch falsch sind[3]. Dieses Problem ist im Bereich der NLP weithin als ungelöst anerkannt: Selbst moderne Modelle können mit hoher Zuversicht falsche Informationen liefern und Benutzer dadurch in die Irre führen[1]. Beispielsweise kann ein Modell überzeugend eine nicht existierende Tatsache „erfinden“ oder biografische Daten einer bekannten Persönlichkeit verwechseln. Da solche faktischen Fehler ohne detaillierte Überprüfung schwer zu erkennen sind, entwickeln Forscher aktiv Methoden, um die Anzahl von Halluzinationen in den Antworten von LLMs zu reduzieren.

Die Schritte der CoVe-Methode

Die Methode Chain-of-Verification wird in vier aufeinanderfolgenden Schritten umgesetzt[2][2]:

  1. Generierung einer Basisantwort. Das Modell generiert ohne spezielle Anweisungen eine erste Antwort auf die ursprüngliche Anfrage (eine grundlegende Antworthypothese)[3]. Dieser Entwurf dient als Ausgangspunkt und kann Halluzinationen enthalten, die in den folgenden Schritten aufgedeckt werden sollen.
  2. Planung von Verifizierungsfragen. Ausgehend von der ursprünglichen Frage und der generierten Antwort formuliert das Modell eine Liste von klärenden Fragen, die die faktische Richtigkeit der Aussagen in der Basisantwort überprüfen[3]. Diese verification questions zielen auf die Schlüsselfakten der Antwort ab und helfen, mögliche Fehler oder Ungenauigkeiten aufzudecken.
  3. Durchführung der Überprüfung (Verifizierung). Anschließend beantwortet das Modell nacheinander und unabhängig jede der formulierten Verifizierungsfragen, wobei es versucht, sich nicht auf die ursprüngliche Antwort zu stützen, um Voreingenommenheit zu vermeiden[3]. Die erhaltenen Antworten werden mit der ursprünglichen Antwort verglichen, um Widersprüche oder Fehler festzustellen: Auf diese Weise werden die Teile der ursprünglichen Antwort identifiziert, die nicht durch Fakten gestützt werden.
  4. Erstellung der endgültigen Antwort. Schließlich generiert das Modell auf der Grundlage der festgestellten Abweichungen eine korrigierte, endgültige Antwort[3]. In diese Antwort werden Korrekturen unter Berücksichtigung der Überprüfungsergebnisse eingearbeitet, was ihre faktische Genauigkeit erhöht und die Wahrscheinlichkeit von Halluzinationen verringert.

Jeder dieser Schritte wird durch zusätzliche Anfragen an dasselbe LLM ausgeführt, jedoch mit unterschiedlichen Anweisungen[2]. Das heißt, das Modell agiert abwechselnd als Antwortgeber, dann als Prüfer (stellt Fragen und beantwortet sie) und schließlich als Redakteur der endgültigen Ausgabe.

Varianten der Verifizierungsimplementierung

Die Autoren der Methode haben mehrere Modi für die Umsetzung des Verifizierungsschritts getestet, die sich in der Art und Weise unterscheiden, wie die Verifizierungsfragen gestellt und beantwortet werden[2]:

  • Kombinierter Ansatz (Joint). Das Modell generiert sowohl die Verifizierungsfragen als auch die Antworten darauf in einer einzigen Anfrage. Diese Variante ist weniger bevorzugt, da das Modell bei der sofortigen Beantwortung Fakten halluzinieren und aufgrund von Voreingenommenheit Fehler aus der ursprünglichen Antwort wiederholen kann[3].
  • Zweistufiger Ansatz (2-Step). Die Verifizierungsfragen werden zunächst in einer separaten Anfrage generiert, und in der nächsten Anfrage beantwortet das Modell die erstellte Liste von Fragen[3]. Die Trennung der Schritte hilft, den Einfluss der ursprünglichen Antwort bei der Generierung der Fragen zu vermeiden.
  • Getrennte Überprüfung (Factored). Das Modell beantwortet jede Verifizierungsfrage einzeln, indem es mehrere aufeinanderfolgende Anfragen (eine pro Frage) verwendet[3]. Dieser Ansatz verhindert das einfache Kopieren von Fragmenten aus der ursprünglichen Antwort: Die Antworten auf die Verifizierungsfragen werden autonom formuliert, was das Risiko der Wiederholung der ursprünglichen Halluzination verringert. Ein Nachteil ist der erhöhte Rechenaufwand, da die Anzahl der Anfragen proportional zur Anzahl der Fragen steigt.
  • Getrennte Überprüfung mit Revision (Factored + Revise). Nach Erhalt der Antworten auf alle Verifizierungsfragen führt das Modell einen zusätzlichen Schritt des Vergleichs und der Revision durch. Mit einer separaten Anfrage vergleicht es die erhaltenen Fakten mit der ursprünglichen Antwort und markiert explizit die Unstimmigkeiten, woraufhin es die endgültige Antwort mit Korrekturen generiert[3]. Dieser zusätzliche Schritt zwingt das System, die Abweichungen genauer zu analysieren und die korrigierten Informationen in die endgültige Ausgabe zu integrieren.

Experimentelle Ergebnisse

Die Chain-of-Verification-Methode wurde an einer Reihe von Aufgaben getestet, die für die faktische Genauigkeit der Antworten empfindlich sind[1]. Dazu gehörten Fragen zur Auflistung von Fakten aus einer Wissensdatenbank (Listen aus Wikidata und Wikipedia-Kategorien), Fragen mit mehreren Antworten aus verschiedenen Teilen eines Textes (MultiSpanQA) sowie Aufgaben zur Generierung von Langtexten (z. B. Biografien)[1].

Die Ergebnisse zeigten eine signifikante Reduzierung von Halluzinationen bei allen Aufgabentypen bei Verwendung von CoVe im Vergleich zu den ursprünglichen Modellen ohne Selbstüberprüfung[1]. Besonders effektiv erwies sich die Variante „factored + revise“ – die getrennte Überprüfung mit abschließendem Faktenabgleich. Dieser Ansatz erzielte die besten Genauigkeitswerte: Beispielsweise erhöhte die Anwendung von CoVe auf das Modell LLaMA-65B (ein LLM mit 65 Milliarden Parametern) bei der Aufgabe der Biografiegenerierung seine faktologische Metrik FactScore von ~63,7 auf ~71,4 Punkte[2]. Die Erhöhung des FactScores deutet darauf hin, dass die endgültigen Antworten mehr verifizierte Fakten und weniger erfundene Informationen enthielten.

Darüber hinaus konnte ein LLM mit einer nachgeschalteten Verifizierungskette sogar einige leistungsfähigere oder speziell ausgestattete Systeme übertreffen. So zeigte LLaMA-65B mit CoVe einen höheren FactScore als ChatGPT (das Modell von OpenAI) und übertraf Perplexity.ai – ein Modell, das zur faktischen Untermauerung seiner Antworten eine Internetsuche verwendet[2]. Dies ist bemerkenswert, da Perplexity externe Quellen zur Informationssuche nutzt, während CoVe eine Qualitätsverbesserung allein durch die internen Fähigkeiten des Modells zum Schlussfolgern und zur Selbstüberprüfung erreicht[2]. Bei sehr seltenen Fakten (wenn spezifisches Wissen erforderlich ist) behält ein Retrieval-System wie Perplexity zwar immer noch einen Vorteil, aber bei den meisten Fragen lieferte CoVe genauere Antworten[2].

Einschränkungen und Ausblick

Es ist anzumerken, dass Chain-of-Verification den Anteil an Halluzinationen zwar deutlich reduziert, sie aber nicht vollständig beseitigen kann. Das Modell kann immer noch Fehler machen, wenn die Verifizierungsfragen ein falsches Detail nicht abgedeckt haben oder wenn das LLM selbst die richtige Tatsache nicht kennt. Darüber hinaus erhöht CoVe den Rechenaufwand: Für eine einzelne Benutzeranfrage sind mehrere aufeinanderfolgende Aufrufe an das Modell erforderlich (Antwortgenerierung, Fragengenerierung, Beantwortung der Fragen, endgültige Zusammenstellung), während ein herkömmliches Modell in einem einzigen Schritt antwortet[2]. Dennoch zeigen die Autoren, dass CoVe in Bezug auf den Gesamtaufwand mit anderen mehrstufigen Ansätzen zur Erkennung von Halluzinationen vergleichbar und eine praktische Lösung bleibt[2].

In ihrer Arbeit zeigten die Forscher von Meta AI mögliche Richtungen zur Verbesserung der Methode auf. Ein offensichtlicher Weg ist die Kombination von CoVe mit der Nutzung externer Werkzeuge, wie z. B. die Einbindung eines Moduls für die Internetsuche oder Wissensdatenbanken in der Verifizierungsphase[2]. Dies würde es ermöglichen, verlässliche Informationen von außen zu erhalten und die Fakten aus der ursprünglichen Antwort noch zuverlässiger zu bestätigen oder zu widerlegen. Somit stellt Chain-of-Verification einen Schritt hin zu verantwortungsvolleren und genaueren KI-Systemen dar: Es zeigt, dass man durch die Aufforderung an das Modell, die eigene Antwort kritisch zu überprüfen, dessen Qualität erheblich steigern und die Verbreitung erfundener Fakten im generierten Text reduzieren kann[2].

Literatur

  • Dhuliawala, S. et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495.
  • Manakul, P. et al. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. arXiv:2303.08896.
  • Yang, B. et al. (2025). Hallucination Detection in Large Language Models with Metamorphic Relations. arXiv:2502.15844.
  • Liang, X. et al. (2024). Internal Consistency and Self-Feedback in Large Language Models: A Survey. arXiv:2407.14507.
  • Lightman, H. et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050.
  • Ling, Z. et al. (2023). Deductive Verification of Chain-of-Thought Reasoning. arXiv:2306.03872.
  • Lyu, Q. et al. (2023). Faithful Chain-of-Thought Reasoning. arXiv:2301.13379.
  • Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
  • Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.

Einzelnachweise

  1. 1.0 1.1 1.2 1.3 1.4 Dhuliawala, Shehzaad et al. «Chain-of-Verification Reduces Hallucination in Large Language Models». arXiv. [1]
  2. 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 Dhuliawala, Shehzaad et al. «Chain-of-Verification Reduces Hallucination in Large Language Models». ACL Anthology. [2]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 chowdhury, sourajit roy. «Chain of Verification (CoVe) — Understanding & Implementation». Medium. [3]