Retrieval-augmented generation (RAG) (DE)

From Systems analysis wiki
Jump to navigation Jump to search

Retrieval-Augmented Generation (RAG) (dt. Suche-erweiterte Generierung) ist eine Methode im Bereich der künstlichen Intelligenz, bei der ein generatives Sprachmodell (LLM) Zugriff auf externe Informationsquellen erhält, um die Genauigkeit und Zuverlässigkeit seiner Antworten zu verbessern. Anders ausgedrückt führt das Modell vor der Generierung einer Antwort eine Suche nach relevanten Daten durch (z. B. in einer Dokumentenbasis, auf einer Website oder in einer Datenbank) und verwendet die gefundenen Informationen zur Formulierung der Antwort[1][2]. Dieser Ansatz ermöglicht eine Wissensergänzung aus aktuellen Quellen und hilft, die Einschränkungen von LLMs zu überwinden, die mit einem begrenzten „Gedächtnis“ und veralteten Informationen zusammenhängen[3]. Ein RAG-System kann in der generierten Antwort auf konkrete Dokumente verweisen (z. B. in Form von Fußnoten), was die Transparenz erhöht und dem Benutzer die Überprüfung der Fakten ermöglicht[1]. Dadurch wird das Risiko von Halluzinationen reduziert – Fälle, in denen das Modell selbstbewusst falsche Informationen ausgibt[1][3]. RAG erweitert die Wissensbasis von LLMs auf ein praktisch unbegrenztes Volumen und ermöglicht es den Modellen, die aktuellsten Daten ohne erneutes Training zu nutzen[4].

Ursprünge und Entwicklung der Methode

Die Idee, die Informationssuche mit der automatischen Generierung von Antworten zu kombinieren, entstand lange vor dem Aufkommen moderner LLMs. Bereits in den 1970er Jahren gab es Versuche, Question-Answering-Systeme zu entwickeln, die Antworten auf gestellte Fragen in textbasierten Datenbanken suchten[1]. In den 1990er Jahren erschien der Webdienst Ask Jeeves, der die Suche nach Antworten in natürlicher Sprache populär machte, und 2011 demonstrierte das IBM Watson-System die Fähigkeiten der KI, indem es die Fernsehshow Jeopardy! gegen menschliche Teilnehmer gewann[1].

Die moderne Entwicklungsphase ist mit der Einführung von neuronalen Netzwerk-Sprachmodellen verbunden: Retrieval-Augmented Generation wurde als eigenständiger Ansatz im Jahr 2020 von einer Forschergruppe von Facebook AI Research, dem University College London und anderen unter der Leitung von Patrick Lewis vorgeschlagen[1]. In ihrer auf der NeurIPS 2020 angenommenen Arbeit wird das RAG-Modell beschrieben – ein generatives Seq2Seq-Modell (z. B. BART) mit differenzierbarem Zugriff auf einen externen „nicht-parametrischen“ Wissensspeicher[5]. Die Autoren verwendeten die gesamte englischsprachige Wikipedia als externe Wissensdatenbank, die sie in Form eines Vektorindexes (~21 Millionen Textfragmente) darstellten, in dem mit dem neuronalen Algorithmus Dense Passage Retrieval gesucht wird[5]. Für eine eingehende Anfrage extrahiert das RAG-Modell die am besten passenden Fragmente aus dem Index und fügt sie dem Kontext für die Antwortgenerierung hinzu. Dieser Mechanismus ermöglichte es, neue Rekordergebnisse (State-of-the-Art) bei Aufgaben mit offener Wissensbasis zu erzielen, beispielsweise in Tests wie Natural Questions, WebQuestions und anderen[2]. Es wurde festgestellt, dass die Antworten des RAG-Modells spezifischer und faktisch korrekter waren als die früherer generativer Ansätze, da Informationen aus mehreren Quellen synthetisiert wurden[2]. Bald darauf veröffentlichte Facebook den Quellcode von RAG quelloffen: Das Modell wurde in die HuggingFace Transformers-Bibliothek und den zugehörigen Datensatz integriert, was es Entwicklern ermöglichte, RAG einfach in ihren Projekten anzuwenden[2]. Seit 2020 hat die RAG-Methode schnell an Popularität gewonnen – laut dem Autor fand der Ansatz trotz der unschön klingenden Abkürzung weite Verbreitung, brachte Hunderte von wissenschaftlichen Arbeiten hervor und wurde zur Grundlage zahlreicher kommerzieller Dienste[1].

Funktionsweise von RAG

Prinzipielles Schema der Retrieval-Augmented Generation: Das Suchmodul (links) extrahiert relevante Dokumente aus einer Wissensdatenbank, woraufhin das generative Modell (rechts) eine Antwort auf die Benutzeranfrage unter Berücksichtigung der gefundenen Informationen formuliert[6]. Dieser Ansatz ermöglicht es LLMs, sich bei der Generierung von Antworten auf aktuelle externe Daten zu stützen. Das Diagramm zeigt, wie eine Benutzeranfrage in einen Vektor umgewandelt und zur Suche nach ähnlichen Textfragmenten verwendet wird; diese werden dann dem Kontext des Modells hinzugefügt, wodurch dessen Wissen „erweitert“ und die Genauigkeit der Antwort erhöht wird.

Ein RAG-System besteht in der Regel aus zwei Hauptkomponenten: einem Suchmodul (Retriever) und einem Antwortgenerierungsmodul (Generator)[6]. In der Vorbereitungsphase wird ein Vektorindex der Wissensdatenbank erstellt: Alle Dokumente (Texte) werden in Fragmente unterteilt und von einem Embedding-Modell in numerische Vektoren umgewandelt, die in einer spezialisierten Datenbank für die spätere Suche gespeichert werden[6]. Bei Eingang einer Benutzeranfrage kodiert dasselbe Embedding-Modell die Anfrage in einen Vektor; anschließend wird eine Suche nach den nächsten Nachbarn im Vektorraum durchgeführt – es werden die Top-K ähnlichsten Fragmente aus dem Wissensindex ausgewählt (z. B. K = 5)[6]. Diese Fragmente gelten als externer Kontext, der wahrscheinliche Fakten zum Thema der Anfrage enthält.

Im nächsten Schritt wird der erstellte Kontext vom generativen Modell verwendet. Die ursprüngliche Frage wird zusammen mit den gefundenen Textfragmenten an das LLM (z. B. einen Transformer vom Typ Seq2Seq oder ein anweisungsorientiertes Modell) zur Generierung der endgültigen Antwort übergeben[2]. Das Sprachmodell stützt sich somit bedingt nicht nur auf sein erlerntes (parametrisches) Wissen, sondern auch auf die ihm zur Verfügung gestellten externen Daten. In der ursprünglichen RAG-Implementierung diente das vortrainierte Modell BART als Generator, während der externe „Speicher“ durch die Wikipedia-Sammlung repräsentiert wurde, die mit der DPR-Methode indiziert wurde[5].

Fusion-Ansatz zur Wissenskombination

Ein wichtiges Merkmal von RAG ist die Art und Weise, wie das Modell Informationen aus mehreren gefundenen Dokumenten kombiniert. Im Gegensatz zur einfachen Konkatenation des gesamten Textes wendet RAG einen Ansatz an, der als Late Fusion („späte Verschmelzung der Ergebnisse“) bekannt ist – das generative Modell verarbeitet parallel jedes der K erhaltenen Fragmente, formuliert für jedes eine hypothetische Antwort mit einer Konfidenzbewertung und aggregiert diese Varianten anschließend zu einer endgültigen Ausgabe[2]. Diese Methode ermöglicht es RAG, eine Antwort auch in Fällen zu synthetisieren, in denen kein einzelnes Dokument eine direkte und vollständige Antwort auf die Frage enthält. Wenn beispielsweise die benötigten Informationen über verschiedene Artikel verteilt sind, ist das Modell in der Lage, „Anhaltspunkte“ aus mehreren Dokumenten zu einer einzigen Antwort zu kombinieren[2] (Es wurde festgestellt, dass eine Erhöhung der Anzahl der verwendeten Dokumente in der Regel die Vollständigkeit der Antwort auf Kosten eines geringen Verlusts an textlicher Kohärenz verbessert[7].)

Implementierungsvarianten

In der Originalarbeit von 2020 wurden zwei Modifikationen der RAG-Architektur vorgeschlagen[6]. Im RAG-Sequence-Modus erhält das generative Modell einen festen Satz gefundener Dokumente und verwendet diese, um die gesamte Antwort am Stück zu erzeugen. Im RAG-Token-Modus hingegen ist eine dynamische Aktualisierung zulässig: Bei jedem Schritt der Generierung eines neuen Tokens kann das Modell erneut eine Suche durchführen und bei Bedarf ein zusätzliches Textfragment nachladen, um die Antwort zu präzisieren. Beide Ansätze zeigen ein ähnlich hohes Qualitätsniveau; RAG-Sequence ist einfacher und schneller, während RAG-Token theoretisch ermöglicht, bei langen Antworten mehr unterschiedliche Informationen zu berücksichtigen[6].

Vorteile von RAG

  • Aktualität und faktische Genauigkeit. Die Anbindung externer Daten ermöglicht es LLMs, präzisere und fundiertere Antworten zu geben, die auf realen Informationen und nicht nur auf den Modellparametern basieren. Dies reduziert das Risiko veralteter oder schlicht erfundener Informationen in der Antwort des Modells erheblich[3][1]. Im Gegensatz zu Modellen mit einem festen „Wissensstand“ kann RAG sogar Fragen zu Ereignissen oder Fakten beantworten, die nach Abschluss des Modelltrainings aufgetreten sind – dank des Zugriffs auf aktuelle Datenquellen[4].
  • Transparenz und Nutzervertrauen. RAG-Systeme können Verweise auf Informationsquellen (z. B. Artikel, Berichte oder Datenbanken) bereitstellen, die als Grundlage für die Antwort dienten[1]. Im Wesentlichen gestaltet das Modell seine Antworten ähnlich wie eine wissenschaftliche Arbeit mit Fußnoten, was die Überprüfung der Richtigkeit jedes Fakts ermöglicht. Die Angabe von zitierten Primärquellen erhöht das Vertrauen der Nutzer und erleichtert die Verifizierung der erhaltenen Informationen.
  • Spezialisierung auf Fachgebiete. Retrieval-Augmentation ermöglicht es, die Arbeitsweise des Modells relativ einfach an eine spezifische Wissensdomäne anzupassen, ohne das Sprachmodell selbst zu ändern. Dazu genügt es, dem LLM eine spezialisierte Wissensdatenbank zum gewünschten Thema zur Verfügung zu stellen – seien es medizinische Artikel, juristische Dokumente oder technische Handbücher eines Unternehmens. Das Modell, das in seinen Parametern allgemein bleibt, agiert dann als Experte auf diesem Gebiet, da es Fakten aus dem ausgewählten Datensatz bezieht[4][8]. Beispielsweise kann ein juristischer Assistent auf RAG-Basis den Suchbereich auf einen bestimmten Rechtskorpus (die Gesetze eines bestimmten Landes) beschränken und so sicherstellen, dass die Antworten genau dieser Gesetzgebung entsprechen[8].
  • Flexibilität und Aktualisierbarkeit des Wissens. Bei klassischen Modellen war es zur Hinzufügung neuer Kenntnisse oder zur Korrektur falscher Fakten erforderlich, ein erneutes Training (Fine-Tuning) auf einem erweiterten Datensatz durchzuführen, was zeit- und ressourcenaufwendig ist. RAG löst dieses Problem: Um das Wissen des Modells zu aktualisieren, genügt es, die externe Datenbank zu aktualisieren oder zusätzliche Quellen anzubinden, und das Modell beginnt sofort, die neuen Informationen zu nutzen[2]. Dies ermöglicht eine einfache Aufrechterhaltung der Systemaktualität – Daten können sogar in Echtzeit „heiß“ ausgetauscht werden, ohne den Betrieb des Modells zu unterbrechen[1].
  • Effizienz und Ressourceneinsparung. Der RAG-Ansatz erweist sich oft als praktischer als das Training von extrem großen Modellen, die versuchen, alle Informationen in ihren Parametern zu speichern. Durch die Integration der Suche können mit einem Modell moderater Größe vergleichbare Ergebnisse erzielt werden, ohne den Versuch zu unternehmen, absolut alle Fakten innerhalb des neuronalen Netzes zu speichern[6]. Darüber hinaus ist die Implementierung einer RAG-Pipeline relativ einfach: Es gibt fertige Werkzeuge (Frameworks, Bibliotheken), und Entwickler zeigen, dass ein grundlegender RAG-Prototyp buchstäblich in wenigen Codezeilen erstellt werden kann[1]. Somit senkt RAG die Gesamtkosten für die KI-Implementierung: Anstatt für jede Aufgabe ein neues Modell zu trainieren, genügt es, den Suchmechanismus zu konfigurieren und geeignete Daten bereitzustellen.

Probleme und Einschränkungen von RAG

Trotz seiner offensichtlichen Vorteile erbt die Retrieval-Augmented Generation die Einschränkungen sowohl der Suchkomponenten als auch der Sprachmodelle selbst[9]. Nachfolgend sind die Hauptprobleme aufgeführt, die RAG-Systemen innewohnen:

  • Abhängigkeit von der Suchqualität. Die resultierende Antwort ist nur so korrekt wie die Relevanz und Zuverlässigkeit der abgerufenen Daten. Wenn das Suchmodul Dokumente zurückgibt, die nicht zur Frage passen oder Fehler enthalten, kann das generative Modell diese Fakten nicht „korrigieren“ – es wird eine Antwort auf deren Grundlage generieren[8]. Somit bestimmen die Qualität und Aktualität der externen Wissensdatenbank direkt die Genauigkeit von RAG. Es ist erforderlich, den Index regelmäßig zu aktualisieren und die Ranking-Algorithmen anzupassen, damit die Dokumentenausgabe relevant bleibt.
  • Hohe Komplexität und Ressourcenintensität. Ein RAG-System benötigt für seinen Betrieb nicht nur das LLM selbst, sondern auch eine Infrastruktur für die Suche: Speicherung und Aktualisierung einer großen Datenbank, Indizierung, Zeit für die Abfrageausführung. All dies erhöht den Rechenaufwand und kann die Antwortgeschwindigkeit im Vergleich zu einem reinen Sprachmodell verringern[8]. Im schlimmsten Fall verlangsamen Latenzen bei der Suche oder die Verarbeitung sehr großer Datenmengen das System. In der Praxis muss ein Gleichgewicht zwischen Antwortqualität und Leistung gefunden werden, indem die Pipeline optimiert wird (z. B. durch Begrenzung der Größe der Wissensdatenbank oder der Suchtiefe, um die Antwortzeit im Rahmen zu halten).
  • Anforderungen an Daten und Wartung. Für einen effektiven Betrieb von RAG sind qualitativ hochwertige, strukturierte und zugängliche externe Daten erforderlich. Das Suchmodell kann Schwierigkeiten haben, nützliche Informationen zu finden, wenn die externe Wissensdatenbank schlecht organisiert ist oder Rauschen enthält[8]. Darüber hinaus sind die benötigten Daten nicht immer offen zugänglich oder kostengünstig: Unternehmen müssen eigene Knowledge Bases erstellen und pflegen. Dies verursacht zusätzliche Kosten und erfordert Anstrengungen zur Datenaktualisierung (z. B. Hinzufügen neuer Dokumente, Bereinigen veralteter Informationen). Eine Schwachstelle von RAG ist die Abhängigkeit von der Pflege der Wissensdatenbank in einem aktuellen Zustand.
  • Nicht behebbare Fehler von LLMs. Obwohl RAG die Anzahl der Konfabulationen erheblich reduziert, ist es nicht immer möglich, falsche Antworten vollständig auszuschließen[9]. Das generative Modell kann immer noch einen logischen Fehler machen oder Informationen falsch zusammenfassen, insbesondere wenn der bereitgestellte Kontext unvollständig oder widersprüchlich ist[9]. Tatsächlich verlagert RAG den Schwerpunkt der Fehler: Anstelle von offen erfundenen Fakten („Halluzinationen“) treten häufiger Fehler bei der Wissensintegration auf – zum Beispiel kann das Modell ein wichtiges Fragment übersehen oder verschiedene Quellen falsch miteinander verknüpfen. Daher ist in verantwortungsvollen Anwendungen (Medizin, Recht) weiterhin die Beteiligung eines Menschen zur Überprüfung und Korrektur der Systemantworten erforderlich.

Anwendungen von RAG

Die Methode der Retrieval-Augmented Generation findet in zahlreichen Szenarien Anwendung, die mit der Extraktion und Nutzung von Wissen zusammenhängen. Nachfolgend sind die Hauptbereiche aufgeführt, in denen RAG den größten Nutzen zeigt:

  • Frage-Antwort-Systeme und Chatbots. RAG ermöglicht die Erstellung von virtuellen Assistenten und Chatbots, die Benutzerfragen mit hoher Genauigkeit beantworten und Verweise auf Quellen bereitstellen können. Im Kundensupport greifen solche Bots auf die interne Wissensdatenbank eines Unternehmens (FAQ, Hilfeartikel) zu und geben sofortige Antworten auf Kundenanfragen, wodurch die Arbeitsbelastung der Mitarbeiter reduziert wird[8]. Im Gegensatz zu klassischen FAQ-Systemen formulieren RAG-Bots die Antwort in natürlicher Sprache, untermauern sie aber gleichzeitig mit aktuellen, für das Problem des Nutzers spezifischen Daten.
  • Medizin und Gesundheitswesen. Ein generatives Modell, das mit einer spezialisierten medizinischen Datenbank (wissenschaftliche Artikel, klinische Protokolle, Nachschlagewerke) ergänzt wird, kann als intelligenter Assistent für Ärzte oder Patienten fungieren. Beispielsweise kann das System eine Frage zu einer seltenen Diagnose beantworten, indem es in der medizinischen Literatur aktuelle Studien zu diesem Thema findet[8]. Ein wichtiger Vorteil von RAG in der Medizin ist die Möglichkeit, auf Primärquellen (z. B. Ergebnisse klinischer Studien) zu verweisen, was für das Vertrauen von Ärzten unerlässlich ist. Solche Systeme werden zur Entscheidungsunterstützung, zur Überprüfung von Symptomen, zur Ausbildung von Medizinstudenten usw. eingesetzt und gewährleisten den Zugang zu den neuesten medizinischen Erkenntnissen.
  • Recht und Finanzen. In der Rechtspraxis und Finanzanalyse sind Genauigkeit und Überprüfbarkeit von Informationen besonders kritisch. RAG-Systeme können Fachleuten helfen, schnell die erforderlichen Daten zu finden: Beispielsweise kann ein Anwalt mithilfe des Modells eine präzedenzfallbildende Gerichtsentscheidung oder einen Gesetzesparagraphen finden und zitieren, der für den aktuellen Fall relevant ist, während ein Finanzanalyst schnell Auszüge aus aktuellen Wirtschaftsberichten oder Marktnachrichten erhält[8]. Dabei kann jede Antwort des Modells Verweise auf konkrete Dokumente (Rechtsakte, Berichte, Artikel) enthalten, was den Branchenstandards entspricht und die anschließende manuelle Arbeit des Spezialisten erleichtert.
  • Wissenschaftliche Forschung und Content-Erstellung. Journalisten, Forscher und Autoren können RAG nutzen, um die Suche nach Fakten und Quellen bei der Vorbereitung von Materialien zu beschleunigen. Beispielsweise kann das Modell auf Anfrage Informationen aus mehreren verlässlichen Publikationen „sammeln“ und so die Zeit für Faktenchecks und die Auswahl von Zitaten erheblich verkürzen[8]. Forschungsassistenten auf Basis von RAG extrahieren automatisch Verweise auf relevante Arbeiten, Daten aus offenen Datenbanken (z. B. Statistiken aus internationalen Berichten) und sogar Rohentwürfe von Übersetzungen, sodass sich die Autoren auf den analytischen Teil ihrer Arbeit konzentrieren können. Solche Werkzeuge finden Anwendung in den Medien, im akademischen Umfeld, bei der Erstellung von Literaturübersichten usw.
  • Unternehmenswissen und Dokumentensuche. In vielen Organisationen ist ein erheblicher Teil wertvoller Informationen in Form von Textdokumenten gespeichert: Vorschriften, Handbücher, Berichte, Korrespondenz, Protokolldateien. RAG bietet eine Möglichkeit zur interaktiven Suche in solchen unstrukturierten Daten mittels Sprache. Ein Mitarbeiter kann eine Frage stellen („Was besagt die Urlaubsregelung für Remote-Mitarbeiter?“) – und das Modell findet den entsprechenden Abschnitt im internen Dokument, zitiert ihn und formuliert eine zusammenfassende Antwort[1]. Dies erhöht die Arbeitseffizienz: Neue Mitarbeiter finden schneller Antworten auf Fragen, Support-Abteilungen erhalten ein Werkzeug zur schnellen Suche in der Vorfalldatenbank, und die Geschäftsleitung erhält eine Möglichkeit, die angesammelten Textdaten zu analysieren. Große IT-Unternehmen implementieren bereits den RAG-Ansatz in Unternehmenslösungen: Technologien von Microsoft, Google, IBM, AWS und anderen integrieren LLMs mit der Suche in den Daten der Organisation[1].

Perspektiven und zukünftige Forschung

Die Methode der Retrieval-Augmented Generation entwickelt sich aktiv weiter, und in den kommenden Jahren wird eine weitere Erweiterung ihrer Möglichkeiten erwartet. Eine Richtung ist das multimodale RAG, bei dem nicht nur Texte, sondern auch Bilder, Audio/Video oder sogar Sensordaten als externe Informationen dienen können. Experimente zeigen die vielversprechende Kombination von Sprachmodellen mit der Suche in visuellen Datenbanken, was es beispielsweise ermöglichen wird, Fragen zum Inhalt von Bildern oder Videos zu beantworten, indem man sich auf Beschreibungen und zugehörige Texte stützt[2]. Eine weitere wichtige Richtung ist die gleichzeitige Nutzung mehrerer Wissensquellen: Zukünftige RAG-Systeme werden in der Lage sein, Daten aus verschiedenen Datenbanken (z. B. Wikipedia, spezialisierte Enzyklopädien, persönliche Notizen des Benutzers) zu kombinieren und Antworten zu synthetisieren, die all diese heterogenen Informationen berücksichtigen[2].

Forscher stehen auch vor der Aufgabe, die Zuverlässigkeit und Sicherheit von RAG zu erhöhen. Das Risiko der Verbreitung von Vorurteilen und Fehlern, die in externen Daten enthalten sein können, muss minimiert und die Konsistenz der Antworten gewährleistet werden. Das Entwicklerteam des ursprünglichen RAG hat bereits Schritte in diese Richtung unternommen – zum Beispiel, indem die anfängliche Wissensbasis auf Wikipedia-Artikel als relativ geprüfte und neutrale Quelle beschränkt wurde[2]. Zukünftig sollen spezielle Filter und Methoden zur Dokumentenauswahl entwickelt werden, damit das Modell einen qualitativ hochwertigen Kontext erhält. Darüber hinaus konzentrieren sich die Forschungen auf die Verbesserung des Suchmechanismus selbst: Es werden neue Algorithmen für das Ranking und die semantische Indizierung entwickelt, die Anfragen genauer verstehen und relevante Informationen auch bei komplexen oder unklaren Formulierungen finden können.

Schließlich ist eine tiefere Integration von RAG in den Trainingsprozess von Sprachmodellen von Interesse. Es entstehen bereits Ansätze, bei denen Retrieval-Mechanismen nicht nur in der Inferenzphase, sondern auch beim Vortraining oder bei der Feinabstimmung von LLMs eingesetzt werden[10]. Dies könnte die Faktentreue von Modellen weiter erhöhen und ihre Abhängigkeit von statisch in den Gewichten gespeicherten Kenntnissen verringern. Laut Übersichtsartikeln, die 2024 veröffentlicht wurden, sieht die Community große Perspektiven in der Entwicklung des RAG-Ökosystems: von der Optimierung der Infrastruktur (Beschleunigung der Suche, Reduzierung des Speicherbedarfs) bis zur Schaffung von Standard-Benchmarks zur Bewertung der Qualität von RAG-Systemen[3]. All dies soll generative Modelle genauer, universeller und sicherer im Umgang mit sich ständig aktualisierendem externem Wissen machen, was ein entscheidender Schritt auf dem Weg zu einer zuverlässigen künstlichen Intelligenz der nächsten Generation ist.

Literatur

  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
  • Karpukhin, V. et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering. arXiv:2004.04906.
  • Guu, K. et al. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. arXiv:2002.08909.
  • Qu, Y. et al. (2020). RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering. arXiv:2010.08191.
  • Izacard, G.; Grave, E. (2021). Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. arXiv:2007.01282.
  • Borgeaud, S. et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. arXiv:2112.04426.
  • Wei, J. et al. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
  • Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
  • Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
  • Mialon, G. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.
  • Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
  • Yang, Z. et al. (2023). Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning. arXiv:2302.04858.
  • Barnett, S. et al. (2024). Seven Failure Points When Engineering a Retrieval Augmented Generation System. arXiv:2401.05856.
  • Wang, Y. et al. (2024). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
  • Han, H. et al. (2025). Retrieval-Augmented Generation with Graphs (GraphRAG). arXiv:2501.00309.

Einzelnachweise

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 „What Is Retrieval-Augmented Generation aka RAG“. NVIDIA Blogs. [1]
  2. 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 „Facebook open-sources RAG, an AI model that retrieves documents to answer questions“. VentureBeat. [2]
  3. 3.0 3.1 3.2 3.3 Mialon, Grégoire et al. „Retrieval-Augmented Generation for Large Language Models: A Survey“. arXiv. [3]
  4. 4.0 4.1 4.2 „Applied AI Software Engineering: RAG“. Pragmatic Engineer. [4]
  5. 5.0 5.1 5.2 Lewis, Patrick et al. „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks“. arXiv. [5]
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 „How RAG Makes LLMs Smarter“. Exxact Blog. [6]
  7. „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks“. arXiv. [7]
  8. 8.0 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 „What Is RAG? Use Cases, Limitations, and Challenges“. Bright Data Blog. [8]
  9. 9.0 9.1 9.2 Lewis, Patrick et al. „Seven Failure Points When Engineering a Retrieval Augmented Generation System“. arXiv. [9]
  10. „Генерация, дополненная поиском“. Википедия. [10]