Multi-agent prompting (DE)

From Systems analysis wiki
Jump to navigation Jump to search

Multi-Agent Prompting (englisch multi-agent prompting) ist eine Methode im Prompt-Engineering und in Systemen der künstlichen Intelligenz, bei der mehrere autonome Agenten, die auf großen Sprachmodellen (LLM) basieren, miteinander interagieren, um komplexe Aufgaben durch einen strukturierten Austausch von Anweisungen und Antworten zu lösen[1].

Mit anderen Worten besteht ein Multi-Agenten-System aus mehreren LLM-Agenten, die gemeinsam an einer komplexen Benutzeranfrage arbeiten, indem sie die Denkschritte (subtasks oder Teilaufgaben) auf Agenten mit unterschiedlichen „Rollen“ und Kompetenzen verteilen. Das Hauptziel dieses Ansatzes ist es, die Einschränkungen eines einzelnen Modells bei komplexen Aufgaben durch kollektive Problemlösung zu überwinden. Der Einsatz mehrerer interagierender Agenten soll die Qualität der Argumentation, die faktische Genauigkeit und die Zuverlässigkeit der Antwort erhöhen[2]. Ein wesentliches Merkmal ist die strikte Anweisungsstruktur: Jedem LLM wird eine bestimmte Rolle oder Aufgabe innerhalb des Gesamtlösungsschemas zugewiesen.

Methoden und Architekturmuster

Forscher haben eine Reihe von Schemata für das Multi-Agent Prompting vorgeschlagen, die sich in der Art der Interaktion der Agenten und ihren Rollen unterscheiden.

Rollenbasierte Expertenmodellierung

Ein oder mehrere Agenten werden als Domänenexperten mit einer engen Spezialisierung eingesetzt. Beispielsweise können in einer Multi-Agenten-Gruppe verschiedene Agenten unterschiedliche Wissensbereiche (Physiker, Chemiker, Biologe) oder verschiedene Phasen der Problemlösung (Planer, Ausführender, Kritiker) repräsentieren[1]. Dieser Ansatz ermöglicht ein effektives Few-Shot-Prompting, bei dem jeder Experten-Agent Beispiele oder Demonstrationen aus seinem Fachgebiet erhält, was die Gesamtleistung verbessert.

Selbstkorrektur und Kritik (Self-Reflection)

Ein Agent kann die Rolle eines „Kritikers“ übernehmen oder über die Lösungen eines anderen Agenten oder seine eigenen vorherigen Antworten reflektieren. Die Strategie der Self-Reflection oder des Self-Refinement besteht darin, dass ein LLM zunächst eine Antwort generiert und anschließend dasselbe oder ein anderes Modell Fehler in dieser Antwort analysiert und korrigiert[1]. Dies ermöglicht es, das Endergebnis iterativ zu verbessern.

Debatten zwischen Agenten

Eine kompetitive Variante des Multi-Agent Prompting, bei der eine Diskussion oder ein Streit zwischen mehreren LLMs organisiert wird. Im Schema der LLM-Debate streiten zwei oder mehr Agenten über die richtige Antwort auf eine Aufgabe (z. B. eine mathematische) und kritisieren gegenseitig ihre Argumente[3]. Ein solches Debattenformat verbessert die Fähigkeit des Modells zum logischen Schlussfolgern und erhöht die faktische Genauigkeit der Antworten im Vergleich zu einer Einzellösung.

Planung und Aufgabenzerlegung

Ein Agent fungiert als Planer, der eine komplexe Anfrage in eine Abfolge von Schritten oder Teilaufgaben zerlegt, die dann von ihm selbst oder von anderen Agenten gelöst werden. Methoden wie ReAct und Reflexion implementieren ein ähnliches Prinzip der iterativen Planung mit Feedback. Das LLM generiert zunächst einen Lösungsplan, bevor es mit dessen Ausführung beginnt, was hilft, lange Argumentationsketten zu bewältigen[1].

Multi-Persona-Kollaboration

Anstatt verschiedener Modelle kann auch dasselbe LLM verwendet werden, indem man es dazu bringt, mehrere Agenten mit unterschiedlichen Persönlichkeitsprofilen oder Standpunkten „zu spielen“. Beim Ansatz der Multi-Persona Self-Collaboration übernimmt ein Modell im Laufe eines Dialogs nacheinander mehrere Rollen und führt eine Diskussion quasi mit sich selbst. Obwohl Studien zeigen, dass separate, unabhängige Agenten eine höhere Effizienz erzielen, ermöglicht diese Methode die Simulation eines Expertenteams innerhalb eines einzigen LLM[1].

Anwendung und Ergebnisse

Der Ansatz des Multi-Agent Prompting hat sich in einer Reihe von Bereichen als wirksam erwiesen, in denen einzelne LLMs zuvor auf Schwierigkeiten stießen.

Mathematisches und logisches Schlussfolgern

Die Verwendung mehrerer Agenten erhöht die Genauigkeit bei Aufgaben, die mehrstufige Schlussfolgerungen erfordern (komplexe Arithmetik, mathematische Beweise, logische Rätsel), erheblich. In der Arbeit von Du et al. (2023) verbesserte der „Debatten“-Ansatz mit mehreren Agenten das Ergebnis im Vergleich zu einem einzelnen Agenten. Die Analyse zeigte, dass die Genauigkeit der Antwort mit zunehmender Anzahl der an der Diskussion beteiligten Agenten steigt[3].

Wissenschaftliche und technische Aufgaben

Für komplexe Fachprobleme (Physik, Chemie) wurde die Methode CoMM (Collaborative Multi-Agent, Multi-Reasoning-Path Prompting) vorgeschlagen, bei der mehrere LLM-Agenten mit unterschiedlichen Rollen (Experten) parallel verschiedene Argumentationsstrategien anwenden. In Tests zu physikalischen Aufgaben auf College-Niveau übertraf CoMM grundlegende Ansätze wie Chain-of-Thought deutlich und machte weniger Fehler bei Formeln und Berechnungen[1].

Codegenerierung und Debugging

Im Bereich der Programmierung werden Multi-Agenten-Systeme eingesetzt, um die Codequalität zu verbessern und die Fehleranzahl zu reduzieren. Das System PromptV verwendet mehrere Agenten, um Verilog-Code schrittweise zu schreiben, zu überprüfen und zu korrigieren. Die Rollenverteilung (Generierung, Überprüfung, Testen) verbesserte die Fähigkeit des Modells, Fehler zu erkennen und zu beheben, wodurch der Anteil erfolgreich kompilierbarer Lösungen in einem der Benchmarks auf 96,5 % stieg[4].

Informationssuche und -analyse

Multi-Agenten-Systeme sind besonders nützlich für offene, schlecht strukturierte Anfragen. Das Unternehmen Anthropic entwickelte einen Multi-Agenten-Modus für das Modell Claude, der für Web-Recherchen konzipiert ist. In diesem System analysiert ein führender Agent die Anfrage und erzeugt mehrere parallele Teilaufgaben-Agenten, von denen jeder verschiedene Aspekte des Themas recherchiert. Eine solche Architektur bewältigte komplexe Suchanfragen 90 % effektiver als ein einzelnes Claude-Modell[2].

Textklassifikation und NLP-Aufgaben

Für NLP-Aufgaben wurde das prinzipienbasierte Prompting (Principle-Based Prompting) entwickelt. Bei dieser Methode generieren LLM-Agenten zunächst einen Satz von „Prinzipien“ (Lösungsregeln), und anschließend wählt ein finalisierender Agent die besten davon aus, auf deren Grundlage ein anderer Agent die Klassifikation durchführt. Dieser Ansatz steigerte die Macro-F1-Metrik um 1,5–19 % im Vergleich zu grundlegenden Methoden und näherte sich der Qualität des klassischen Lernens mit wenigen Beispielen (Few-Shot) an[5].

Einschränkungen und Herausforderungen

Rechenkomplexität und Kosten

Der größte Nachteil ist die drastisch erhöhte Rechenlast. Jeder Agent erfordert seine eigene Generierungssitzung, was zu einem erheblichen Verbrauch von Tokens und Ressourcen führt. Laut Anthropic verbraucht ihr System im Durchschnitt viermal mehr Tokens pro Dialog, in einigen Fällen sogar bis zu 15-mal mehr[2]. Dies macht den Ansatz nur für Aufgaben mit hohem Wert wirtschaftlich vertretbar.

Komplexität in Design und Koordination

Für einen erfolgreichen Betrieb ist ein sorgfältiges Prompt-Engineering erforderlich: Die Rolle jedes Agenten, das Format des Nachrichtenaustauschs und die Abbruchkriterien müssen klar definiert werden. Andernfalls können Agenten Arbeit doppelt erledigen, in endlose Suchschleifen geraten oder nutzlose Teilaufgaben erstellen[2].

Sicherheit und Zuverlässigkeit

Es entstehen neue Angriffsvektoren. Forscher haben das Phänomen der Prompt Infection (Prompt-Infektion) demonstriert, bei dem ein bösartiges Anweisungsfragment von einem Agenten an einen anderen weitergegeben wird und sich wie ein Virus durch die gesamte Argumentationskette verbreitet. Ein solcher LLM-to-LLM-Angriff zeigt die Anfälligkeit von Multi-Agenten-Systemen für versteckte Injektionen und Manipulationen, was die Entwicklung spezieller Schutzmaßnahmen erfordert, wie beispielsweise die Kennzeichnung der Ausgabe jedes Agenten (LLM Tagging)[6].

Literatur

  • Chen, P. et al. (2024). CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving. arXiv:2404.17729.
  • Li, J. et al. (2024). More Agents Is All You Need. arXiv:2402.05120.
  • Mi, Y. et al. (2024). PromptV: Leveraging LLM-Powered Multi-Agent Prompting for High-Quality Verilog Generation. arXiv:2412.11014.
  • Wei, P. et al. (2024). Don’t Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification. arXiv:2502.07165.
  • Lee, D.; Tiwari, A. (2024). Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems. arXiv:2410.07283.
  • Fernando, C. et al. (2023). PromptBreeder: Self-Referential Self-Improvement via Prompt Evolution. arXiv:2309.16797.
  • Wu, Q. et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155.
  • Liu, X. et al. (2023). AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688.
  • Li, G. et al. (2024). Multi-LLM Debate: Framework, Principles, and Interventions. PDF.
  • Du, N. et al. (2023). Improving Factuality and Reasoning in Language Models through Multi-Agent Debate. arXiv:2305.14325.

Einzelnachweise

  1. 1.0 1.1 1.2 1.3 1.4 1.5 Chen, Y. et al. „CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving“. arXiv, 2024. [1]
  2. 2.0 2.1 2.2 2.3 „How we built our multi-agent research system“. Anthropic. [2]
  3. 3.0 3.1 Li, G. et al. „More Agents Is All You Need“. arXiv, 2024. [3]
  4. Mi, Y. et al. „PromptV: Leveraging LLM-powered Multi-Agent Prompting for High-quality Verilog Generation“. ResearchGate, 2024. [4]
  5. Wei, J. et al. „Don't Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification“. arXiv, 2024. [5]
  6. Lee, K. & Tiwari, A. „Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems“. OpenReview, 2024. [6]