Multi-agent prompting (FR)

From Systems analysis wiki
Jump to navigation Jump to search

Le prompting multi-agent (de l'anglais multi-agent prompting) est une méthode d'ingénierie des prompts et de systèmes d'intelligence artificielle dans laquelle plusieurs agents autonomes basés sur de grands modèles de langage (LLM) interagissent les uns avec les autres pour résoudre des tâches complexes par un échange structuré d'instructions et de réponses[1].

En d'autres termes, un système multi-agent se compose de plusieurs agents LLM qui collaborent sur une requête utilisateur complexe en répartissant les étapes de raisonnement (subtasks) entre des agents dotés de « rôles » et de compétences différents. L'objectif principal de cette approche est de surmonter les limitations d'un modèle unique sur des tâches complexes grâce à une résolution collective. L'utilisation de plusieurs agents en interaction vise à améliorer la qualité du raisonnement, la précision factuelle et la fiabilité de la réponse[2]. Une caractéristique importante est le caractère strictement directif : chaque LLM se voit attribuer un rôle ou une tâche spécifique dans le cadre du schéma de résolution global.

Méthodes et patrons d'architecture

Les chercheurs ont proposé plusieurs schémas de prompting multi-agent, qui se distinguent par la nature de l'interaction entre les agents et leurs rôles.

Modélisation d'experts par rôles

Un ou plusieurs agents sont désignés comme des experts de domaine avec une spécialisation étroite. Par exemple, au sein d'un groupe multi-agent, différents agents peuvent représenter différents domaines de connaissance (physicien, chimiste, biologiste) ou différentes étapes de la résolution d'une tâche (planificateur, exécuteur, critique)[1]. Cette approche permet de mettre en œuvre un prompting few-shot efficace, où chaque agent-expert reçoit des exemples de démonstration dans son domaine, améliorant ainsi la performance globale.

Autocorrection et critique (Self-reflection)

Un agent peut jouer le rôle de « critique » ou réfléchir sur les solutions d'un autre agent ou sur ses propres réponses antérieures. La stratégie de self-reflection ou de self-refinement consiste pour un LLM à générer d'abord une réponse, puis pour lui-même ou un autre modèle à analyser et corriger les erreurs dans cette réponse[1]. Cela permet d'améliorer itérativement le résultat final.

Débats entre agents

Une variante compétitive du prompting multi-agent qui organise une discussion ou un débat entre plusieurs LLM. Dans le schéma LLM-Debate, deux agents ou plus débattent de la réponse correcte à une tâche (par exemple, mathématique) et critiquent les arguments de l'autre[3]. Un tel format de débat améliore la capacité du modèle au raisonnement logique et augmente la précision factuelle des réponses par rapport à une solution unique.

Planification et décomposition des tâches

Un agent remplit la fonction de planificateur, décomposant une requête complexe en une séquence d'étapes ou de sous-tâches, qui sont ensuite résolues par lui-même ou par d'autres agents. Des méthodologies comme ReAct et Reflexion mettent en œuvre un principe similaire de planification itérative avec retour d'information. Le LLM génère d'abord un plan de résolution avant de commencer son exécution, ce qui aide à gérer de longues chaînes de raisonnement[1].

Collaboration multi-persona

Au lieu d'utiliser différents modèles, on peut utiliser un seul et même LLM en le faisant « jouer » plusieurs agents avec des personnalités ou des points de vue différents. Dans l'approche multi-persona self-collaboration, un seul modèle assume successivement plusieurs rôles au cours d'un dialogue et mène une discussion comme s'il se parlait à lui-même. Bien que les recherches montrent que des agents indépendants et distincts offrent une plus grande efficacité, cette méthode permet de simuler une équipe d'experts au sein d'un seul LLM[1].

Applications et résultats

L'approche du prompting multi-agent a démontré son efficacité dans plusieurs domaines où les LLM uniques rencontraient auparavant des difficultés.

Raisonnement mathématique et logique

L'utilisation de plusieurs agents augmente notablement la précision sur les tâches nécessitant une inférence en plusieurs étapes (arithmétique complexe, démonstrations mathématiques, énigmes logiques). Dans les travaux de Du et al. (2023), l'approche « débat » multi-agent a amélioré les résultats par rapport à un agent unique. L'analyse a montré que la précision de la réponse augmente avec le nombre d'agents participant à la discussion[3].

Tâches scientifiques et techniques

Pour les problèmes complexes spécifiques à un domaine (physique, chimie), la méthode CoMM (Collaborative Multi-Agent, Multi-Reasoning-Path Prompting) a été proposée. Dans cette méthode, plusieurs agents LLM aux rôles différents (experts) appliquent diverses stratégies de raisonnement en parallèle. Lors de tests sur des problèmes de physique de niveau universitaire, CoMM a surpassé de manière significative les approches de base comme la chaîne de pensée (chain-of-thought), en commettant moins d'erreurs dans les formules et les calculs[1].

Génération et débogage de code

Dans le domaine de la programmation, les systèmes multi-agents sont utilisés pour améliorer la qualité du code et réduire le nombre d'erreurs. Le système PromptV utilise plusieurs agents pour écrire, vérifier et corriger séquentiellement du code Verilog. La répartition des rôles (génération, revue, test) a amélioré la capacité du modèle à détecter et corriger les erreurs, ce qui a permis d'augmenter la proportion de solutions compilées avec succès jusqu'à 96,5 % sur l'un des benchmarks[4].

Recherche et analyse d'informations

Les systèmes multi-agents sont particulièrement utiles pour les requêtes ouvertes et peu structurées. L'entreprise Anthropic a développé un mode multi-agent pour son modèle Claude, conçu pour la recherche sur le web. Dans ce système, un agent principal analyse la requête et génère plusieurs agents de sous-tâches parallèles, chacun effectuant une recherche sur différents aspects du sujet. Une telle architecture s'est avérée 90 % plus efficace pour traiter des questions de recherche complexes par rapport au modèle Claude seul[2].

Classification de texte et tâches de NLP

Pour les tâches de NLP, le prompting basé sur des principes (Principle-Based Prompting) a été développé. Dans cette méthode, les agents LLM génèrent d'abord un ensemble de « principes » (règles de résolution), puis un agent finalisateur sélectionne les meilleurs d'entre eux, sur la base desquels un autre agent effectue la classification. Cette approche a amélioré la métrique macro-F1 de 1,5 à 19 % par rapport aux méthodes de base, se rapprochant de la qualité de l'apprentissage classique sur quelques exemples (few-shot)[5].

Limitations et problèmes

Complexité de calcul et coûts

Le principal inconvénient est l'augmentation drastique de la charge de calcul. Chaque agent nécessite sa propre session de génération, ce qui entraîne une consommation importante de tokens et de ressources. Selon Anthropic, leur système consomme en moyenne 4 fois plus de tokens par dialogue, et dans certains cas, jusqu'à 15 fois plus[2]. Cela ne rend l'approche justifiable que pour les tâches à haute valeur ajoutée.

Complexité de conception et de coordination

Un fonctionnement réussi nécessite une ingénierie minutieuse des prompts : il est nécessaire de définir clairement le rôle de chaque agent, le format d'échange des messages et les critères d'arrêt. Sinon, les agents peuvent dupliquer le travail, entrer dans une recherche infinie ou créer des sous-tâches inutiles[2].

Sécurité et fiabilité

De nouveaux vecteurs d'attaque apparaissent. Des chercheurs ont démontré le phénomène de l' Infection de Prompt (Prompt Infection), où un fragment d'instruction malveillant d'un agent est transmis à un autre, se propageant dans toute la chaîne de raisonnement comme un virus. Une telle attaque LLM-to-LLM révèle la vulnérabilité des systèmes multi-agents aux injections cachées et aux manipulations, ce qui nécessite le développement de mesures de protection spécifiques, comme le marquage de la sortie de chaque agent (LLM Tagging)[6].

Liens

Bibliographie

  • Chen, P. et al. (2024). CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving. arXiv:2404.17729.
  • Li, J. et al. (2024). More Agents Is All You Need. arXiv:2402.05120.
  • Mi, Y. et al. (2024). PromptV: Leveraging LLM-Powered Multi-Agent Prompting for High-Quality Verilog Generation. arXiv:2412.11014.
  • Wei, P. et al. (2024). Don’t Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification. arXiv:2502.07165.
  • Lee, D.; Tiwari, A. (2024). Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems. arXiv:2410.07283.
  • Fernando, C. et al. (2023). PromptBreeder: Self-Referential Self-Improvement via Prompt Evolution. arXiv:2309.16797.
  • Wu, Q. et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155.
  • Liu, X. et al. (2023). AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688.
  • Li, G. et al. (2024). Multi-LLM Debate: Framework, Principles, and Interventions. PDF.
  • Du, N. et al. (2023). Improving Factuality and Reasoning in Language Models through Multi-Agent Debate. arXiv:2305.14325.

Notes

  1. 1.0 1.1 1.2 1.3 1.4 1.5 Chen, Y. et al. «CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving». arXiv, 2024. [1]
  2. 2.0 2.1 2.2 2.3 « How we built our multi-agent research system ». Anthropic. [2]
  3. 3.0 3.1 Li, G. et al. «More Agents Is All You Need». arXiv, 2024. [3]
  4. Mi, Y. et al. «PromptV: Leveraging LLM-powered Multi-Agent Prompting for High-quality Verilog Generation». ResearchGate, 2024. [4]
  5. Wei, J. et al. «Don't Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification». arXiv, 2024. [5]
  6. Lee, K. & Tiwari, A. «Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems». OpenReview, 2024. [6]