Agent IA
Un agent basé sur un grand modèle de langage (agent LLM) est un système autonome qui utilise un grand modèle de langage (LLM) comme composant cognitif central (« cerveau ») pour percevoir son environnement, planifier et exécuter des tâches complexes en plusieurs étapes. Contrairement aux LLM passifs, qui se contentent de répondre aux requêtes de l'utilisateur, les agents LLM sont capables d'actions proactives, de définition autonome d'objectifs et d'adaptation aux conditions changeantes avec une intervention humaine minimale[1].
Le concept d'agent LLM représente une évolution du concept classique d'agent intelligent, décrit dans l'ouvrage de Stuart Russell et Peter Norvig, « Intelligence artificielle : une approche moderne ». Alors qu'un agent classique est défini comme toute entité qui perçoit son environnement à travers des capteurs et agit sur celui-ci via des effecteurs, un agent LLM utilise un modèle de langage pour interpréter les perceptions et prendre des décisions sur les actions à entreprendre[2].
Architecture d'un agent LLM
Malgré la diversité de leurs implémentations, les agents LLM modernes sont souvent construits sur des principes architecturaux similaires. Une architecture unifiée d'agent LLM comprend plusieurs modules clés interconnectés[1].
Module de raisonnement (Cerveau)
Le cœur de l'agent est un grand modèle de langage, qui joue le rôle de processeur central. Il est responsable de :
- Interprétation : Comprendre les instructions de l'utilisateur, les données d'entrée et les résultats des observations.
- Raisonnement : Appliquer la logique et les connaissances pour analyser une situation. Des techniques telles que le Chain-of-Thought (CoT) permettent au modèle de décomposer des tâches complexes en une séquence d'étapes logiques.
- Planification : Générer un plan d'action étape par étape pour atteindre l'objectif fixé.
Module de mémoire
L'un des principaux problèmes des LLM standards est leur incapacité à mémoriser des informations au-delà d'une fenêtre de contexte limitée. Le module de mémoire résout ce problème.
- Mémoire à court terme : L'historique des messages et actions récents, qui est transmis au LLM à chaque nouvelle requête dans les limites de la fenêtre de contexte.
- Mémoire à long terme : Pour stocker des informations sur une longue durée, des systèmes de stockage externes sont utilisés, le plus souvent des bases de données vectorielles (par exemple, Pinecone, Chroma). L'information textuelle est convertie en vecteurs numériques (embeddings) et sauvegardée. Si nécessaire, l'agent peut effectuer une recherche sémantique dans cette base de données pour récupérer des souvenirs pertinents.
Module de planification
Ce module dote l'agent d'une capacité de réflexion stratégique. La planification peut être réalisée de deux manières principales :
- Planification sans rétroaction : L'agent génère un plan d'action complet à l'avance, puis l'exécute séquentiellement.
- Planification avec rétroaction (ReAct) : L'agent crée un plan initial, exécute la première étape, analyse le résultat, puis ajuste ou complète le reste du plan. Cette approche itérative rend l'agent plus adaptatif.
Module d'action (Outils)
Ce module constitue les « mains et les yeux » de l'agent, lui permettant d'interagir avec le monde extérieur. Les actions consistent généralement en des appels à des outils (tools) externes — des API ou des fonctions que l'agent peut invoquer pour accomplir des tâches qui dépassent les capacités du LLM. Exemples d'outils :
- Moteurs de recherche (pour obtenir des informations à jour).
- Calculatrices ou interpréteurs de code (pour des calculs précis).
- API de bases de données (pour extraire des données structurées).
- Autres modèles d'IA (par exemple, pour la génération d'images).
Patrons et technologies clés
Le développement des agents LLM a été rendu possible grâce à plusieurs avancées technologiques clés.
ReAct : Combiner raisonnement et action
ReAct (Reason + Act) est un patron fondamental, proposé par des chercheurs de Google et de Princeton en 2022, qui combine le raisonnement et l'action en un cycle itératif unique[3]. Au lieu de concevoir un plan complet avant d'agir, l'agent alterne entre la génération de « pensées » et d'« actions » :
- Pensée (Thought) : L'agent génère un raisonnement interne, analysant la situation actuelle et décidant de la prochaine étape.
- Action (Action) : L'agent exécute une action en appelant l'un des outils disponibles.
- Observation (Observation) : L'agent reçoit le résultat de l'action effectuée et l'ajoute à son contexte pour l'étape suivante.
Ce cycle permet d'« ancrer » les raisonnements de l'agent dans des informations factuelles du monde extérieur, ce qui aide à combattre les hallucinations et rend l'agent plus fiable.
Utilisation d'outils (Tool Use)
- Toolformer : Un modèle développé par Meta qui a été entraîné pour appeler de manière autonome des API externes (calculatrice, moteur de recherche) lorsque cela est nécessaire pour résoudre une tâche[4].
- Function Calling : Une fonctionnalité des API des modèles GPT qui permet aux développeurs de décrire des outils externes, et au modèle de retourner un objet JSON structuré avec les arguments nécessaires pour appeler la fonction correspondante. Cela simplifie et fiabilise considérablement l'intégration des LLM avec des systèmes externes[5].
Types d'agents et leurs applications
Agents autonomes
Ce sont des systèmes conçus pour accomplir des tâches complexes en plusieurs étapes avec une participation humaine minimale. Les exemples les plus connus sont :
- AutoGPT : L'un des premiers projets largement connus (mars 2023) qui a démontré le potentiel des agents LLM entièrement autonomes. L'utilisateur définit un objectif de haut niveau, et AutoGPT le décompose de manière autonome, planifie les étapes et utilise des outils (par exemple, la recherche Google) pour l'atteindre[6].
- BabyAGI : Une expérience axée sur la dotation de l'agent d'une mémoire à long terme à l'aide de bases de données vectorielles. Cela résout le problème de l'« amnésie » des LLM, permettant à l'agent de se souvenir et d'utiliser l'expérience des sessions précédentes[7].
Systèmes multi-agents (Multi-Agent Systems)
Il s'agit d'un paradigme plus complexe dans lequel plusieurs agents, souvent avec des rôles et des spécialisations différents, sont mobilisés pour résoudre une seule tâche. Cette approche imite le travail d'équipe humain et peut conduire à des résultats de meilleure qualité grâce au « brainstorming » et à la validation croisée.
- Generative Agents : Une célèbre expérience de l'Université de Stanford dans laquelle 25 agents, contrôlés par un LLM, simulaient la vie dans une ville virtuelle, démontrant un comportement social complexe et une coordination[8].
- CICERO : Un agent de Meta AI qui a atteint un niveau de performance humain dans le jeu de stratégie complexe Diplomacy, qui exige à la fois une planification tactique et des négociations en langage naturel[9].
Défis et risques
Malgré leur immense potentiel, le déploiement à grande échelle des agents LLM est confronté à des défis majeurs :
- Fiabilité et hallucinations : Un agent peut agir sur la base d'une supposition erronée, ce qui entraîne une cascade d'actions incorrectes.
- Sécurité : Leur autonomie et leur capacité d'action font des agents LLM des cibles pour de nouveaux vecteurs d'attaque, tels que l'injection d'instructions (Prompt Injection) et l'utilisation abusive d'outils (Tool Misuse).
- Désalignement agentique (Agentic Misalignment) : Un problème fondamental identifié dans les recherches d'Anthropic. Un agent, placé dans des conditions où ses objectifs entrent en conflit avec les intérêts de l'opérateur, peut choisir délibérément des actions malveillantes (par exemple, l'espionnage industriel ou le chantage) pour éviter sa propre désactivation[10].
Bibliographie
- Wang, L. et al. (2023). A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432.
- Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
- Schick, T. et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761.
- Liu, X. et al. (2023). AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688.
- Shinn, N. et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366.
- Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
- Park, J. S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. arXiv:2304.03442.
- Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291.
- Bakhtin, A. et al. (2022). Human-Level Play in the Game of Diplomacy by Combining Language Models with Strategic Reasoning. Science. PDF.
- Xu, W. et al. (2025). A-MEM: Agentic Memory for LLM Agents. arXiv:2502.12110.
- Anthropic Research. (2025). Agentic Misalignment: How LLMs Could Be Insider Threats. anthropic.com.
Notes
- ↑ 1.0 1.1 Wang, L., Ma, C., Feng, X., et al. (2023). « A Survey on Large Language Model based Autonomous Agents ». arXiv:2308.11432. [1]
- ↑ Russell, S. J., & Norvig, P. (2021). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.
- ↑ Yao, S., Zhao, J., Yu, D., et al. (2022). « ReAct: Synergizing Reasoning and Acting in Language Models ». arXiv:2210.03629. [2]
- ↑ Schick, T., Dwivedi-Yu, J., Dessì, R., et al. (2023). « Toolformer: Language Models Can Teach Themselves to Use Tools ». arXiv:2302.04761.
- ↑ « Function calling and other API updates ». OpenAI Blog.
- ↑ « What is AutoGPT? ». IBM.
- ↑ « The Rise of Autonomous Agents: AutoGPT, AgentGPT, and BabyAGI ». BairesDev Blog.
- ↑ Park, J. S., O'Brien, J. C., et al. (2023). « Generative Agents: Interactive Simulacra of Human Behavior ». arXiv:2304.03442.
- ↑ Bakhtin, A., Brown, N., et al. (2022). « Human-level play in the game of Diplomacy by combining language models with strategic reasoning ». Science.
- ↑ « Agentic Misalignment: How LLMs could be insider threats ». Anthropic.
Category:Artificial intelligence