IA explicable

From Systems analysis wiki
Jump to navigation Jump to search

Lintelligence artificielle explicable (Explainable AI, XAI) est un champ de recherche et un ensemble de méthodes dans le domaine de l'intelligence artificielle visant à rendre les décisions et le comportement des modèles d'apprentissage automatique compréhensibles par l'homme[1]. L'objectif principal de l'XAI est de transformer des modèles complexes et opaques, souvent appelés « boîtes noires », en « boîtes transparentes » ou « boîtes de verre » capables d'expliquer comment elles prennent leurs décisions.

Le besoin d'explicabilité a considérablement augmenté avec le développement de modèles complexes, en particulier les grands modèles de langage (LLM), qui, malgré leur grande précision, possèdent des mécanismes internes qui ne sont pas évidents pour les développeurs et les utilisateurs. Ce manque de transparence comporte des risques, car le modèle peut commettre des erreurs cachées, faire preuve de biais ou générer des informations non fiables, dont les causes sont impossibles à comprendre sans explications appropriées[2].

Pertinence et nécessité de l'XAI

La nécessité d'une IA explicable est reconnue tant par la communauté scientifique que par les régulateurs. Le développement de l'XAI est essentiel pour comprendre le comportement, les limites et les conséquences sociales des systèmes d'IA complexes.

  • Confiance et adoption des technologies. Les utilisateurs, en particulier dans des domaines critiques comme la médecine et la finance, ont tendance à faire confiance aux systèmes capables de justifier leurs conclusions. Les explications augmentent la transparence et la certitude que le modèle fonctionne de manière correcte et éthique[3].
  • Détection et atténuation des biais. L'explicabilité aide à déterminer si un modèle s'appuie sur des corrélations indésirables ou non éthiques dans les données (par exemple, liées à l'origine ethnique, au sexe ou à l'âge). Cela permet aux développeurs d'identifier et de corriger les biais algorithmiques[1].
  • Fiabilité et robustesse. L'interprétabilité aide à identifier les vulnérabilités du modèle, y compris face aux attaques adverses (adversarial attacks), et à améliorer sa résistance aux petites perturbations des données d'entrée.
  • Conformité aux exigences réglementaires. La législation, telle que le RGPD dans l'Union européenne, consacre le droit d'une personne à obtenir une explication pour les décisions prises par des systèmes automatisés. Le programme XAI de la DARPA (Defense Advanced Research Projects Agency), lancé en 2017, visait également à créer des systèmes d'IA capables de fournir des explications interprétables aux utilisateurs[4].

Approches de l'explicabilité des modèles

Les méthodes XAI peuvent être grossièrement divisées en deux grandes catégories : les modèles interprétables, transparents « par conception », et les méthodes post-hoc, qui expliquent les modèles de type « boîte noire » après leur entraînement.

Modèles interprétables (« boîtes transparentes »)

Ce sont des algorithmes dont la structure interne est par nature simple et compréhensible par l'homme. On y trouve :

  • Régression linéaire
  • Régression logistique
  • Arbres de décision de faible profondeur
  • Modèles à base de règles (Rule-based systems)

De tels modèles sont faciles à interpréter, mais ils sont souvent moins précis que des modèles plus complexes (comme les réseaux de neurones profonds) sur des données complexes. Il existe un compromis entre la précision et l'interprétabilité[1].

Méthodes d'explication post-hoc (« boîtes noires »)

Ces méthodes s'appliquent à des modèles complexes déjà entraînés, sans modifier leur structure interne. Elles génèrent des informations supplémentaires qui aident à comprendre la logique des prédictions. Les explications post-hoc se divisent en explications locales et globales.

Explications locales

Les méthodes locales expliquent une prédiction individuelle du modèle pour un exemple d'entrée spécifique.

  • LIME (Local Interpretable Model-agnostic Explanations) : L'une des méthodes les plus populaires. LIME construit un modèle de substitution simple et interprétable (par exemple, une régression linéaire) dans le voisinage local d'une prédiction spécifique, approximant ainsi le comportement du modèle complexe de type « boîte noire »[1].
  • SHAP (SHapley Additive exPlanations) : Basé sur les valeurs de Shapley issues de la théorie des jeux coopératifs. SHAP calcule la contribution de chaque caractéristique à la prédiction finale en répartissant équitablement le « gain » (la différence entre la prédiction et la valeur moyenne) entre les caractéristiques. Cette méthode fournit des explications théoriquement fondées et cohérentes[5].
  • Explications contrefactuelles : Elles génèrent des scénarios du type « et si ? ». Elles montrent quels changements minimes dans les données d'entrée auraient conduit à un résultat différent (par exemple, « Votre prêt aurait été approuvé si votre revenu annuel avait été supérieur de 5000 $ »)[1].

Explications globales

Les méthodes globales visent à expliquer la logique générale du modèle ou ses connaissances dans leur ensemble. Celles-ci incluent l'analyse de l'importance des caractéristiques sur l'ensemble du jeu de données, ainsi que la visualisation des représentations internes du modèle.

Explicabilité pour les grands modèles de langage (LLM)

Les grands modèles de langage représentent à la fois un défi particulier et de nouvelles opportunités pour l'XAI. Leur taille gigantesque et leur complexité rendent difficile l'application des méthodes traditionnelles, mais leur capacité à traiter le langage naturel ouvre de nouvelles voies pour les explications.

Analyse des mécanismes d'attention (Attention Visualization)

Le mécanisme d'self-attention dans l'architecture Transformer permet de visualiser sur quelles parties du texte d'entrée (tokens) le modèle « porte son attention » lors de la génération d'une réponse. Bien que cela donne une compréhension intuitive du fonctionnement du modèle, un débat est en cours au sein de la communauté scientifique pour savoir si l'attention constitue une explication à part entière, car un poids d'attention élevé n'implique pas toujours une relation de cause à effet[6].

Interprétabilité mécaniste

Il s'agit du niveau d'explicabilité le plus profond, visant à une rétro-ingénierie complète du fonctionnement du réseau de neurones. Les chercheurs tentent d'identifier et de comprendre des « circuits » spécifiques (circuits) — des groupes de neurones et leurs connexions qui mettent en œuvre des fonctions algorithmiques particulières (par exemple, la reconnaissance d'une structure syntaxique ou la recherche d'un fait)[7].

Explication par le langage naturel

Une capacité unique des LLM est de s'expliquer eux-mêmes. En utilisant des techniques de prompting, telles que le Chain-of-Thought, il est possible d'inciter le modèle à générer un raisonnement étape par étape qui a mené à sa conclusion. Cela rend le processus de prise de décision transparent pour l'utilisateur. Cependant, de telles explications peuvent être non fidèles (unfaithful) — le modèle peut générer une justification convaincante mais fausse, qui ne reflète pas son processus interne réel[8].

Liens externes

Notes et références

  1. 1.0 1.1 1.2 1.3 1.4 Arrieta, A. B. et al. «Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI». Information Fusion, 2020. [1]
  2. Zhao, H. et al. «Explainability for Large Language Models: A Survey». arXiv:2309.01512, 2023. [2]
  3. «What is Explainable AI (XAI)?». IBM. [3]
  4. «Explainable Artificial Intelligence». DARPA. [4]
  5. Linardatos, P. et al. «Explainable AI: A Review of Machine Learning Interpretability Methods». Entropy, 2021. [5]
  6. Jain, S. & Wallace, B. C. «Attention is not Explanation». arXiv:1902.10186, 2019. [6]
  7. Lan, Q. et al. «Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models». arXiv:2311.04131, 2023. [7]
  8. Singh, C. et al. «Rethinking Interpretability in the Era of Large Language Models». arXiv:2402.01761, 2024. [8]

Category:Artificial intelligence