Hallucinations et réponses incorrectes des LLM
L' hallucination (en anglais hallucination) dans le contexte des grands modèles de langage (LLM) est un phénomène où le modèle génère avec assurance une réponse d'apparence plausible (plausible), mais qui en réalité ne correspond pas à la vérité, au contexte fourni, ou est intrinsèquement contradictoire[1][2]. Le modèle « invente » des faits, des détails ou des conclusions logiques qui sont absents des données d'origine.
Il est important de noter que l'hallucination n'est pas une défaillance ou un bug au sens traditionnel du terme. Le modèle fonctionne comme il a été conçu : il prédit la continuation la plus probable du texte en se basant sur les motifs (patterns) extraits des données d'entraînement. Il ne dispose pas d'un mécanisme intégré de vérification de la véracité[3]. Les hallucinations se distinguent des simples erreurs par le fait qu'elles présentent des informations fausses mais affirmées avec confiance, incluant souvent des faits, des références ou des événements inexistants[4]. Ce phénomène est devenu si significatif qu'en 2023, le Cambridge Dictionary a ajouté une nouvelle définition au terme « hallucination », relative à l'intelligence artificielle[5].
Définitions et classification des hallucinations
Bien que divers termes soient utilisés (par exemple, « confabulation », « invention »), les hallucinations dans les LLM peuvent être divisées en deux grandes catégories : celles liées à la véracité factuelle et celles liées à la fidélité à la source (cohérence contextuelle)[6].
Hallucinations factuelles
C'est le cas où le modèle fournit des informations factuellement incorrectes sur le monde réel. Le modèle affirme un « fait » faux comme étant vrai[1].
- Exemple : « Charles Lindbergh a été le premier homme à marcher sur la Lune » — un fait entièrement inventé.
- Fausses citations et références : Le modèle peut inventer une référence à un article scientifique ou une loi inexistante, en imitant le format d'une véritable référence[2]. Cela sape la confiance dans les modèles, en particulier dans les applications où la précision est requise (éducation, actualités, conseil)[7].
Erreurs logiques
Le modèle commet une incohérence ou une erreur de raisonnement. Les faits individuels dans la réponse peuvent être corrects, mais la conclusion est illogique ou contredit la logique élémentaire[2]. Cela se produit souvent dans des raisonnements complexes ou des tâches de mathématiques et de causalité, où le modèle opère avec des associations probabilistes de mots plutôt qu'avec une logique formelle[2][2].
- Exemple : « Puisque les oiseaux volent, les astronautes ne subissent pas la gravité » — le texte semble cohérent, mais il est logiquement incorrect.
Hallucinations contextuelles
La réponse du modèle ne correspond pas au contexte ou à l'instruction fournie. Le modèle « sort » du contexte, ajoutant des informations superflues ou en ignorant celles qui sont nécessaires[1].
- Violation de l'instruction : À la demande de « traduire le texte en espagnol », le modèle répond en anglais[1].
- Information non issue de la source : Dans une tâche de résumé, le modèle « ajoute » des faits absents du document original ou les déforme[1].
- Mélange de contextes : Au milieu d'une réponse, le modèle peut soudainement commencer à parler de quelque chose d'un autre domaine. Par exemple, en réponse à une question sur le commissaire de la NBA Adam Silver, le modèle peut passer à son prédécesseur David Stern, mélangeant deux contextes différents[6].
Incohérence
Variété d'hallucination où le modèle se contredit au sein d'une même réponse ou d'une série de réponses[6]. Une étude a révélé que le taux d'auto-contradiction des réponses de ChatGPT est d'environ 14 %[6][6].
- Exemple : « La société X a été fondée en 1990... et quelques phrases plus loin... La société X, créée en 2000... »
Hallucinations dans le code
Les LLM entraînés sur du code peuvent générer des extraits syntaxiquement corrects mais non fonctionnels, en utilisant des fonctions, des bibliothèques ou des paramètres inexistants[2]. Par exemple, le modèle peut générer `import quantum` en Python, bien qu'un tel module standard n'existe pas. En 2024, le terme « code hallucination » a été proposé et le benchmark CodeMirage a été créé pour systématiser ce problème[8].
Causes d'apparition
Le phénomène des hallucinations est dû à un ensemble de facteurs, allant de l'architecture du modèle à la qualité des données.
- Architecture et principe d'entraînement : La plupart des LLM (par exemple, GPT) sont des transformeurs autorégressifs, entraînés à prédire le prochain token. Leur objectif est de maximiser la vraisemblance du texte, et non de vérifier la véracité des affirmations[2]. Le modèle ne distingue pas les faits de la fiction dans les données d'entraînement, percevant tout comme des motifs textuels[2].
- Qualité des données d'entraînement : Les LLM sont entraînés sur d'immenses corpus de textes provenant d'Internet, qui contiennent de nombreuses inexactitudes, mythes et informations obsolètes[1]. Le modèle mémorise et reproduit ces erreurs. Le knowledge cutoff est également important — la date limite jusqu'à laquelle le modèle dispose d'informations.
- Méthode de génération de texte : Le caractère stochastique de la génération (échantillonnage avec température) permet au modèle de créer des réponses plus « créatives », mais moins précises. Une longueur de contexte limitée peut amener le modèle à « oublier » les détails précédents de la conversation et à se contredire[6].
Méthodes d'évaluation et de mesure
Pour détecter et mesurer les hallucinations, on utilise des métriques automatiques, l'évaluation humaine et des benchmarks spécialisés.
- Métriques automatiques : Celles-ci incluent des approches où un autre LLM joue le rôle de « juge » (LLM-as-a-judge) pour évaluer l'exactitude d'une réponse[9], ou l'analyse de l'entropie (incertitude) du modèle lors de la génération[10].
- Annotation humaine : Considérée comme la « référence absolue » (gold standard). Des experts ou des évaluateurs humains (crowd-assessors) évaluent manuellement les réponses en signalant les erreurs. Cette méthode est utilisée pour l'entraînement des modèles via RLHF[11].
- Benchmarks et tests de résistance : Des ensembles de données spécifiques ont été créés, tels que TruthfulQA, qui contient des questions incitant le modèle à reproduire des mythes courants[12]. Il existe également des classements (leaderboards), comme le Hugging Face Hallucination Leaderboard, où les modèles sont comparés en fonction de leur niveau d'hallucination[13].
Méthodes d'atténuation et de prévention
- Retrieval-Augmented Generation (RAG) : L'approche la plus efficace, qui « ancre » le modèle à des connaissances externes. Avant de générer une réponse, le modèle reçoit des informations pertinentes d'une base de données, d'un moteur de recherche ou d'une API. Cela permet au modèle de baser sa réponse sur des données vérifiées plutôt que sur des conjectures[2].
- Chaînes de pensée (Chain-of-Thought) et auto-vérification : Le modèle génère d'abord un raisonnement étape par étape avant de donner la réponse finale, ce qui augmente la précision. Dans des méthodes plus avancées, comme l' auto-vérification (Self-Verification), le modèle génère une version préliminaire de la réponse, puis est chargé de la vérifier et de la corriger[14].
- Règles et filtres intégrés : Les modèles sont entraînés à refuser de répondre s'ils ne sont pas sûrs. Par exemple, les modèles Claude d'Anthropic suivent un principe de « véracité » et répondent souvent « Je ne sais pas avec certitude... » au lieu d'inventer des faits[11].
- Intégration avec des outils externes : Des modèles comme Gemini peuvent reconnaître automatiquement quand ils ont besoin d'un outil externe (par exemple, une calculatrice pour des calculs ou une recherche pour des nouvelles récentes) et l'utiliser, ce qui réduit considérablement le nombre d'hallucinations[11].
Risques et conséquences
- Risques juridiques et réputationnels : Dans le domaine juridique, les hallucinations peuvent avoir de graves conséquences. Le cas Mata v. Avianca (2023) est devenu célèbre : un avocat a utilisé ChatGPT pour rechercher des précédents judiciaires, et le modèle a inventé plusieurs affaires inexistantes. Les avocats ont été condamnés à une amende, et l'incident a servi de leçon sur l'inadmissibilité de faire confiance à l'IA sans vérification[1].
- Propagation de la désinformation : À l'échelle de la société, les LLM peuvent amplifier le problème des fausses nouvelles (fake news). Un cas bien connu est celui du modèle Galactica de Meta, créé pour aider les scientifiques, mais qui a commencé à générer des textes pseudoscientifiques avec des expériences et des références inventées. L'accès public au modèle a été fermé trois jours plus tard[15].
- Prise de décisions erronées : Les utilisateurs, en particulier les non-initiés, ont tendance à faire confiance aux réponses formulées avec assurance par l'IA, ce qui peut conduire à de mauvaises décisions dans les domaines de la finance, de la médecine et d'autres secteurs critiques[7].
Exemples pratiques
- Cas d'Air Canada (2023) : Le chatbot de la compagnie aérienne a inventé une politique de remboursement de billets inexistante. Lorsqu'un client a demandé à l'appliquer, la compagnie a refusé. Le Tribunal des transports du Canada a jugé Air Canada responsable des informations fournies par son chatbot et l'a condamnée à indemniser le client pour ses pertes[9].
- Poursuite en diffamation contre OpenAI (2023) : L'animateur de radio Mark Walters a poursuivi OpenAI parce que ChatGPT, en réponse à la demande d'un journaliste, l'avait faussement accusé de fraude. Ce cas a mis en évidence la responsabilité juridique des entreprises pour le contenu généré par leurs modèles[6].
Liens
- The Beginner's Guide to Hallucinations in Large Language Models — un guide détaillé de Lakera
- Survey of Hallucination in Natural Language Generation — une revue scientifique du phénomène sur arXiv
Littérature
- Holtzman, A. et al. (2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
- Caccia, M. et al. (2018). Language GANs Falling Short. arXiv:1811.02549.
- Fan, A. et al. (2018). Hierarchical Neural Story Generation. arXiv:1805.04833.
- Su, Y.; Collier, N. (2022). Contrastive Search Is What You Need for Neural Text Generation. arXiv:2210.14140.
- Meister, C. et al. (2023). Locally Typical Sampling. arXiv:2202.00666.
- O’Brien, S.; Lewis, M. (2023). Contrastive Decoding Improves Reasoning in Large Language Models. arXiv:2309.09117.
- Finlayson, M. et al. (2024). Basis-Aware Truncation Sampling for Neural Text Generation. arXiv:2412.14352.
- Tan, Q. et al. (2024). A Thorough Examination of Decoding Methods in the Era of Large Language Models. arXiv:2402.06925.
- Yu, S. et al. (2023). Conformal Nucleus Sampling. arXiv:2305.02633.
- Chen, S. J. et al. (2024). Decoding Game: On Minimax Optimality of Heuristic Text Generation Methods. arXiv:2410.03968.
Notes
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 « The Beginner's Guide to Hallucinations in Large Language Models ». Lakera. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 « What Is LLM Hallucination and How To Prevent It ». Astera. [2]
- ↑ « Hallucination (artificial intelligence) ». In Wikipedia. [3]
- ↑ « OpenAI describes LLM hallucinations as 'making up facts' in moments of uncertainty' ». [source non spécifiée dans le texte].
- ↑ « Cambridge Dictionary adds new definition for 'hallucinate' ». [source non spécifiée dans le texte].
- ↑ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 « LLM Hallucination—Types, Causes, and Solutions ». Nexla. [4]
- ↑ 7.0 7.1 « Effective Tips to Prevent AI Hallucinations in Generative AI ». QuickCreator. [5]
- ↑ [2408.08333] CodeMirage: Hallucinations in Code Generated by Large Language Models. arXiv. [6]
- ↑ 9.0 9.1 « LLM hallucinations and failures: lessons from 4 examples ». Evidently AI Blog. [7]
- ↑ « How to Perform Hallucination Detection for LLMs ». Kolena. [8]
- ↑ 11.0 11.1 11.2 « ChatGPT vs Google Gemini vs Anthropic Claude: Comprehensive Comparison & Report ». DataStudios. [9]
- ↑ « Mastering LLM Accuracy: How to Test, Detect, and Fix Hallucinations in AI Models ». Stephen Weber on Medium. [10]
- ↑ « LLM Benchmarks and Leaderboards: Avoiding Foundation Model Mistakes ». Arize Blog. [11]
- ↑ « Improving the Reliability of LLMs: Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation ». arXiv. [12]
- ↑ « Why Meta Took Down its 'Hallucinating' AI Model Galactica? ». Analytics India Magazine. [13]