Chain-of-Thought Prompting (FR)
Le Chain-of-Thought Prompting (CoT, ou "prompting par chaîne de pensée") est une technique d'ingénierie des prompts visant à améliorer la capacité des grands modèles de langage (LLM) à résoudre des problèmes complexes nécessitant un raisonnement en plusieurs étapes. Au lieu de générer une réponse directe, un prompt CoT incite le modèle à reproduire explicitement la séquence d'étapes de raisonnement intermédiaires qui mènent à la conclusion finale.
Cette approche, qui imite le processus de pensée humain, améliore considérablement la précision des modèles pour les tâches arithmétiques, logiques et symboliques.
Idée clé
Le principe fondamental du CoT est d'amener le modèle à « penser à voix haute » en langage naturel avant de donner la réponse finale. La génération de ces étapes intermédiaires permet de :
- Décomposer les tâches complexes : Le modèle divise un problème complexe en sous-tâches plus petites et gérables, en se concentrant sur chacune d'elles séquentiellement.
- Minimiser les erreurs : Le processus étape par étape réduit la probabilité d'erreurs logiques, qui surviennent souvent lorsqu'on tente de donner une réponse en une seule fois.
- Améliorer la transparence et l'interprétabilité : Les utilisateurs et les développeurs peuvent suivre la logique du modèle, ce qui facilite le débogage, la vérification et renforce la confiance dans les résultats.
Contexte historique
La technique CoT a été présentée pour la première fois le 28 janvier 2022 par des chercheurs de Google Research dans l'article « Chain of Thought Prompting Elicits Reasoning in Large Language Models » (Jason Wei, Denny Zhou et al.)[1]. Ils ont découvert que fournir au modèle quelques exemples de problèmes avec des solutions détaillées (few-shot CoT) augmentait considérablement ses performances sur des tâches complexes.
Cette découverte a montré que la capacité de raisonnement en plusieurs étapes est une propriété émergente des grands modèles. Comme indiqué dans l'article original, le CoT n'améliore les performances que pour les modèles ayant atteint une certaine échelle (environ 100 milliards de paramètres ou plus) et est pratiquement absent chez les modèles plus petits, qui, en utilisant le CoT, peuvent générer des raisonnements illogiques et obtenir de moins bons résultats.
Variantes du CoT Prompting
Few-Shot CoT : Apprentissage par l'exemple
C'est la méthode CoT originale et la plus fiable.
- Principe : Le modèle reçoit quelques exemples (généralement de 2 à 8), chacun composé d'un ensemble : question — chaîne de raisonnement — réponse.
- Avantages : Haute précision, car le modèle apprend un style et un format de raisonnement spécifiques.
- Inconvénients : Nécessite la création manuelle d'exemples de haute qualité et variés.
Zero-Shot CoT : « Réfléchissons étape par étape »
Cette méthode a été proposée plus tard, le 24 mai 2022, dans l'article « Large Language Models are Zero-Shot Reasoners » (Takeshi Kojima et al.)[2] et constitue une variante beaucoup plus simple.
- Principe : Une simple phrase de déclenchement est ajoutée à la requête initiale, par exemple, « Réfléchissons étape par étape » (en anglais : "Let's think step by step").
- Avantages : Simplicité, flexibilité et aucune nécessité de fournir des exemples.
- Inconvénients : Peut être moins précis que le Few-Shot CoT pour des tâches très spécifiques.
Automatic CoT (Auto-CoT)
Cette approche, proposée dans l'article de Zhang et al. (2022)[3], automatise la création de démonstrations pour le Few-Shot CoT.
- Principe :
- Les questions d'un nouveau jeu de données sont regroupées en clusters.
- Une question représentative est sélectionnée dans chaque cluster.
- Une chaîne de raisonnement est générée pour ces questions à l'aide du Zero-Shot CoT.
- Les démonstrations obtenues sont utilisées pour formuler le prompt.
- Objectif : Réduire l'effort manuel et généraliser l'application du CoT, en atteignant des performances comparables à la création manuelle d'exemples.
CoT Multimodal
Application du CoT à des tâches impliquant des données de plusieurs modalités (texte et images).
- Principe : Le modèle génère un raisonnement qui relie les informations textuelles et visuelles.
- Application : Analyse de diagrammes, résolution d'énigmes visuelles.
Mécanismes et efficacité
- Amélioration du raisonnement : Le CoT guide le modèle à travers un processus de résolution structuré, ce qui minimise les erreurs logiques et lui permet d'utiliser plus efficacement sa base de connaissances.
- Preuves empiriques : L'efficacité du CoT est particulièrement visible sur des benchmarks complexes. Par exemple, sur le benchmark arithmétique GSM8K, la méthode de base Few-Shot CoT a augmenté la précision du modèle PaLM-540B de 17.9% à 58.1%. L'application de techniques plus avancées basées sur le CoT (comme le Self-Consistency) permet d'atteindre une précision de 74 à 78%.
- Rôle du format de raisonnement : Des études ont montré que même des exemples avec des étapes intermédiaires incorrectes peuvent améliorer le résultat si la structure globale du raisonnement est préservée. Cela suggère que le CoT apprend avant tout au modèle le format de la pensée étape par étape.
Liens avec d'autres techniques
Le CoT est un composant fondamental pour des méthodes plus avancées :
- Self-Consistency : Génère plusieurs chaînes de raisonnement CoT différentes pour une seule question et choisit la réponse la plus fréquente par un vote. Cela augmente considérablement la fiabilité, offrant des gains de précision sur les benchmarks GSM8K[4] (+17.9%)[5], SVAMP[6] (+11.0%)[1] et AQuA[7] (+12.2%)[1].
- Tree of Thoughts (ToT) : Généralise le CoT en explorant non pas un seul, mais tout un arbre de chemins de raisonnement possibles. Contrairement à la chaîne linéaire du CoT, le ToT permet au modèle d'explorer plusieurs branches, d'évaluer les « pensées » intermédiaires et de revenir en arrière (backtracking) s'il détecte une voie sans issue. Cela permet de résoudre des problèmes encore plus complexes où un simple raisonnement linéaire est insuffisant (par exemple, en augmentant la précision de la résolution du problème "Game of 24"[8] de 4% à 74%)[9].
Voir aussi
- Grands modèles de langage
- Ingénierie des prompts
- Émergence
Littérature
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
- Zhou, D. et al. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625.
- Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
- Lyu, Q. et al. (2023). Faithful Chain-of-Thought Reasoning. arXiv:2301.13379.
- Wang, X. et al. (2023). Deductive Verification of Chain-of-Thought Reasoning. arXiv:2306.03872.
- Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.
- Lightman, H. et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050.
- Yang, B. et al. (2025). Hallucination Detection in Large Language Models with Metamorphic Relations. arXiv:2502.15844.
Notes
- ↑ 1.0 1.1 1.2 Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, et Denny Zhou. «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». arXiv, 10 janvier 2023. https://doi.org/10.48550/arXiv.2201.11903.[1]
- ↑ Kojima, Takeshi, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, et Yusuke Iwasawa. «Large Language Models are Zero-Shot Reasoners». arXiv, 29 janvier 2023. https://doi.org/10.48550/arXiv.2205.11916.[2]
- ↑ Zhang, Zhuosheng, Aston Zhang, Mu Li, et Alex Smola. «Automatic Chain of Thought Prompting in Large Language Models». arXiv, 7 octobre 2022. https://doi.org/10.48550/arXiv.2210.03493.[3]
- ↑ «openai/gsm8k · Datasets at Hugging Face», 17 juillet 2023. https://huggingface.co/datasets/openai/gsm8k.[4]
- ↑ Wang, Xuezhi, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, et Denny Zhou. «Self-Consistency Improves Chain of Thought Reasoning in Language Models». arXiv, 7 mars 2023. https://doi.org/10.48550/arXiv.2203.11171.[5]
- ↑ Patel, Arkil. «arkilpatel/SVAMP». Python, 30 mai 2025. https://github.com/arkilpatel/SVAMP.[6]
- ↑ «autonlab/aqua». Jupyter Notebook. 2022. Reprint, Auton Lab, Carnegie Mellon University, 12 juin 2025. https://github.com/autonlab/aqua.[7]
- ↑ «24 (Puzzle)». Dans Wikipedia [8]
- ↑ Yao, Shunyu, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, et Karthik Narasimhan. «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv, 3 décembre 2023. https://doi.org/10.48550/arXiv.2305.10601.[9]