Least-to-most Prompting (FR)

From Systems analysis wiki
Jump to navigation Jump to search

Least-to-Most Prompting (LtM) est une méthode de conception de prompts pour les grands modèles de langage (LLM), qui permet de résoudre des problèmes complexes en les décomposant en étapes plus simples, puis en résolvant séquentiellement ces sous-tâches[1]. Cette approche a été proposée en 2022 par un groupe de chercheurs de Google Brain dirigé par Denny Zhou et a été présentée à la conférence ICLR 2023[2]. L'objectif principal de la méthode est de surmonter les limitations des prompts de type Chain-of-Thought, qui peinent à gérer des tâches plus complexes que les exemples présentés au modèle lors de l'apprentissage par prompts[2]. Le Least-to-Most Prompting permet au modèle de généraliser à des tâches de complexité accrue, tout en restant interprétable et sans nécessiter d'entraînement supplémentaire du réseau neuronal[2]. Le nom de la méthode est emprunté à la psychologie de l'éducation, où le « least to most prompting » désigne la présentation à un étudiant d'une série d'indices avec un niveau d'aide croissant pour l'acquisition d'une nouvelle compétence[3].

Description de la méthode

La méthode Least-to-Most Prompting se déroule en deux étapes[2], chacune étant guidée pour le modèle de langage lui-même par des prompts soigneusement élaborés (sans ré-entraînement supplémentaire du modèle) :

  1. Décomposition du problème. Lors de la première étape, le modèle reçoit une instruction et des exemples montrant comment décomposer un problème complexe en une séquence de sous-tâches plus simples. Ensuite, le modèle est confronté à une question complexe spécifique et doit générer une liste de questions intermédiaires simplifiées[2]. Par exemple, pour un problème complexe, le modèle peut formuler de manière autonome une sous-question de clarification qui aborde une partie du problème initial.
  2. Résolution séquentielle des sous-tâches. Lors de la deuxième étape, le modèle résout les sous-tâches obtenues l'une après l'autre — de la plus simple à la plus complexe. Pour ce faire, chaque sous-tâche est précédée d'un contexte : des exemples de solutions à des sous-problèmes similaires, ainsi que (le cas échéant) les sous-tâches précédentes déjà résolues avec leurs réponses[4]. Après avoir résolu la première sous-tâche, le modèle ajoute sa réponse au texte du prompt et aborde la sous-tâche suivante, en utilisant les solutions précédentes comme contexte[4]. Ce processus se poursuit jusqu'à ce que la sous-tâche finale, la plus complexe, qui répond directement à la question initiale, soit résolue.

Exemple : un problème textuel initial est décomposé en deux étapes grâce à la méthode Least-to-Most. D'abord, le modèle formule et résout une question intermédiaire (« How long does each trip take? » — « Combien de temps dure chaque trajet ? »), obtenant la réponse “each trip takes 5 minutes" (« chaque trajet dure 5 minutes »). Cette réponse est incluse dans un nouveau prompt avec la sous-tâche suivante – la question originale (“How many times can she slide before it closes?” – « Combien de fois peut-elle glisser avant que l'attraction ne ferme ? »). En utilisant le résultat précédent, le modèle calcule la réponse finale (dans cet exemple : 3 fois).

Fondamentalement, le Least-to-Most Prompting se distingue de l'approche standard Chain-of-Thought en ce qu'il divise le processus de raisonnement en requêtes distinctes avec accumulation de connaissances, au lieu de générer une seule « chaîne de pensée » continue en une seule réponse[3]. Une telle approche par étapes et récursive permet au modèle de progresser graduellement vers des aspects de plus en plus complexes du problème, résolvant efficacement le problème de la généralisation du simple au complexe (easy-to-hard generalization) (lorsque le modèle est confronté à une tâche plus difficile que celles des exemples d'entraînement)[2][3]. Il convient de noter que les deux étapes de la méthode LtM sont mises en œuvre par le biais du few-shot prompting (démonstration de quelques exemples) et ne nécessitent ni entraînement supplémentaire ni fine-tuning du modèle sur de nouvelles données[2]. De plus, la méthode est compatible avec d'autres techniques d'amélioration du raisonnement des LLM ; par exemple, elle peut être combinée avec le Chain-of-Thought et la self-consistency (échantillonnage de plusieurs solutions) lors de la génération de la réponse, bien que cela ne soit pas indispensable[1].

Résultats expérimentaux et applications

Dans l'article qui a introduit le Least-to-Most Prompting, il a été démontré que cette méthode surpasse les méthodes de prompting standards (y compris le Chain-of-Thought) sur un ensemble de tâches nécessitant un raisonnement complexe en plusieurs étapes[1]. Elle a démontré avec succès ses avantages dans trois catégories clés de tâches :

  • Tâches symboliques et algorithmiques. Par exemple, dans la tâche de concaténation des dernières lettres des mots (prendre séquentiellement la dernière lettre de chaque mot d'une liste et former un nouveau mot), la méthode LtM a considérablement amélioré la capacité du modèle à généraliser à des séquences de mots plus longues. Sans entraînement spécifique, le modèle GPT-3 (code-davinci-002) avec des prompts Chain-of-Thought ne résolvait correctement ces tâches que dans environ 32 % des cas pour une liste de 12 mots, alors qu'avec le Least-to-Most Prompting, la précision atteignait ~74 %[1]. Pour les listes courtes (de longueurs rencontrées dans les exemples), les deux stratégies fonctionnaient bien, mais à mesure que la longueur de la séquence augmentait, la performance du Chain-of-Thought chutait brusquement, tandis que le Least-to-Most assurait une baisse plus douce et maintenait une précision élevée[1]. Cela démontre la capacité de la méthode LtM à généraliser la logique de résolution à des données d'entrée plus complexes (longues).
  • Généralisation compositionnelle (compositional generalization). Cette catégorie de tâches comprend, par exemple, la traduction d'instructions textuelles en séquences d'actions (comme dans le benchmark SCAN, qui demande d'exécuter des commandes de type "jump twice and run" et de généraliser à des combinaisons plus longues)[4]. La méthode LtM a permis aux LLM de résoudre avec succès même les variantes les plus difficiles de ces tâches. En particulier, le modèle GPT-3 avec des prompts LtM a atteint 99 % de précision sur toutes les variantes de découpage des données de l'ensemble SCAN (y compris le plus difficile, le length split, où les séquences de test sont plus longues que celles d'entraînement), en utilisant seulement 14 exemples dans le prompt[2]. À titre de comparaison, l'approche Chain-of-Thought standard n'obtenait qu'environ 16 % de précision dans des conditions similaires[2]. De plus, ce résultat a été obtenu sans entraîner le modèle sur les données d'entraînement, alors que les meilleures solutions précédentes pour SCAN s'appuyaient sur des architectures neuro-symboliques spéciales ou des méthodes d'augmentation de données, nécessitant l'utilisation de l'ensemble d'entraînement complet de plus de 15 000 exemples[2][2]. Ainsi, le Least-to-Most Prompting a démontré une capacité de généralisation compositionnelle sans précédent pour des modèles sans fine-tuning.
  • Problèmes mathématiques énoncés en langage naturel. La méthode a été testée sur des problèmes d'arithmétique textuels, par exemple ceux du jeu de données GSM8K (problèmes complexes de logique et d'addition/soustraction)[2], ainsi que sur un ensemble de questions du jeu de données DROP (évaluant la capacité à extraire et à compter des informations numériques dans un texte)[2]. Dans ce domaine également, le Least-to-Most Prompting a montré une amélioration de la précision par rapport au Chain-of-Thought. Par exemple, pour GSM8K avec le modèle code-davinci-002, la précision des réponses est passée de ~60,9 % à ~62,4 %[2]. Sur les sous-tâches de DROP, le gain était encore plus notable : par exemple, sur des questions relatives à des faits sur le football, la précision est passée de ~59,6 % (Chain-of-Thought) à ~73,4 % avec l'application du LtM[2]. Bien que l'amélioration sur les tâches mathématiques ait été moins spectaculaire que pour SCAN, les auteurs soulignent un point important : presque tous les problèmes de GSM8K peuvent être résolus correctement si le modèle reçoit une décomposition correcte du problème[2]. Cela indique que la clé du succès réside dans des questions intermédiaires bien formulées ; l'approche LtM vise précisément à générer automatiquement de telles questions et à les résoudre séquentiellement.

En résumé, les expériences confirment que le Least-to-Most Prompting surpasse de manière significative à la fois le few-shot prompting naïf sans raisonnement et la méthode Chain-of-Thought sur de nombreux types de tâches nécessitant une inférence en plusieurs étapes[1]. La méthode permet aux LLM de résoudre des problèmes plus complexes que ceux auxquels ils ont été initiés par des exemples, repoussant ainsi les limites de l'apprentissage en contexte (in-context learning).

Limitations et pistes futures

Malgré ses succès, la méthode Least-to-Most Prompting présente certaines limitations. Avant tout, différents types de problèmes nécessitent différentes approches de décomposition. Un modèle de prompt qui décompose efficacement un problème mathématique peut être totalement inadapté à un problème de logique ou de raisonnement de bon sens[2]. Par exemple, les prompts qui ont appris au modèle à décomposer des problèmes mathématiques textuels en étapes se sont révélés inutiles pour une question de bon sens comme « Aristote a-t-il utilisé un ordinateur portable ? » — une telle question nécessite une stratégie de décomposition complètement différente[2]. Par conséquent, pour chaque nouveau domaine ou type de problème, il est nécessaire de sélectionner de nouveaux exemples de décomposition et de créer un prompt correspondant illustrant la structure de la solution[3]. En d'autres termes, la connaissance de la manière de décomposer correctement un problème n'est pas généralisée de manière universelle par le LLM lui-même ; elle doit être fournie par des exemples spécifiques à une classe de tâches donnée.

De plus, l'efficacité du LtM dépend fortement de la facilité avec laquelle un problème peut être décomposé en sous-objectifs autonomes. Si le modèle ne parvient pas à formuler correctement les étapes intermédiaires ou si certaines sous-tâches nécessaires sont omises, la solution finale sera également incorrecte. Néanmoins, les développeurs eux-mêmes notent que dans de nombreux cas, un échec peut être transformé en succès si un humain fournit manuellement la bonne décomposition — le modèle résout alors sans difficulté chaque partie et combine avec succès les réponses[2]. Cela souligne le potentiel de développement futur de l'approche : l'amélioration de la qualité de la génération automatique de sous-tâches et, éventuellement, l'apprentissage interactif des modèles. En conclusion, les auteurs du LtM suggèrent que l'avenir des méthodes de prompting pourrait s'orienter vers un véritable dialogue bilatéral avec le modèle, où celui-ci reçoit un retour d'information instantané et des corrections sur ses étapes intermédiaires[2]. La méthode Least-to-Most Prompting peut être considérée comme un pas dans cette direction, montrant qu'une interaction séquentielle avec le modèle par la décomposition et la résolution par étapes des problèmes permet d'étendre considérablement ses capacités de raisonnement sans entraînement sur de nouvelles données[1].

Liens

Bibliographie

  • Zhou, D. et al. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625.
  • Zhou, D. et al. (2023). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. ICLR 2023. OpenReview.
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
  • Kojima, T. et al. (2022). Large Language Models Are Zero-Shot Reasoners. arXiv:2205.11916.
  • Nye, M. et al. (2021). Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv:2112.00114.
  • Lake, B. M.; Baroni, M. (2018). Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks. arXiv:1711.00350.
  • Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168.
  • Dua, D. et al. (2019). DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs. arXiv:1903.00161.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.

Notes

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». ar5iv.org. [1]
  2. 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». arXiv. [2]
  3. 3.0 3.1 3.2 3.3 «What is least-to-most prompting?». AI Safety Info. [3]
  4. 4.0 4.1 4.2 OXEN AI. «Arxiv Dives Toolformer: Language models can teach themselves to use tools». Medium. [4]