SuperGLUE (benchmark) (FR)

From Systems analysis wiki
Jump to navigation Jump to search

SuperGLUE est un benchmark complet (un ensemble de tâches de test) pour évaluer les systèmes de traitement du langage naturel, en particulier les grands modèles de langage (LLM)[1]. Il a été présenté en 2019 par un groupe de chercheurs dirigé par Alex Wang de l'Université de New York, avec la participation de Facebook AI Research et d'autres organisations[1].

La création de SuperGLUE a été motivée par le fait qu'au milieu de l'année 2019, le benchmark précédent, GLUE, était devenu une « tâche facile » pour les modèles modernes : le score agrégé des meilleurs modèles sur GLUE avait atteint 88,4, dépassant le niveau humain moyen (87,1)[1]. Par conséquent, la marge de progression s'était réduite[1]. En réponse, les auteurs ont développé SuperGLUE comme une alternative plus difficile, capable de fournir une évaluation plus rigoureuse de la compréhension du langage par les modèles[1]. L'objectif de SuperGLUE est de fournir une mesure neutre et difficile à « sur-apprendre » des progrès dans le domaine de la compréhension générale du langage pour l'anglais[1]. Il était attendu qu'une amélioration notable des résultats sur SuperGLUE nécessiterait des innovations substantielles dans les méthodes d'apprentissage automatique — par exemple, un apprentissage plus efficace sur de petits échantillons, un apprentissage multitâche et un apprentissage auto-supervisé[1]. En d'autres termes, SuperGLUE inclut des tâches qui sont simples pour les humains mais difficiles pour l'intelligence artificielle[1], afin de stimuler le développement de modèles dotés d'une compréhension du langage véritablement profonde.

Caractéristiques et différences par rapport à GLUE

SuperGLUE reprend en grande partie le format de GLUE — il propose un score de performance global unique pour un ensemble de tâches, un classement public (leaderboard) et une boîte à outils pour l'analyse des modèles[1]. Cependant, SuperGLUE apporte plusieurs améliorations et innovations par rapport à son prédécesseur[1] :

  • Tâches plus difficiles : SuperGLUE sélectionne huit des tâches les plus ardues[1]. Deux d'entre elles sont héritées de GLUE (parmi les plus difficiles de cet ensemble), tandis que les autres ont été choisies parmi de nouvelles candidates en fonction de leur complexité pour les modèles de TAL modernes[1]. Ainsi, le benchmark se concentre sur les aspects de la compréhension où les modèles affichaient auparavant les plus mauvais résultats.
  • Diversité des formats : alors que dans GLUE, toutes les tâches se résumaient à la classification de phrases ou de paires de phrases, SuperGLUE inclut une plus grande variété de formats[1]. En plus de la classification, des tâches de résolution de coréférences et de question-réponse ont été ajoutées, exigeant du modèle une compréhension du texte cohérent et un raisonnement logique[1].
  • Évaluation humaine sur toutes les tâches : pour chaque tâche de SuperGLUE, un niveau de performance humain de base (non-expert) a été calculé[1], confirmant que même des modèles puissants comme BERT étaient significativement inférieurs aux humains au moment du lancement du benchmark[1]. La présence d'une référence humaine (~90 % au total) offre une marge de progression pour les modèles et sert d'objectif[1].
  • Règles et outils transparents : les règles de soumission des résultats au classement ont été révisées (pour garantir une comparaison équitable et mentionner la contribution des auteurs des jeux de données)[1]. Un nouvel outil open source a également été publié pour faciliter le fine-tuning et l'apprentissage multitâche des modèles sur les données de SuperGLUE[1].

Ensemble, ces mesures font de SuperGLUE un test plus fiable pour les capacités linguistiques généralisées des modèles, empêchant l'obtention de scores élevés par le biais de tricheries ciblées ou d'un sur-ajustement aux formats spécifiques de l'ancien GLUE[1].

Ensemble des tâches de SuperGLUE

SuperGLUE se compose de huit tâches, couvrant différents aspects de la compréhension de texte.

  • BoolQ (Boolean Questions) : tâche de type question-réponse (QA), où chaque exemple est constitué d'un court texte (un extrait de Wikipédia) et d'une question à laquelle il faut répondre par « oui » ou « non »[1]. Les questions sont formulées par des utilisateurs (à partir de requêtes de recherche Google) et nécessitent l'extraction d'un fait explicite ou implicite du texte ; la métrique de performance est le taux de bonnes réponses (accuracy)[1].
  • CB (CommitmentBank) : tâche d' inférence textuelle (textual entailment) à trois classes[1]. Le jeu de données se compose de courts textes contenant des phrases complexes ; il faut déterminer dans quelle mesure l'auteur du texte s'engage sur la véracité de l'énoncé imbriqué[1]. En fait, il s'agit de vérifier si une affirmation peut être déduite d'un contexte donné. La tâche est difficile en raison de la petite taille de l'échantillon (environ 250 exemples) et du déséquilibre des classes ; la performance est évaluée par la précision et le score F1, moyennés sur les classes[1].
  • COPA (Choice of Plausible Alternatives) : tâche de raisonnement causal[1]. Le modèle reçoit une prémisse (une seule phrase) et doit choisir la cause ou la conséquence correcte parmi deux options[1]. Tous les exemples de COPA sont formulés manuellement et exigent du bon sens pour établir le lien de cause à effet. Les thèmes incluent des situations tirées de blogs et d'une encyclopédie spécialisée ; la métrique est la précision (proportion de choix corrects)[1]. Exemple : étant donné la phrase « l'enfant a acquis une immunité contre la maladie » et la question « quelle en est la cause ? » – un humain comprend immédiatement que la bonne réponse est « il a reçu un vaccin », alors qu'un modèle doit deviner la relation de cause à effet[1].
  • MultiRC (Multi-Sentence Reading Comprehension) : tâche de compréhension de texte multi-phrases avec des éléments à choix multiples[1]. Le modèle reçoit un paragraphe de texte, une question sur son contenu et une liste de réponses possibles ; il doit déterminer quelles réponses sont correctes (chaque question peut avoir plusieurs bonnes réponses)[1]. Particularités : pour répondre à la question, il est généralement nécessaire de combiner des informations issues de plusieurs phrases du texte, ce qui teste la capacité du modèle à relier des faits[1]. La performance est mesurée par deux métriques : le score F1 sur les réponses (qui prend en compte les ensembles partiellement corrects) et l'Exact Match - la proportion de questions pour lesquelles des ensembles de réponses entièrement corrects sont fournis[1].
  • ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset) : tâche de compréhension écrite avec raisonnement de bon sens[1]. Il s'agit d'un test de Cloze modifié : un texte d'actualité (un article de CNN/Daily Mail) et une phrase avec un mot-entité manquant sont fournis ; le modèle doit choisir quelle entité du texte convient pour combler le vide[1]. Les options de réponse sont définies comme toutes les entités mentionnées dans l'article, qui peuvent être sémantiquement similaires[1]. Une résolution réussie nécessite une compréhension du contexte et du bon sens. Les métriques sont le F1 maximal au niveau du token (token-level F1) et l'Exact Match (correspondance exacte) sur les réponses prédites[1].
  • RTE (Recognizing Textual Entailment) : tâche de classification binaire sur l' inférence textuelle (entailment vs. not entailment)[1]. Le jeu de données regroupe des exemples de plusieurs compétitions de reconnaissance d'inférence textuelle (série RTE 1-5)[1]. Chaque tâche contient une paire de fragments de texte (prémisse-hypothèse) ; le modèle doit déterminer si l'hypothèse découle du texte. Contrairement à de nombreux grands jeux de données, RTE est assez petit (environ 2 500 exemples d'entraînement), mais a montré un gain significatif grâce à l'apprentissage par transfert : la précision est passée de ~56 % (niveau d'une supposition aléatoire) à ~86 % avec l'avènement de modèles comme BERT[1]. Néanmoins, au moment du lancement de SuperGLUE, la précision des modèles était encore inférieure d'environ 8 points de pourcentage à celle des humains[1], c'est pourquoi RTE a été inclus comme l'une des tâches conservant un écart par rapport au niveau humain.
  • WiC (Word-in-Context) : tâche de désambiguïsation du sens des mots en contexte (WSD)[1]. On donne deux phrases indépendantes, contenant chacune le même mot polysémique ; il faut déterminer si ce mot est utilisé avec le même sens dans les deux cas[1]. Les données sont extraites de ressources lexicographiques (WordNet, VerbNet, Wiktionary), couvrant ainsi un large éventail de mots et de sens[1]. La tâche est formalisée comme une classification binaire et est évaluée par le taux de bonnes réponses. WiC exige du modèle une compréhension des nuances sémantiques subtiles, testant ainsi la sémantique lexicale.
  • WSC (Winograd Schema Challenge) : tâche de résolution de coréférences faisant appel au bon sens[1]. Chaque tâche consiste en une seule phrase contenant un pronom, et une liste de deux entités (noms) de cette même phrase[1]. Il faut déterminer à lequel des noms proposés se rapporte le pronom[1]. Un exemple classique de phrase de Winograd est : « Le trophée ne rentrait pas dans la valise parce qu'il était trop petit » – un humain comprend que « il » se réfère à la valise (la valise était trop petite). De tels exemples sont impossibles à résoudre sans des connaissances du quotidien et du contexte[1]. Une version simplifiée de cette tâche (WNLI) était déjà présente dans GLUE, mais pendant longtemps, les modèles n'ont pas réussi à dépasser même le niveau du hasard[1]. Seules des techniques spéciales, comme l'ajout de données externes avec des exemples similaires, ont permis d'élever la performance des modèles sur WSC à ~90 % en 2019[1]. Cependant, les humains résolvent les tâches WSC presque sans erreur (~96-100 % de bonnes réponses)[1]. SuperGLUE inclut la version originale de WSC sous forme de classification binaire (pour chaque paire « pronom-entité », le modèle répond s'ils ont la même référence)[1]. Cette tâche reste l'un des tests les plus difficiles nécessitant un raisonnement de bon sens.

Tous les tests de SuperGLUE ont des ensembles de test privés dont les réponses sont inconnues des développeurs[1]. Les modèles soumettent leurs prédictions à un serveur, qui calcule un score global — la moyenne des précisions sur les tâches (pour les tâches avec plusieurs métriques, la métrique interne est d'abord moyennée)[1]. Ce score SuperGLUE unifié facilite la comparaison des modèles en fonction de leur niveau global d'intelligence linguistique.

Résultats et progression des modèles

Lors du lancement de SuperGLUE, les auteurs ont fourni comme référence les résultats d'un modèle de base puissant (un BERT amélioré) – et ils se sont avérés nettement inférieurs à ceux des humains sur toutes les tâches[1]. En moyenne, le meilleur modèle de l'époque a obtenu environ 20 points de moins que les humains sur la métrique globale[1]. Sur certaines tâches, l'écart était particulièrement important : par exemple, sur la tâche WSC, le modèle atteignait à peine ~65 % de précision contre 100 % pour un humain (un écart de ~35 points)[1]. Même sur des tâches semblant plus « simples » (BoolQ, CB, RTE, WiC), les systèmes automatisés étaient inférieurs de ~10 points au niveau humain[1]. Ces différences ont confirmé que SuperGLUE représentait un véritable défi pour les technologies actuelles et ne pouvait être résolu de manière triviale.

Cependant, quelques mois seulement après l'apparition de SuperGLUE, une progression rapide a commencé[1]. Fin 2019, les chercheurs de Google ont présenté le modèle T5 (Text-To-Text Transfer Transformer) avec 11 milliards de paramètres, qui a obtenu un score global de 88,9, se rapprochant de très près du niveau humain de ~89,8[2]. En fait, T5 a amélioré le record précédent sur SuperGLUE de 4,3 points d'un coup et a réduit le taux d'erreur de près d'un tiers[2], ne laissant qu'un écart minimal de 0,9 point par rapport à la performance humaine[2]. Les développeurs ont noté que SuperGLUE avait été délibérément conçu pour que les tâches soient simples pour les humains, de sorte que l'atteinte par le modèle d'un niveau de ~89 % a constitué une étape importante[2].

Le premier modèle à dépasser la performance humaine moyenne fut celui de Microsoft, DeBERTa (Decoding-enhanced BERT with disentangled attention)[3]. En janvier 2021, les chercheurs ont annoncé qu'une version de DeBERTa avec 1,5 milliard de paramètres avait obtenu un score de 89,9, légèrement supérieur à la référence humaine de 89,8[3]. C'était la première fois qu'un modèle unique surpassait les humains sur la métrique SuperGLUE[3]. De plus, un ensemble de plusieurs modèles DeBERTa a porté le record à ~90,3 points[3]. Le modèle DeBERTa a surpassé le leader précédent (Google T5) d'environ 0,6 % et a démontré l'efficacité de nouvelles idées dans l'architecture Transformer (représentation disjointe du contenu et de la position des mots, un décodeur de masques amélioré, etc.)[4].

Les progrès ne se sont pas arrêtés là : à mesure que la taille et la complexité des modèles de langage augmentaient, les résultats sur SuperGLUE continuaient de s'améliorer[5]. Fin 2021, le modèle de Microsoft T-NLRv5 (de la famille Microsoft Turing NLR) était en tête du classement — il a encore creusé l'écart au-dessus du niveau humain[5]. Les dernières tâches de GLUE non résolues par les machines (par exemple, les subtilités de NLI) ont été « maîtrisées » par ce modèle, qui s'est approché de très près de la parité totale avec les humains, même sur les sous-tâches les plus difficiles[5].

Pour les années 2022-2023, le seuil de performance humaine sur SuperGLUE a été franchi avec assurance par plusieurs grands modèles indépendants[6]. Par exemple, le modèle PaLM de Google (540 milliards de paramètres), après un fine-tuning sur les tâches de SuperGLUE, a atteint environ 90,4 points, et le modèle GPT-4 (développé par OpenAI) a montré un résultat encore légèrement supérieur[6]. À la mi-2023, le classement de SuperGLUE comptait plusieurs modèles avec un score supérieur à 90 (c'est-à-dire dépassant le niveau humain moyen)[6]. On peut dire que le benchmark est pratiquement résolu par les systèmes modernes[6] : les performances des meilleurs modèles sont si élevées qu'elles surpassent les capacités de la plupart des humains non qualifiés[6]. Ce succès témoigne des progrès gigantesques réalisés en TAL en peu de temps, mais il souligne également la nécessité de nouveaux tests, encore plus complexes, pour les modèles les plus récents[6]. De nouveaux benchmarks apparaissent déjà (par exemple, MMLU, BIG-Bench, etc.), conçus pour évaluer les modèles sur une compréhension et une érudition plus larges, dépassant le cadre des tâches de SuperGLUE[6].

Impact et recherches futures

SuperGLUE s'est ainsi imposé comme une étape importante dans le développement des méthodologies d'évaluation en traitement du langage[3]. Dans les cercles de passionnés et de scientifiques, ses résultats sont devenus une sorte de « test décisif » pour les nouvelles architectures de LLM : atteindre ou dépasser le niveau humain sur SuperGLUE est perçu comme le signe d'un modèle de pointe doté d'une compréhension linguistique profonde[3]. Cela s'est également reflété dans la pratique — de nombreux modèles de langage modernes ayant obtenu d'excellents résultats sur SuperGLUE ont servi de base à des systèmes appliqués de question-réponse, d'agents conversationnels, de systèmes de résumé de texte, etc.[3]. SuperGLUE continue d'être utilisé par les chercheurs pour le fine-tuning et la comparaison d'algorithmes, bien que la recherche de pointe se déplace progressivement vers de nouvelles frontières de l'évaluation de l'intelligence artificielle.

Liens

Bibliographie

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notes

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [1]
  2. 2.0 2.1 2.2 2.3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [2]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 3.6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [3]
  4. «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [4]
  5. 5.0 5.1 5.2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [5]
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 «The Ultimate Guide to AI Benchmarks». The AI Navigator. [6]