GLUE Benchmark (FR)
GLUE (acronyme de General Language Understanding Evaluation, ou « Évaluation générale de la compréhension du langage ») est un benchmark multitâche destiné à évaluer la qualité des modèles de traitement du langage naturel (NLU). Ce benchmark a été proposé en 2018 par un groupe de chercheurs de l'Université de New York, de l'Université de Washington et de DeepMind, dont Alex Wang et Samuel Bowman, et a rapidement été adopté par la communauté des chercheurs[1].
L'objectif principal de GLUE est de fournir un ensemble de tests unifié, neutre et complexe pour l'évaluation comparative des capacités des modèles NLU sur un ensemble diversifié de tâches, dépassant le cadre d'un domaine spécifique. Le benchmark inclut une plateforme en ligne avec un leaderboard (tableau de classement), qui assure une comparaison objective des modèles et prévient le surajustement aux données de test, car les étiquettes réelles d'une partie des tests ne sont pas publiées et ne sont accessibles que via le serveur d'évaluation. Il est attendu que, pour obtenir des résultats élevés, un modèle doit être capable d'extraire des représentations linguistiques universelles et de transférer efficacement ses connaissances entre différents types de tâches.
Composition et tâches du benchmark
Le benchmark GLUE regroupe neuf tâches différentes de compréhension du langage, basées sur des jeux de données préexistants et considérés comme difficiles pour l'IA. Toutes les tâches sont formulées comme des problèmes de classification ou de régression sur une seule phrase ou une paire de phrases[1].
- CoLA (Corpus of Linguistic Acceptability) — une tâche de détermination de l'acceptabilité grammaticale d'une phrase. La métrique de qualité est le coefficient de corrélation de Matthews.
- SST-2 (Stanford Sentiment Treebank) — une tâche de détermination de la polarité (positive/négative) d'un avis sur un film. La métrique est l'exactitude (accuracy).
- MRPC (Microsoft Research Paraphrase Corpus) — une tâche de détection de paraphrases dans une paire de phrases issues de sources d'information. Les métriques sont l'exactitude et le score F1.
- QQP (Quora Question Pairs) — une tâche de détection de questions en double provenant de la communauté Quora. Les métriques sont l'exactitude et le score F1.
- STS-B (Semantic Textual Similarity Benchmark) — une tâche de similarité sémantique textuelle entre deux phrases. Le modèle doit prédire le degré de proximité sémantique sur une échelle de 1 à 5. Les métriques sont les coefficients de corrélation de Pearson et de Spearman.
- MNLI (Multi-Genre Natural Language Inference) — une tâche de reconnaissance de l'inférence textuelle à partir de paires de phrases issues de sources de genres variés (implication, contradiction, neutralité). Les résultats sont évalués séparément sur les sous-ensembles concordants (matched) et non concordants (mismatched).
- QNLI (Question Natural Language Inference) — une tâche dérivée du jeu de données SQuAD. Il s'agit de déterminer si une phrase extraite d'un paragraphe contient la réponse à une question donnée.
- RTE (Recognizing Textual Entailment) — un jeu de données composite sur l'inférence textuelle, regroupant plusieurs petites collections. La tâche consiste à effectuer une classification binaire de la relation entre les phrases.
- WNLI (Winograd NLI) — une version modifiée du schéma de Winograd, adaptée au format NLI. Il s'agit d'une tâche de résolution d'anaphore : le système reçoit une phrase avec un pronom ambigu et doit indiquer auquel des deux objets il se réfère.
Méthodologie d'évaluation
Pour être évalués sur GLUE, les chercheurs soumettent les prédictions de leur modèle à un serveur dédié, qui calcule automatiquement les métriques pour chaque tâche et fournit un score global.
- Score GLUE — l'indicateur final, calculé comme la moyenne des résultats obtenus sur les neuf tâches principales.
- Leaderboard — un tableau public qui reflète l'état de l'art et montre quels modèles excellent dans les tâches de NLU. L'utilisation d'ensembles de test cachés garantit une comparaison équitable.
- Ensemble de diagnostic — un ensemble spécial de 1100 exemples, annotés manuellement par des experts pour une analyse linguistique fine. Il n'influence pas le classement, mais sert d'outil d'analyse qualitative pour vérifier quels phénomènes linguistiques (sémantique lexicale, logique, sens commun) un modèle parvient à reconnaître et lesquels lui posent des difficultés[1].
Résultats et impact sur l'industrie
Lors du lancement de GLUE en 2018, les meilleurs modèles de l'époque (par exemple, BiLSTM avec ELMo) atteignaient un score global d'environ 70 points (sur une échelle de 0 à 100), ce qui était nettement inférieur au niveau humain (environ 87 points)[2].
L'arrivée de GLUE et de son leaderboard public a stimulé des progrès rapides dans le domaine de l'apprentissage par transfert en NLP.
- En mai 2019, en moins d'un an, une nouvelle génération de modèles basés sur les transformeurs (notamment BERT) avait déjà élevé le niveau de l' état de l'art à 83,9 points.
- Durant la seconde moitié de 2019, le benchmark GLUE a été considéré comme « résolu » : les meilleurs systèmes se sont rapprochés du niveau humain, et l'ont même dépassé sur certaines tâches[3].
GLUE a joué un rôle crucial en tant que point de référence unifié pour le développement des modèles de compréhension du langage. Grâce à lui, les chercheurs ont pu comparer directement différentes architectures sur un ensemble de tâches complexe, identifier les forces et les faiblesses de leurs approches, et partager rapidement leurs avancées via le leaderboard public.
SuperGLUE : développement ultérieur
Le succès rapide de GLUE a conduit la même équipe d'auteurs, avec la participation de collègues de Facebook AI, à présenter un an plus tard un nouveau benchmark plus complexe, nommé SuperGLUE[4].
SuperGLUE a été annoncé fin 2019 comme un ensemble de tests « plus collant » (stickier), conçu pour recréer un écart entre les capacités des modèles de pointe et celles des humains. Il comprend huit tâches exigeant une compréhension encore plus profonde du langage, ainsi que des outils et des règles améliorés pour les participants. Bien que GLUE soit toujours utilisé comme test de base, l'effort compétitif s'est déplacé vers SuperGLUE et d'autres benchmarks plus spécialisés.
Liens
Bibliographie
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notes
- ↑ 1.0 1.1 1.2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]
- ↑ Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]
- ↑ Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]
- ↑ «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]