HellaSwag Benchmark (FR)

HellaSwag est un jeu de données de référence (benchmark), présenté en 2019, destiné à évaluer la capacité des modèles d'intelligence artificielle à comprendre des situations de la vie courante (commonsense reasoning) en langage naturel^[1]. Ce benchmark a été développé par un groupe de chercheurs de l'Université de Washington et de l'Allen Institute for Artificial Intelligence.

La tâche HellaSwag consiste à choisir la fin la plus plausible pour un contexte textuel donné. La caractéristique principale de ce jeu de données est qu'il est trivial pour un humain, mais qu'il déconcerte même les modèles de langage avancés, qui s'appuient sur des régularités statistiques superficielles^[2].

Histoire et contexte

HellaSwag est une évolution des idées du jeu de données SWAG (Situations With Adversarial Generations), proposé par le même groupe d'auteurs en 2018. Dans la tâche SWAG, les modèles devaient choisir la suite la plus probable pour la description d'une situation simple. Initialement, SWAG était difficile pour les algorithmes, mais avec l'arrivée du modèle BERT, ses résultats sur SWAG ont atteint un niveau d'environ 86 %, égalant presque les performances humaines^[2].

Ce succès a soulevé des doutes : BERT « comprend-il » réellement le texte, ou a-t-il simplement appris à reconnaître les artefacts statistiques et les motifs présents dans le jeu de données ? Les auteurs de HellaSwag ont émis l'hypothèse que le score élevé de BERT ne s'expliquait pas par une véritable compréhension, mais par un surajustement aux spécificités du jeu de données. Ils ont démontré qu'au moindre changement dans la distribution des données, la précision de BERT chutait drastiquement. Cela signifiait que pour évaluer objectivement les progrès en TALN, un nouveau benchmark, plus complexe et « piégeux », était nécessaire^[2].

Description et objectifs du jeu de données

HellaSwag a été créé comme un test visant à révéler les limites des modèles modernes dans la compréhension des relations de cause à effet et des scénarios du quotidien.

Structure de la tâche

Chaque exemple dans HellaSwag se compose de deux parties :

Contexte : Un court paragraphe (jusqu'à trois phrases) décrivant le début d'une situation.
Quatre options de conclusion : Quatre suites possibles à l'histoire, également composées de plusieurs phrases.

Seule l'une de ces conclusions est correcte (la véritable), tandis que les trois autres sont fausses, générées spécifiquement pour tromper le modèle.

Sources des données

Les exemples de situations ont été extraits de deux sources couvrant un large éventail de scénarios quotidiens :

ActivityNet Captions : Descriptions d'actions issues de vidéos (par exemple, « une personne ouvre un bocal de cornichons »).
WikiHow : Instructions tirées d'articles (par exemple, « comment changer une roue de voiture »).

L'objectif de HellaSwag est de créer un benchmark qui soit facile à résoudre pour un humain (intuitivement), mais qui complique au maximum la tâche pour les modèles dépourvus d'un véritable bon sens. Les auteurs ont appelé cet effet « l'effet Boucles d'Or » (Goldilocks effect)^[1].

Méthodologie du filtrage contradictoire (AF)

L'innovation clé dans la création de HellaSwag est la méthode du filtrage contradictoire (Adversarial Filtering, AF) — une sélection itérative de « pièges » conçus pour un modèle « victime » spécifique. Cette méthode a permis de créer des options incorrectes qui ressemblent de manière trompeuse aux bonnes du point de vue des modèles statistiques.

Le processus AF se déroule comme suit :

Génération. À partir du contexte initial, un modèle de langage générateur (par exemple, GPT) crée de nombreuses fins incorrectes potentielles.
Discrimination. Un modèle classificateur (par exemple, BERT), agissant comme « victime », tente de distinguer les suites générées de la suite réelle (correcte).
Sélection. Sont sélectionnées les options incorrectes que le classificateur a jugées les plus plausibles, c'est-à-dire celles sur lesquelles il était le plus susceptible de se tromper.
Itération. Le processus est répété plusieurs fois, jusqu'à ce que les réponses incorrectes deviennent aussi similaires que possible à la bonne réponse pour l'algorithme.
Vérification humaine. À l'étape finale, les ensembles obtenus (contexte + 1 fin correcte + 3 meilleures fins incorrectes) sont évalués par des humains. Les évaluateurs confirment que l'option correcte est sans équivoque la plus naturelle, tandis que toutes les alternatives contiennent une certaine incohérence perceptible par un humain^[2].

Grâce à l'AF, chaque exemple de HellaSwag est initialement conçu pour induire le modèle en erreur, tout en restant transparent pour un humain.

Résultats et importance

HellaSwag est devenu un test rigoureux pour les modèles de compréhension de texte. Les résultats des tests ont révélé un écart considérable entre l'intelligence artificielle et l'intelligence humaine :

Un humain résout les tâches HellaSwag quasiment sans erreur, avec une précision d'environ 95-96 %^[2].
Le meilleur modèle à l'époque de sa création, BERT-Large, n'a atteint qu'une précision d'environ 47 %. Des méthodes plus simples obtenaient des résultats à peine supérieurs à une réponse aléatoire (25 %)^[2].

Cet écart de plus de 45 points de pourcentage a confirmé l'hypothèse selon laquelle les scores élevés sur les tests précédents ne signifiaient pas une véritable compréhension. HellaSwag a démontré que même après un entraînement sur d'énormes volumes de données, les modèles ne parviennent pas à développer un bon sens général pour des situations nouvelles.

Au cours des années suivantes, HellaSwag est devenu l'un des tests de référence pour les nouveaux modèles de langage. Les progrès des systèmes d'IA ont pu être suivis grâce à leurs performances sur ce benchmark.

En 2020, le modèle GPT-3 (175 milliards de paramètres) a atteint une précision d'environ 79 % en mode few-shot, dépassant les performances de nombreux modèles spécialisés de l'époque, mais restant encore bien en deçà des capacités humaines^[3].
Ce n'est qu'en 2023 que les modèles de nouvelle génération, comme GPT-4, ont réussi à atteindre sur HellaSwag un résultat comparable à celui d'un humain (environ 95 % de précision)^[4].

La création de HellaSwag a marqué une nouvelle approche pour l'évaluation des progrès en TALN, fondée sur l'idée de benchmarks évolutifs : à mesure que les modèles s'améliorent, il devient nécessaire de créer de nouveaux tests, plus complexes, pour identifier leurs faiblesses.

Liens

Bibliographie

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notes et références

↑ ^1.0 ^1.1 Zellers, R. et al. « HellaSwag: Can a Machine Really Finish Your Sentence? ». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. « HellaSwag: Can a Machine Really Finish Your Sentence? ». arXiv:1905.07830, 2019. [2]
↑ Brown, T. B. et al. « Language Models are Few-Shot Learners ». arXiv:2005.14165, 2020. [3]
↑ Zellers, R. et al. « HellaSwag Project Page ». [4]

[hellaswag_paper-1] 1.0 ^1.1 Zellers, R. et al. « HellaSwag: Can a Machine Really Finish Your Sentence? ». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]

[hellaswag_arxiv-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. « HellaSwag: Can a Machine Really Finish Your Sentence? ». arXiv:1905.07830, 2019. [2]

[gpt3_paper-3] Brown, T. B. et al. « Language Models are Few-Shot Learners ». arXiv:2005.14165, 2020. [3]

[hellaswag_official_site-4] Zellers, R. et al. « HellaSwag Project Page ». [4]

[1]

[2]

[3]

[4]

HellaSwag Benchmark (FR)

Contents

Histoire et contexte

Description et objectifs du jeu de données

Structure de la tâche

Sources des données

Méthodologie du filtrage contradictoire (AF)

Résultats et importance

Liens

Bibliographie

Notes et références

Navigation menu

HellaSwag Benchmark (FR)

Histoire et contexte

Description et objectifs du jeu de données

Structure de la tâche

Sources des données

Méthodologie du filtrage contradictoire (AF)

Résultats et importance

Liens

Bibliographie

Notes et références

Navigation menu

Search