HellaSwag Benchmark (PT)

HellaSwag — é um conjunto de dados de referência (benchmark) apresentado em 2019 para avaliar a capacidade dos modelos de inteligência artificial de compreender situações cotidianas (commonsense reasoning) em linguagem natural^[1]. O benchmark foi desenvolvido por um grupo de pesquisadores da Universidade de Washington e do Allen Institute for Artificial Intelligence.

A tarefa do HellaSwag consiste em escolher a conclusão mais plausível para um determinado contexto textual. A principal característica do conjunto de dados é que ele é trivial para humanos, mas desafiador até mesmo para modelos de linguagem avançados, que se baseiam em padrões estatísticos superficiais^[2].

História e contexto

O HellaSwag é uma evolução das ideias do dataset SWAG (Situations With Adversarial Generations), proposto pelo mesmo grupo de autores em 2018. Na tarefa SWAG, os modelos precisavam escolher a continuação mais provável para a descrição de uma situação simples. Inicialmente, o SWAG era complexo para os algoritmos, mas com o surgimento do modelo BERT, seus resultados no SWAG atingiram um nível de ~86%, quase se igualando aos resultados humanos^[2].

Esse sucesso levantou dúvidas: o BERT realmente "compreendia" o texto, ou apenas aprendeu a reconhecer artefatos estatísticos e padrões presentes no conjunto de dados? Os autores do HellaSwag levantaram a hipótese de que o alto desempenho do BERT se devia não a uma verdadeira compreensão, mas a um ajuste excessivo (overfitting) às especificidades do dataset. Eles mostraram que, com a menor alteração na distribuição dos dados, a precisão do BERT caía drasticamente. Isso significava que, para uma avaliação objetiva do progresso em PNL, era necessário um novo benchmark, mais complexo e "enganoso"^[2].

Descrição e objetivos do dataset

O HellaSwag foi criado como um teste projetado para revelar as limitações dos modelos modernos na compreensão de relações de causa e efeito e cenários do cotidiano.

Estrutura da tarefa

Cada exemplo no HellaSwag consiste em duas partes:

Contexto: Um parágrafo curto (até três sentenças) que descreve o início de uma situação.
Quatro opções de finalização: Quatro possíveis continuações para a história, também compostas por algumas sentenças.

Apenas uma dessas finalizações é a correta (real), enquanto as outras três são falsas, geradas especificamente para confundir o modelo.

Fontes de dados

Os exemplos de situações foram extraídos de duas fontes que cobrem uma ampla gama de cenários cotidianos:

ActivityNet Captions: Descrições de ações de vídeos (por exemplo, "uma pessoa abre um pote de picles").
WikiHow: Instruções de artigos (por exemplo, "como trocar o pneu de um carro").

O objetivo do HellaSwag é criar um benchmark que seja fácil para um ser humano resolver (intuitivamente), mas que dificulte ao máximo a tarefa para modelos que não possuem um senso comum robusto. Os autores chamaram esse efeito de "efeito Cachinhos Dourados" (Goldilocks effect)^[1].

Metodologia de Filtragem Adversária (AF)

A inovação central na criação do HellaSwag foi o método de Filtragem Adversária (Adversarial Filtering ou AF) — uma seleção iterativa de "armadilhas" projetadas para um modelo específico, considerado a "vítima". Esse método permitiu criar opções falsas que são enganosamente semelhantes às corretas do ponto de vista dos modelos estatísticos.

O esquema de funcionamento da AF é o seguinte:

Geração. Com base no contexto inicial, um modelo de linguagem gerador (por exemplo, GPT) cria um grande número de possíveis finais incorretos.
Discriminação. Um modelo classificador (por exemplo, BERT), atuando como a "vítima", tenta distinguir as continuações geradas da real (correta).
Seleção. São selecionadas as opções falsas que o classificador considerou mais plausíveis, ou seja, aquelas em que ele teve a maior probabilidade de errar.
Iteração. O processo é repetido várias vezes, até que as respostas falsas se tornem o mais semelhantes possível da correta para o algoritmo.
Verificação humana. Na etapa final, os conjuntos resultantes (contexto + 1 final correto + 3 melhores finais falsos) são avaliados por humanos. Os avaliadores confirmam que a opção correta é inequivocamente a mais natural, enquanto todas as alternativas contêm alguma ilogicidade perceptível para uma pessoa^[2].

Graças à AF, cada exemplo no HellaSwag é construído desde o início para enganar o modelo, mas permanecer transparente para um ser humano.

Resultados e importância

O HellaSwag tornou-se um teste rigoroso para modelos de compreensão de texto. Os resultados dos testes mostraram uma enorme lacuna entre a inteligência de máquina e a humana:

Um ser humano resolve as tarefas do HellaSwag quase sem erros, com uma precisão de cerca de 95-96%^[2].
O melhor modelo na época de sua criação, o BERT-Large, alcançou apenas ~47% de precisão. Métodos mais simples apresentaram resultados pouco acima da adivinhação aleatória (25%)^[2].

A diferença de mais de 45 pontos percentuais confirmou a hipótese de que as altas pontuações em testes anteriores não significavam uma compreensão real. O HellaSwag demonstrou que, mesmo após o treinamento em enormes volumes de dados, os modelos não conseguem desenvolver um senso comum geral para novas situações.

Nos anos seguintes, o HellaSwag tornou-se um dos testes padrão para novos modelos de linguagem. O progresso dos sistemas de IA pôde ser acompanhado por meio de seus resultados neste benchmark.

Em 2020, o modelo GPT-3 (175 bilhões de parâmetros) demonstrou uma precisão de ~79% no modo few-shot, superando o nível de muitos modelos especializados da época, mas ainda significativamente inferior ao desempenho humano^[3].
Somente em 2023, modelos de nova geração, como o GPT-4, conseguiram alcançar um resultado no HellaSwag comparável ao desempenho humano (cerca de 95% de precisão)^[4].

A criação do HellaSwag marcou uma nova abordagem na avaliação do progresso em PNL, baseada na ideia de benchmarks evolutivos: à medida que os modelos melhoram, é necessário criar testes novos e mais complexos para identificar seus pontos fracos.

Links

Leitura adicional

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.0 ^1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
↑ Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
↑ Zellers, R. et al. «HellaSwag Project Page». [4]

[hellaswag_paper-1] 1.0 ^1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]

[hellaswag_arxiv-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]

[gpt3_paper-3] Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]

[hellaswag_official_site-4] Zellers, R. et al. «HellaSwag Project Page». [4]

[1]

[2]

[3]

[4]

HellaSwag Benchmark (PT)

Contents

História e contexto

Descrição e objetivos do dataset

Estrutura da tarefa

Fontes de dados

Metodologia de Filtragem Adversária (AF)

Resultados e importância

Links

Leitura adicional

Notas

Navigation menu

HellaSwag Benchmark (PT)

História e contexto

Descrição e objetivos do dataset

Estrutura da tarefa

Fontes de dados

Metodologia de Filtragem Adversária (AF)

Resultados e importância

Links

Leitura adicional

Notas

Navigation menu

Search