HellaSwag Benchmark (PT)
HellaSwag — é um conjunto de dados de referência (benchmark) apresentado em 2019 para avaliar a capacidade dos modelos de inteligência artificial de compreender situações cotidianas (commonsense reasoning) em linguagem natural[1]. O benchmark foi desenvolvido por um grupo de pesquisadores da Universidade de Washington e do Allen Institute for Artificial Intelligence.
A tarefa do HellaSwag consiste em escolher a conclusão mais plausível para um determinado contexto textual. A principal característica do conjunto de dados é que ele é trivial para humanos, mas desafiador até mesmo para modelos de linguagem avançados, que se baseiam em padrões estatísticos superficiais[2].
História e contexto
O HellaSwag é uma evolução das ideias do dataset SWAG (Situations With Adversarial Generations), proposto pelo mesmo grupo de autores em 2018. Na tarefa SWAG, os modelos precisavam escolher a continuação mais provável para a descrição de uma situação simples. Inicialmente, o SWAG era complexo para os algoritmos, mas com o surgimento do modelo BERT, seus resultados no SWAG atingiram um nível de ~86%, quase se igualando aos resultados humanos[2].
Esse sucesso levantou dúvidas: o BERT realmente "compreendia" o texto, ou apenas aprendeu a reconhecer artefatos estatísticos e padrões presentes no conjunto de dados? Os autores do HellaSwag levantaram a hipótese de que o alto desempenho do BERT se devia não a uma verdadeira compreensão, mas a um ajuste excessivo (overfitting) às especificidades do dataset. Eles mostraram que, com a menor alteração na distribuição dos dados, a precisão do BERT caía drasticamente. Isso significava que, para uma avaliação objetiva do progresso em PNL, era necessário um novo benchmark, mais complexo e "enganoso"[2].
Descrição e objetivos do dataset
O HellaSwag foi criado como um teste projetado para revelar as limitações dos modelos modernos na compreensão de relações de causa e efeito e cenários do cotidiano.
Estrutura da tarefa
Cada exemplo no HellaSwag consiste em duas partes:
- Contexto: Um parágrafo curto (até três sentenças) que descreve o início de uma situação.
- Quatro opções de finalização: Quatro possíveis continuações para a história, também compostas por algumas sentenças.
Apenas uma dessas finalizações é a correta (real), enquanto as outras três são falsas, geradas especificamente para confundir o modelo.
Fontes de dados
Os exemplos de situações foram extraídos de duas fontes que cobrem uma ampla gama de cenários cotidianos:
- ActivityNet Captions: Descrições de ações de vídeos (por exemplo, "uma pessoa abre um pote de picles").
- WikiHow: Instruções de artigos (por exemplo, "como trocar o pneu de um carro").
O objetivo do HellaSwag é criar um benchmark que seja fácil para um ser humano resolver (intuitivamente), mas que dificulte ao máximo a tarefa para modelos que não possuem um senso comum robusto. Os autores chamaram esse efeito de "efeito Cachinhos Dourados" (Goldilocks effect)[1].
Metodologia de Filtragem Adversária (AF)
A inovação central na criação do HellaSwag foi o método de Filtragem Adversária (Adversarial Filtering ou AF) — uma seleção iterativa de "armadilhas" projetadas para um modelo específico, considerado a "vítima". Esse método permitiu criar opções falsas que são enganosamente semelhantes às corretas do ponto de vista dos modelos estatísticos.
O esquema de funcionamento da AF é o seguinte:
- Geração. Com base no contexto inicial, um modelo de linguagem gerador (por exemplo, GPT) cria um grande número de possíveis finais incorretos.
- Discriminação. Um modelo classificador (por exemplo, BERT), atuando como a "vítima", tenta distinguir as continuações geradas da real (correta).
- Seleção. São selecionadas as opções falsas que o classificador considerou mais plausíveis, ou seja, aquelas em que ele teve a maior probabilidade de errar.
- Iteração. O processo é repetido várias vezes, até que as respostas falsas se tornem o mais semelhantes possível da correta para o algoritmo.
- Verificação humana. Na etapa final, os conjuntos resultantes (contexto + 1 final correto + 3 melhores finais falsos) são avaliados por humanos. Os avaliadores confirmam que a opção correta é inequivocamente a mais natural, enquanto todas as alternativas contêm alguma ilogicidade perceptível para uma pessoa[2].
Graças à AF, cada exemplo no HellaSwag é construído desde o início para enganar o modelo, mas permanecer transparente para um ser humano.
Resultados e importância
O HellaSwag tornou-se um teste rigoroso para modelos de compreensão de texto. Os resultados dos testes mostraram uma enorme lacuna entre a inteligência de máquina e a humana:
- Um ser humano resolve as tarefas do HellaSwag quase sem erros, com uma precisão de cerca de 95-96%[2].
- O melhor modelo na época de sua criação, o BERT-Large, alcançou apenas ~47% de precisão. Métodos mais simples apresentaram resultados pouco acima da adivinhação aleatória (25%)[2].
A diferença de mais de 45 pontos percentuais confirmou a hipótese de que as altas pontuações em testes anteriores não significavam uma compreensão real. O HellaSwag demonstrou que, mesmo após o treinamento em enormes volumes de dados, os modelos não conseguem desenvolver um senso comum geral para novas situações.
Nos anos seguintes, o HellaSwag tornou-se um dos testes padrão para novos modelos de linguagem. O progresso dos sistemas de IA pôde ser acompanhado por meio de seus resultados neste benchmark.
- Em 2020, o modelo GPT-3 (175 bilhões de parâmetros) demonstrou uma precisão de ~79% no modo few-shot, superando o nível de muitos modelos especializados da época, mas ainda significativamente inferior ao desempenho humano[3].
- Somente em 2023, modelos de nova geração, como o GPT-4, conseguiram alcançar um resultado no HellaSwag comparável ao desempenho humano (cerca de 95% de precisão)[4].
A criação do HellaSwag marcou uma nova abordagem na avaliação do progresso em PNL, baseada na ideia de benchmarks evolutivos: à medida que os modelos melhoram, é necessário criar testes novos e mais complexos para identificar seus pontos fracos.
Links
- Site oficial do projeto HellaSwag
- Artigo científico "HellaSwag: Can a Machine Really Finish Your Sentence?"
Leitura adicional
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notas
- ↑ 1.0 1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
- ↑ Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
- ↑ Zellers, R. et al. «HellaSwag Project Page». [4]