HellaSwag Benchmark (PT)

From Systems analysis wiki
Jump to navigation Jump to search

HellaSwag — é um conjunto de dados de referência (benchmark) apresentado em 2019 para avaliar a capacidade dos modelos de inteligência artificial de compreender situações cotidianas (commonsense reasoning) em linguagem natural[1]. O benchmark foi desenvolvido por um grupo de pesquisadores da Universidade de Washington e do Allen Institute for Artificial Intelligence.

A tarefa do HellaSwag consiste em escolher a conclusão mais plausível para um determinado contexto textual. A principal característica do conjunto de dados é que ele é trivial para humanos, mas desafiador até mesmo para modelos de linguagem avançados, que se baseiam em padrões estatísticos superficiais[2].

História e contexto

O HellaSwag é uma evolução das ideias do dataset SWAG (Situations With Adversarial Generations), proposto pelo mesmo grupo de autores em 2018. Na tarefa SWAG, os modelos precisavam escolher a continuação mais provável para a descrição de uma situação simples. Inicialmente, o SWAG era complexo para os algoritmos, mas com o surgimento do modelo BERT, seus resultados no SWAG atingiram um nível de ~86%, quase se igualando aos resultados humanos[2].

Esse sucesso levantou dúvidas: o BERT realmente "compreendia" o texto, ou apenas aprendeu a reconhecer artefatos estatísticos e padrões presentes no conjunto de dados? Os autores do HellaSwag levantaram a hipótese de que o alto desempenho do BERT se devia não a uma verdadeira compreensão, mas a um ajuste excessivo (overfitting) às especificidades do dataset. Eles mostraram que, com a menor alteração na distribuição dos dados, a precisão do BERT caía drasticamente. Isso significava que, para uma avaliação objetiva do progresso em PNL, era necessário um novo benchmark, mais complexo e "enganoso"[2].

Descrição e objetivos do dataset

O HellaSwag foi criado como um teste projetado para revelar as limitações dos modelos modernos na compreensão de relações de causa e efeito e cenários do cotidiano.

Estrutura da tarefa

Cada exemplo no HellaSwag consiste em duas partes:

  1. Contexto: Um parágrafo curto (até três sentenças) que descreve o início de uma situação.
  2. Quatro opções de finalização: Quatro possíveis continuações para a história, também compostas por algumas sentenças.

Apenas uma dessas finalizações é a correta (real), enquanto as outras três são falsas, geradas especificamente para confundir o modelo.

Fontes de dados

Os exemplos de situações foram extraídos de duas fontes que cobrem uma ampla gama de cenários cotidianos:

  • ActivityNet Captions: Descrições de ações de vídeos (por exemplo, "uma pessoa abre um pote de picles").
  • WikiHow: Instruções de artigos (por exemplo, "como trocar o pneu de um carro").

O objetivo do HellaSwag é criar um benchmark que seja fácil para um ser humano resolver (intuitivamente), mas que dificulte ao máximo a tarefa para modelos que não possuem um senso comum robusto. Os autores chamaram esse efeito de "efeito Cachinhos Dourados" (Goldilocks effect)[1].

Metodologia de Filtragem Adversária (AF)

A inovação central na criação do HellaSwag foi o método de Filtragem Adversária (Adversarial Filtering ou AF) — uma seleção iterativa de "armadilhas" projetadas para um modelo específico, considerado a "vítima". Esse método permitiu criar opções falsas que são enganosamente semelhantes às corretas do ponto de vista dos modelos estatísticos.

O esquema de funcionamento da AF é o seguinte:

  1. Geração. Com base no contexto inicial, um modelo de linguagem gerador (por exemplo, GPT) cria um grande número de possíveis finais incorretos.
  2. Discriminação. Um modelo classificador (por exemplo, BERT), atuando como a "vítima", tenta distinguir as continuações geradas da real (correta).
  3. Seleção. São selecionadas as opções falsas que o classificador considerou mais plausíveis, ou seja, aquelas em que ele teve a maior probabilidade de errar.
  4. Iteração. O processo é repetido várias vezes, até que as respostas falsas se tornem o mais semelhantes possível da correta para o algoritmo.
  5. Verificação humana. Na etapa final, os conjuntos resultantes (contexto + 1 final correto + 3 melhores finais falsos) são avaliados por humanos. Os avaliadores confirmam que a opção correta é inequivocamente a mais natural, enquanto todas as alternativas contêm alguma ilogicidade perceptível para uma pessoa[2].

Graças à AF, cada exemplo no HellaSwag é construído desde o início para enganar o modelo, mas permanecer transparente para um ser humano.

Resultados e importância

O HellaSwag tornou-se um teste rigoroso para modelos de compreensão de texto. Os resultados dos testes mostraram uma enorme lacuna entre a inteligência de máquina e a humana:

  • Um ser humano resolve as tarefas do HellaSwag quase sem erros, com uma precisão de cerca de 95-96%[2].
  • O melhor modelo na época de sua criação, o BERT-Large, alcançou apenas ~47% de precisão. Métodos mais simples apresentaram resultados pouco acima da adivinhação aleatória (25%)[2].

A diferença de mais de 45 pontos percentuais confirmou a hipótese de que as altas pontuações em testes anteriores não significavam uma compreensão real. O HellaSwag demonstrou que, mesmo após o treinamento em enormes volumes de dados, os modelos não conseguem desenvolver um senso comum geral para novas situações.

Nos anos seguintes, o HellaSwag tornou-se um dos testes padrão para novos modelos de linguagem. O progresso dos sistemas de IA pôde ser acompanhado por meio de seus resultados neste benchmark.

  • Em 2020, o modelo GPT-3 (175 bilhões de parâmetros) demonstrou uma precisão de ~79% no modo few-shot, superando o nível de muitos modelos especializados da época, mas ainda significativamente inferior ao desempenho humano[3].
  • Somente em 2023, modelos de nova geração, como o GPT-4, conseguiram alcançar um resultado no HellaSwag comparável ao desempenho humano (cerca de 95% de precisão)[4].

A criação do HellaSwag marcou uma nova abordagem na avaliação do progresso em PNL, baseada na ideia de benchmarks evolutivos: à medida que os modelos melhoram, é necessário criar testes novos e mais complexos para identificar seus pontos fracos.

Leitura adicional

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

  1. 1.0 1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
  2. 2.0 2.1 2.2 2.3 2.4 2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
  3. Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
  4. Zellers, R. et al. «HellaSwag Project Page». [4]