HellaSwag benchmark

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

HellaSwag — это эталонный набор данных (бенчмарк), представленный в 2019 году для оценки способности моделей искусственного интеллекта к пониманию повседневных ситуаций (commonsense reasoning) на естественном языке[1]. Бенчмарк был разработан группой исследователей из Вашингтонского университета и Институт искусственного интеллекта Аллена.

Задача HellaSwag заключается в выборе наиболее правдоподобного завершения для заданного текстового контекста. Ключевая особенность набора данных состоит в том, что он тривиален для человека, но ставит в тупик даже продвинутые языковые модели, которые полагаются на поверхностные статистические закономерности[2].

История и предпосылки

HellaSwag является развитием идей датасета SWAG (Situations With Adversarial Generations), предложенного той же группой авторов в 2018 году. В задаче SWAG моделям требовалось выбрать наиболее вероятное продолжение для описания простой ситуации. Изначально SWAG был сложен для алгоритмов, но с появлением модели BERT её результаты на SWAG достигли уровня ~86%, практически сравнявшись с человеческими[2].

Этот успех породил сомнения: действительно ли BERT «понимает» текст, или же он просто научился распознавать статистические артефакты и шаблоны, присутствующие в наборе данных? Авторы HellaSwag выдвинули гипотезу, что высокий результат BERT объясняется не истинным пониманием, а подгонкой под специфику датасета. Они показали, что при малейшем изменении распределения данных точность BERT резко падает. Это означало, что для объективной оценки прогресса в NLP нужен новый, более сложный и «каверзный» бенчмарк[2].

Описание и цели датасета

HellaSwag был создан как тест, призванный выявить ограничения современных моделей в понимании причинно-следственных связей и бытовых сценариев.

Структура задачи

Каждый пример в HellaSwag состоит из двух частей:

  1. Контекст: Короткий абзац (до трёх предложений), описывающий начало некоторой ситуации.
  2. Четыре варианта завершения: Четыре возможных продолжения истории, также состоящие из нескольких предложений.

Только одно из этих завершений является правильным (реальным), а остальные три — ложными, сгенерированными специально для того, чтобы запутать модель.

Источники данных

Примеры ситуаций были взяты из двух источников, охватывающих широкий спектр повседневных сценариев:

  • ActivityNet Captions: Описания действий из видеороликов (например, «человек открывает банку с огурцами»).
  • WikiHow: Инструкции из статей (например, «как поменять колесо на автомобиле»).

Цель HellaSwag — создать бенчмарк, который легко решается человеком (интуитивно), но максимально затрудняет задачу для моделей, которые не обладают полноценным здравым смыслом. Этот эффект авторы назвали «эффектом Златовласки» (Goldilocks effect)[1].

Методика Adversarial Filtering (AF)

Ключевой инновацией при создании HellaSwag стал метод Adversarial Filtering (AF) — итеративный отбор «ловушек», предназначенных для конкретной модели-«жертвы». Этот метод позволил создать ложные варианты, которые обманчиво похожи на правильные с точки зрения статистических моделей.

Схема работы AF выглядит следующим образом:

  1. Генерация. На основе исходного контекста языковая модель-генератор (например, GPT) создаёт множество потенциальных неправильных концовок.
  2. Дискриминация. Модель-классификатор (например, BERT), выступающая в роли «жертвы», пытается отличить сгенерированные продолжения от реального (правильного).
  3. Отбор. Отбираются те ложные варианты, которые классификатор посчитал наиболее правдоподобными, то есть те, на которых он с наибольшей вероятностью ошибся.
  4. Итерация. Процесс повторяется многократно, пока ложные ответы не становятся максимально похожими на правильный для алгоритма.
  5. Верификация человеком. На финальном этапе полученные наборы (контекст + 1 правильная концовка + 3 лучшие ложные) оцениваются людьми. Оценщики подтверждают, что правильный вариант однозначно является наиболее естественным, а все альтернативы содержат какую-либо нелогичность, заметную человеку[2].

Благодаря AF, каждый пример в HellaSwag изначально сконструирован так, чтобы ввести модель в заблуждение, но при этом остаться прозрачным для человека.

Результаты и значение

HellaSwag стал строгим испытанием для моделей понимания текста. Результаты тестирования показали огромный разрыв между машинным и человеческим интеллектом:

  • Человек решает задачи HellaSwag практически безошибочно, с точностью около 95-96%[2].
  • Лучшая на момент создания модель, BERT-Large, достигла лишь ~47% точности. Более простые методы показывали результат ненамного выше случайного угадывания (25%)[2].

Разрыв более чем в 45 процентных пунктов подтвердил гипотезу о том, что высокие показатели на предыдущих тестах не означали реального понимания. HellaSwag продемонстрировал, что даже после обучения на огромных объёмах данных модели не могут выработать общий здравый смысл для новых ситуаций.

В последующие годы HellaSwag вошёл в число стандартных тестов для новых языковых моделей. Прогресс AI-систем можно было отслеживать по их результатам на этом бенчмарке.

  • В 2020 году модель GPT-3 (175 млрд параметров) показала точность ~79% в режиме few-shot, что превысило уровень многих специализированных моделей того периода, но всё ещё значительно уступало человеку[3].
  • Лишь в 2023 году модели нового поколения, такие как GPT-4, смогли достичь на HellaSwag результата, сопоставимого с человеческим (около 95% точности)[4].

Создание HellaSwag обозначило новый подход к оценке прогресса в NLP, основанный на идее эволюционирующих бенчмарков: по мере того как модели совершенствуются, необходимо создавать новые, более сложные тесты, выявляющие их слабые места.

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. 1,0 1,1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
  2. 2,0 2,1 2,2 2,3 2,4 2,5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
  3. Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
  4. Zellers, R. et al. «HellaSwag Project Page». [4]