HellaSwag benchmark

HellaSwag — это эталонный набор данных (бенчмарк), представленный в 2019 году для оценки способности моделей искусственного интеллекта к пониманию повседневных ситуаций (commonsense reasoning) на естественном языке^[1]. Бенчмарк был разработан группой исследователей из Вашингтонского университета и Институт искусственного интеллекта Аллена.

Задача HellaSwag заключается в выборе наиболее правдоподобного завершения для заданного текстового контекста. Ключевая особенность набора данных состоит в том, что он тривиален для человека, но ставит в тупик даже продвинутые языковые модели, которые полагаются на поверхностные статистические закономерности^[2].

История и предпосылки

HellaSwag является развитием идей датасета SWAG (Situations With Adversarial Generations), предложенного той же группой авторов в 2018 году. В задаче SWAG моделям требовалось выбрать наиболее вероятное продолжение для описания простой ситуации. Изначально SWAG был сложен для алгоритмов, но с появлением модели BERT её результаты на SWAG достигли уровня ~86%, практически сравнявшись с человеческими^[2].

Этот успех породил сомнения: действительно ли BERT «понимает» текст, или же он просто научился распознавать статистические артефакты и шаблоны, присутствующие в наборе данных? Авторы HellaSwag выдвинули гипотезу, что высокий результат BERT объясняется не истинным пониманием, а подгонкой под специфику датасета. Они показали, что при малейшем изменении распределения данных точность BERT резко падает. Это означало, что для объективной оценки прогресса в NLP нужен новый, более сложный и «каверзный» бенчмарк^[2].

Описание и цели датасета

HellaSwag был создан как тест, призванный выявить ограничения современных моделей в понимании причинно-следственных связей и бытовых сценариев.

Структура задачи

Каждый пример в HellaSwag состоит из двух частей:

Контекст: Короткий абзац (до трёх предложений), описывающий начало некоторой ситуации.
Четыре варианта завершения: Четыре возможных продолжения истории, также состоящие из нескольких предложений.

Только одно из этих завершений является правильным (реальным), а остальные три — ложными, сгенерированными специально для того, чтобы запутать модель.

Источники данных

Примеры ситуаций были взяты из двух источников, охватывающих широкий спектр повседневных сценариев:

ActivityNet Captions: Описания действий из видеороликов (например, «человек открывает банку с огурцами»).
WikiHow: Инструкции из статей (например, «как поменять колесо на автомобиле»).

Цель HellaSwag — создать бенчмарк, который легко решается человеком (интуитивно), но максимально затрудняет задачу для моделей, которые не обладают полноценным здравым смыслом. Этот эффект авторы назвали «эффектом Златовласки» (Goldilocks effect)^[1].

Методика Adversarial Filtering (AF)

Ключевой инновацией при создании HellaSwag стал метод Adversarial Filtering (AF) — итеративный отбор «ловушек», предназначенных для конкретной модели-«жертвы». Этот метод позволил создать ложные варианты, которые обманчиво похожи на правильные с точки зрения статистических моделей.

Схема работы AF выглядит следующим образом:

Генерация. На основе исходного контекста языковая модель-генератор (например, GPT) создаёт множество потенциальных неправильных концовок.
Дискриминация. Модель-классификатор (например, BERT), выступающая в роли «жертвы», пытается отличить сгенерированные продолжения от реального (правильного).
Отбор. Отбираются те ложные варианты, которые классификатор посчитал наиболее правдоподобными, то есть те, на которых он с наибольшей вероятностью ошибся.
Итерация. Процесс повторяется многократно, пока ложные ответы не становятся максимально похожими на правильный для алгоритма.
Верификация человеком. На финальном этапе полученные наборы (контекст + 1 правильная концовка + 3 лучшие ложные) оцениваются людьми. Оценщики подтверждают, что правильный вариант однозначно является наиболее естественным, а все альтернативы содержат какую-либо нелогичность, заметную человеку^[2].

Благодаря AF, каждый пример в HellaSwag изначально сконструирован так, чтобы ввести модель в заблуждение, но при этом остаться прозрачным для человека.

Результаты и значение

HellaSwag стал строгим испытанием для моделей понимания текста. Результаты тестирования показали огромный разрыв между машинным и человеческим интеллектом:

Человек решает задачи HellaSwag практически безошибочно, с точностью около 95-96%^[2].
Лучшая на момент создания модель, BERT-Large, достигла лишь ~47% точности. Более простые методы показывали результат ненамного выше случайного угадывания (25%)^[2].

Разрыв более чем в 45 процентных пунктов подтвердил гипотезу о том, что высокие показатели на предыдущих тестах не означали реального понимания. HellaSwag продемонстрировал, что даже после обучения на огромных объёмах данных модели не могут выработать общий здравый смысл для новых ситуаций.

В последующие годы HellaSwag вошёл в число стандартных тестов для новых языковых моделей. Прогресс AI-систем можно было отслеживать по их результатам на этом бенчмарке.

В 2020 году модель GPT-3 (175 млрд параметров) показала точность ~79% в режиме few-shot, что превысило уровень многих специализированных моделей того периода, но всё ещё значительно уступало человеку^[3].
Лишь в 2023 году модели нового поколения, такие как GPT-4, смогли достичь на HellaSwag результата, сопоставимого с человеческим (около 95% точности)^[4].

Создание HellaSwag обозначило новый подход к оценке прогресса в NLP, основанный на идее эволюционирующих бенчмарков: по мере того как модели совершенствуются, необходимо создавать новые, более сложные тесты, выявляющие их слабые места.

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,0 ^1,1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
↑ Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
↑ Zellers, R. et al. «HellaSwag Project Page». [4]

[hellaswag_paper-1] 1,0 ^1,1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]

[hellaswag_arxiv-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]

[gpt3_paper-3] Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]

[hellaswag_official_site-4] Zellers, R. et al. «HellaSwag Project Page». [4]

[1]

[2]

[3]

[4]

HellaSwag benchmark

Содержание

История и предпосылки

Описание и цели датасета

Структура задачи

Источники данных

Методика Adversarial Filtering (AF)

Результаты и значение

Ссылки

Литература

Примечания

Навигация

HellaSwag benchmark

История и предпосылки

Описание и цели датасета

Структура задачи

Источники данных

Методика Adversarial Filtering (AF)

Результаты и значение

Ссылки

Литература

Примечания

Навигация

Поиск