HellaSwag benchmark
HellaSwag — это эталонный набор данных (бенчмарк), представленный в 2019 году для оценки способности моделей искусственного интеллекта к пониманию повседневных ситуаций (commonsense reasoning) на естественном языке[1]. Бенчмарк был разработан группой исследователей из Вашингтонского университета и Институт искусственного интеллекта Аллена.
Задача HellaSwag заключается в выборе наиболее правдоподобного завершения для заданного текстового контекста. Ключевая особенность набора данных состоит в том, что он тривиален для человека, но ставит в тупик даже продвинутые языковые модели, которые полагаются на поверхностные статистические закономерности[2].
История и предпосылки
HellaSwag является развитием идей датасета SWAG (Situations With Adversarial Generations), предложенного той же группой авторов в 2018 году. В задаче SWAG моделям требовалось выбрать наиболее вероятное продолжение для описания простой ситуации. Изначально SWAG был сложен для алгоритмов, но с появлением модели BERT её результаты на SWAG достигли уровня ~86%, практически сравнявшись с человеческими[2].
Этот успех породил сомнения: действительно ли BERT «понимает» текст, или же он просто научился распознавать статистические артефакты и шаблоны, присутствующие в наборе данных? Авторы HellaSwag выдвинули гипотезу, что высокий результат BERT объясняется не истинным пониманием, а подгонкой под специфику датасета. Они показали, что при малейшем изменении распределения данных точность BERT резко падает. Это означало, что для объективной оценки прогресса в NLP нужен новый, более сложный и «каверзный» бенчмарк[2].
Описание и цели датасета
HellaSwag был создан как тест, призванный выявить ограничения современных моделей в понимании причинно-следственных связей и бытовых сценариев.
Структура задачи
Каждый пример в HellaSwag состоит из двух частей:
- Контекст: Короткий абзац (до трёх предложений), описывающий начало некоторой ситуации.
- Четыре варианта завершения: Четыре возможных продолжения истории, также состоящие из нескольких предложений.
Только одно из этих завершений является правильным (реальным), а остальные три — ложными, сгенерированными специально для того, чтобы запутать модель.
Источники данных
Примеры ситуаций были взяты из двух источников, охватывающих широкий спектр повседневных сценариев:
- ActivityNet Captions: Описания действий из видеороликов (например, «человек открывает банку с огурцами»).
- WikiHow: Инструкции из статей (например, «как поменять колесо на автомобиле»).
Цель HellaSwag — создать бенчмарк, который легко решается человеком (интуитивно), но максимально затрудняет задачу для моделей, которые не обладают полноценным здравым смыслом. Этот эффект авторы назвали «эффектом Златовласки» (Goldilocks effect)[1].
Методика Adversarial Filtering (AF)
Ключевой инновацией при создании HellaSwag стал метод Adversarial Filtering (AF) — итеративный отбор «ловушек», предназначенных для конкретной модели-«жертвы». Этот метод позволил создать ложные варианты, которые обманчиво похожи на правильные с точки зрения статистических моделей.
Схема работы AF выглядит следующим образом:
- Генерация. На основе исходного контекста языковая модель-генератор (например, GPT) создаёт множество потенциальных неправильных концовок.
- Дискриминация. Модель-классификатор (например, BERT), выступающая в роли «жертвы», пытается отличить сгенерированные продолжения от реального (правильного).
- Отбор. Отбираются те ложные варианты, которые классификатор посчитал наиболее правдоподобными, то есть те, на которых он с наибольшей вероятностью ошибся.
- Итерация. Процесс повторяется многократно, пока ложные ответы не становятся максимально похожими на правильный для алгоритма.
- Верификация человеком. На финальном этапе полученные наборы (контекст + 1 правильная концовка + 3 лучшие ложные) оцениваются людьми. Оценщики подтверждают, что правильный вариант однозначно является наиболее естественным, а все альтернативы содержат какую-либо нелогичность, заметную человеку[2].
Благодаря AF, каждый пример в HellaSwag изначально сконструирован так, чтобы ввести модель в заблуждение, но при этом остаться прозрачным для человека.
Результаты и значение
HellaSwag стал строгим испытанием для моделей понимания текста. Результаты тестирования показали огромный разрыв между машинным и человеческим интеллектом:
- Человек решает задачи HellaSwag практически безошибочно, с точностью около 95-96%[2].
- Лучшая на момент создания модель, BERT-Large, достигла лишь ~47% точности. Более простые методы показывали результат ненамного выше случайного угадывания (25%)[2].
Разрыв более чем в 45 процентных пунктов подтвердил гипотезу о том, что высокие показатели на предыдущих тестах не означали реального понимания. HellaSwag продемонстрировал, что даже после обучения на огромных объёмах данных модели не могут выработать общий здравый смысл для новых ситуаций.
В последующие годы HellaSwag вошёл в число стандартных тестов для новых языковых моделей. Прогресс AI-систем можно было отслеживать по их результатам на этом бенчмарке.
- В 2020 году модель GPT-3 (175 млрд параметров) показала точность ~79% в режиме few-shot, что превысило уровень многих специализированных моделей того периода, но всё ещё значительно уступало человеку[3].
- Лишь в 2023 году модели нового поколения, такие как GPT-4, смогли достичь на HellaSwag результата, сопоставимого с человеческим (около 95% точности)[4].
Создание HellaSwag обозначило новый подход к оценке прогресса в NLP, основанный на идее эволюционирующих бенчмарков: по мере того как модели совершенствуются, необходимо создавать новые, более сложные тесты, выявляющие их слабые места.
Ссылки
- Официальный сайт проекта HellaSwag
- Научная статья «HellaSwag: Can a Machine Really Finish Your Sentence?»
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
- ↑ 2,0 2,1 2,2 2,3 2,4 2,5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
- ↑ Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
- ↑ Zellers, R. et al. «HellaSwag Project Page». [4]