HellaSwag Benchmark — HellaSwagベンチマーク

HellaSwagは、2019年に発表された、自然言語における日常的な状況を理解する人工知能モデルの能力（commonsense reasoning、常識推論）を評価するための基準データセット（ベンチマーク）です^[1]。このベンチマークは、ワシントン大学とアレン人工知能研究所の研究者グループによって開発されました。

HellaSwagのタスクは、与えられたテキストの文脈に対して、最ももっともらしい結末を選択することです。このデータセットの主な特徴は、人間にとっては自明である一方で、表面的な統計的パターンに依存する高度な言語モデルさえも混乱させる点にあります^[2]。

歴史と背景

HellaSwagは、2018年に同じ著者グループによって提案されたデータセットSWAG（Situations With Adversarial Generations）のアイデアを発展させたものです。SWAGのタスクでは、モデルは簡単な状況記述に対して最も可能性の高い続きを選択する必要がありました。当初、SWAGはアルゴリズムにとって困難でしたが、BERTモデルの登場により、SWAGでの成績は約86%に達し、人間のレベルにほぼ並びました^[2]。

この成功は、「BERTは本当にテキストを『理解』しているのか、それともデータセットに存在する統計的なアーティファクトやパターンを認識することを学習しただけなのか」という疑問を生じさせました。HellaSwagの著者たちは、BERTの高い成績は真の理解によるものではなく、データセットの特性への過剰適合（チューニング）によるものだという仮説を立てました。彼らは、データ分布がわずかに変化するだけでBERTの精度が急激に低下することを示しました。これは、NLPの進歩を客観的に評価するためには、より新しく、より複雑で「意地悪な」ベンチマークが必要であることを意味していました^[2]。

データセットの概要と目的

HellaSwagは、現代のモデルが因果関係や日常的なシナリオを理解する上での限界を明らかにすることを目的としたテストとして作成されました。

タスクの構造

HellaSwagの各例は、2つの部分から構成されています：

コンテキスト（文脈）: ある状況の始まりを記述する短い段落（最大3文）。
4つの結末の選択肢: 物語の続きとして考えられる4つの選択肢。これらも数文で構成されます。

これらの結末のうち、正しい（実際の）ものは1つだけで、残りの3つはモデルを混乱させるために意図的に生成された偽のものです。

データソース

状況の例は、幅広い日常シナリオをカバーする2つのソースから取得されました：

ActivityNet Captions: 動画からの行動記述（例：「人がキュウリの瓶を開ける」）。
WikiHow: 記事からの手順説明（例：「車のタイヤを交換する方法」）。

HellaSwagの目標は、人間にとっては（直感的に）容易に解決できるが、完全な常識を持たないモデルにとってはタスクを最大限に困難にするベンチマークを作成することです。著者たちはこの効果を「ゴルディロックス効果」（Goldilocks effect）と名付けました^[1]。

Adversarial Filtering (AF) - 敵対的フィルタリング（AF）手法

HellaSwagを作成する上での重要な革新は、Adversarial Filtering（AF）という手法でした。これは、特定の「ターゲット」モデルを対象とした「罠」を反復的に選択するプロセスです。この手法により、統計モデルの観点からは正解と見分けがつきにくい、欺瞞的な不正解の選択肢を作成することが可能になりました。

AFの仕組みは以下の通りです：

生成。元のコンテキストに基づき、生成言語モデル（例：GPT）が多数の潜在的な不正解の結末を作成します。
識別。「ターゲット」となる分類モデル（例：BERT）が、生成された続きと実際の（正しい）続きを区別しようと試みます。
選択。分類モデルが最ももっともらしいと判断した、つまり、最も誤りやすい不正解の選択肢が選ばれます。
反復。不正解の回答がアルゴリズムにとって正解と最大限見分けがつかなくなるまで、このプロセスが何度も繰り返されます。
人間による検証。最終段階で、得られたセット（コンテキスト＋正解1つ＋最適な不正解3つ）が人間によって評価されます。評価者は、正解の選択肢が明確に最も自然であり、他のすべての選択肢には人間に認識できる非論理的な点が含まれていることを確認します^[2]。

AFのおかげで、HellaSwagの各例は、モデルを誤解させるように設計されつつも、人間にとっては明確なままであるように構成されています。

結果と意義

HellaSwagは、テキスト理解モデルにとって厳しい試練となりました。テストの結果は、機械知能と人間知能の間に大きな隔たりがあることを示しました：

人間はHellaSwagのタスクをほぼ間違いなく解決し、その精度は約95〜96%です^[2]。
作成時点で最高のモデルであったBERT-Largeは、わずか約47%の精度しか達成できませんでした。より単純な手法では、ランダムな推測（25%）をわずかに上回る結果しか得られませんでした^[2]。

45パーセントポイント以上のこの差は、以前のテストでの高いスコアが真の理解を意味するものではなかったという仮説を裏付けました。HellaSwagは、膨大なデータで学習した後でさえ、モデルが新しい状況に対する一般的な常識を身につけることができないことを示しました。

その後数年間、HellaSwagは新しい言語モデルの標準的なテストの一つとなりました。AIシステムの進歩は、このベンチマークでの成績によって追跡することができました。

2020年、GPT-3モデル（1750億パラメータ）はfew-shotモードで約79%の精度を示しました。これは当時の多くの特化モデルのレベルを上回りましたが、依然として人間には大きく劣っていました^[3]。
2023年になって初めて、GPT-4のような新世代モデルがHellaSwagで人間と同等の結果（約95%の精度）を達成することができました^[4]。

HellaSwagの創設は、進化するベンチマークという考え方に基づいた、NLPの進歩を評価するための新しいアプローチを示しました。つまり、モデルが改良されるにつれて、その弱点を明らかにするための、より新しく複雑なテストを作成する必要があるということです。

外部リンク

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注釈

↑ ^1.0 ^1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
↑ Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
↑ Zellers, R. et al. «HellaSwag Project Page». [4]

[hellaswag_paper-1] 1.0 ^1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]

[hellaswag_arxiv-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]

[gpt3_paper-3] Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]

[hellaswag_official_site-4] Zellers, R. et al. «HellaSwag Project Page». [4]

[1]

[2]

[3]

[4]

HellaSwag Benchmark — HellaSwagベンチマーク

Contents

歴史と背景

データセットの概要と目的

タスクの構造

データソース

Adversarial Filtering (AF) - 敵対的フィルタリング（AF）手法

結果と意義

外部リンク

参考文献

注釈

Navigation menu

HellaSwag Benchmark — HellaSwagベンチマーク

歴史と背景

データセットの概要と目的

タスクの構造

データソース

Adversarial Filtering (AF) - 敵対的フィルタリング（AF）手法

結果と意義

外部リンク

参考文献

注釈

Navigation menu

Search