HellaSwag Benchmark — HellaSwagベンチマーク

HellaSwagは、2019年に発表された、人工知能モデルが日常的な状況を理解する能力（常識推論、commonsense reasoning）を評価するためのベンチマーク（基準データセット）である^[1]。ワシントン大学とアレン人工知能研究所（AI2）の研究グループによって開発された。

HellaSwagのタスクは、与えられたテキストの文脈に対して、最も自然な結末を選ぶことである。このデータセットの主な特徴は、人間にとっては自明でありながら、表面的な統計的パターンに依存する高性能な言語モデルさえ惑わせる点にある^[2]。

歴史と背景

HellaSwagは、2018年に同じ著者グループが提案したデータセットSWAG（Situations With Adversarial Generations）の着想を発展させたものである。SWAGのタスクでは、モデルは簡単な状況記述に対して最も可能性の高い続きを選ぶ必要があった。当初、SWAGはアルゴリズムにとって難しかったが、BERTの登場によりSWAGでの成績は約86%に達し、人間の水準にほぼ並んだ^[2]。

この成功は、「BERTは本当にテキストを『理解』しているのか、それともデータセットに含まれる統計的なアーティファクトやパターンを認識することを学習しただけなのか」という疑問を呼んだ。HellaSwagの著者たちは、BERTの高い成績は真の理解によるものではなく、データセットの特性への過剰適合によるものだという仮説を立てた。そして、データ分布がわずかに変わるだけでBERTの精度が急激に低下することを示した。これは、NLPの進歩を客観的に評価するには、より新しく複雑で「意地悪な」ベンチマークが必要であることを意味していた^[2]。

データセットの概要と目的

HellaSwagは、現代のモデルが因果関係や日常的なシナリオを理解する際の限界を明らかにすることを目的としたテストとして作成された。

タスクの構造

HellaSwagの各例は、2つの部分から構成される。

コンテキスト（文脈）: ある状況の始まりを記述する短い段落（最大3文）。
4つの結末の選択肢: 物語の続きとして考えられる4つの選択肢。いずれも数文からなる。

これらの結末のうち、正しい（実際の）ものは1つだけで、残りの3つはモデルを惑わせるために意図的に生成された誤りの選択肢である。

データソース

状況の例は、幅広い日常シナリオをカバーする2つのソースから取得された。

ActivityNet Captions: 動画の行動記述（例：「人がキュウリの瓶を開ける」）。
WikiHow: 記事の手順説明（例：「車のタイヤを交換する方法」）。

HellaSwagの目標は、人間にとっては直感的に容易に解けるが、十分な常識を持たないモデルにとっては最大限に難しいベンチマークを作ることである。著者たちは、この最適な難易度の領域を「ゴルディロックス・ゾーン」（Goldilocks zone）と呼んだ^[1]。

Adversarial Filtering (AF) - 敵対的フィルタリング（AF）手法

HellaSwagを作成するうえでの重要な工夫が、Adversarial Filtering（AF、敵対的フィルタリング）という手法である。これは、特定の「ターゲット」モデルを狙った「罠」を反復的に選び出すプロセスである。この手法により、統計モデルから見ると正解と見分けがつきにくい、紛らわしい不正解の選択肢を作れるようになった。

AFの仕組みは次のとおりである。

生成: 元のコンテキストに基づき、生成言語モデル（例：GPT）が多数の不正解候補の結末を作る。
識別: 「ターゲット」となる分類モデル（例：BERT）が、生成された続きと実際の（正しい）続きを区別しようと試みる。
選択: 分類モデルが最ももっともらしいと判断した、すなわち最も誤りやすい不正解の選択肢が選ばれる。
反復: 不正解がアルゴリズムにとって正解とほとんど見分けがつかなくなるまで、この処理が何度も繰り返される。
人間による検証: 最終段階で、得られたセット（コンテキスト＋正解1つ＋厳選した不正解3つ）を人間が評価する。評価者は、正解の選択肢が明らかに最も自然であり、他のすべての選択肢には人間が気づける非論理性が含まれていることを確認する^[2]。

AFによって、HellaSwagの各例は、モデルを誤らせるように設計されつつも、人間にとっては明快なまま保たれるよう構成されている。

結果と意義

HellaSwagは、テキスト理解モデルにとって厳しい試練となった。結果は、機械の知能と人間の知能の間に大きな隔たりがあることを示した。

人間はHellaSwagのタスクをほぼ間違いなく解き、その精度は約95〜96%である^[2]。
作成時点で最高性能だったBERT-Largeは、わずか約47%の精度しか達成できなかった。より単純な手法では、ランダムな推測（25%）をわずかに上回る程度の結果しか得られなかった^[2]。

この45パーセントポイント以上の差は、以前のテストでの高いスコアが真の理解を意味していなかったという仮説を裏づけた。HellaSwagは、膨大なデータで学習した後でさえ、モデルが未知の状況に対する一般的な常識を身につけられないことを示した。

その後の数年間、HellaSwagは新しい言語モデルの標準的なテストの一つとなった。AIシステムの進歩は、このベンチマークでの成績によって追うことができた。

2020年、GPT-3（1750億パラメータ）はfew-shot設定で約79%の精度を示した。これは当時の多くの特化モデルの水準を上回ったが、依然として人間には大きく及ばなかった^[3]。
2023年になって初めて、GPT-4のような新世代のモデルがHellaSwagで人間と同等の結果（約95%の精度）を達成した^[4]。

HellaSwagの登場は、「進化するベンチマーク」という考え方に基づく、NLPの進歩を評価する新しいアプローチを示した。すなわち、モデルが改良されるにつれて、その弱点を明らかにするための、より新しく複雑なテストを作り続ける必要があるということである。

外部リンク

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

脚注

↑ ^1.0 ^1.1 Zellers, R. et al. "HellaSwag: Can a Machine Really Finish Your Sentence?". Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
↑ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830, 2019. [2]
↑ Brown, T. B. et al. "Language Models are Few-Shot Learners". arXiv:2005.14165, 2020. [3]
↑ Zellers, R. et al. "HellaSwag Project Page". [4]

[hellaswag_paper-1] 1.0 ^1.1 Zellers, R. et al. "HellaSwag: Can a Machine Really Finish Your Sentence?". Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]

[hellaswag_arxiv-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 Zellers, R. et al. "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830, 2019. [2]

[gpt3_paper-3] Brown, T. B. et al. "Language Models are Few-Shot Learners". arXiv:2005.14165, 2020. [3]

[hellaswag_official_site-4] Zellers, R. et al. "HellaSwag Project Page". [4]

[1]

[2]

[3]

[4]

HellaSwag Benchmark — HellaSwagベンチマーク

Contents

歴史と背景

データセットの概要と目的

タスクの構造

データソース

Adversarial Filtering (AF) - 敵対的フィルタリング（AF）手法

結果と意義

外部リンク

参考文献

脚注

Navigation menu

HellaSwag Benchmark — HellaSwagベンチマーク

歴史と背景

データセットの概要と目的

タスクの構造

データソース

Adversarial Filtering (AF) - 敵対的フィルタリング（AF）手法

結果と意義

外部リンク

参考文献

脚注

Navigation menu

Search