WinoGrande Benchmark — WinoGrandeベンチマーク
WinoGrandeは、人工知能システムの常識推論能力を評価するために設計された大規模なベンチマークデータセットです。約44,000のタスクを含んでおり、これらはWinograd Schema Challenge (WSC) の形式に基づいていますが、「敵対的」なフィルタリング手法を用いて統計的な手がかりを排除することで、大幅に拡張および複雑化されています[1]。
このデータセットは、2019年にAllen Institute for AIとワシントン大学の研究者グループによって開発されました。各タスクは、文脈と状況の理解に基づいて2つの選択肢から正しいものを選び、空欄を埋める形式の問題です。WinoGrandeは、自然言語処理(NLP)の分野における主要なベンチマークの一つとなりました[2]。
作成の背景:WSCの陳腐化
2011年に提案されたオリジナルのWinograd Schema Challenge(WSC)は、わずか273のタスクしか含んでおらず、長らく常識を測る信頼性の高いテストと見なされていました。そのタスクは、単なる単語のマッチングではなく、世界の理解を要求するように設計されていました[3]。
しかし、2018年から2019年にかけて、BERTのようなトランスフォーマーアーキテクチャに基づく大規模言語モデルの登場により、状況は一変しました。モデルは、真の理解ではなく、データ内の意図しない統計的パターン(アーティファクト)を利用することで、約90%の精度を達成し、テストを「攻略」するようになりました[4]。WSCはもはや信頼できる指標ではなくなり、これが、より複雑で大規模な新しいベンチマークであるWinoGrandeの作成につながりました。
Development and adversarial filtering method - 開発と敵対的フィルタリング手法
WinoGrandeの作成は、主に2つの段階で行われました:タスクの大量生成とその後のフィルタリングです。
クラウドソーシング
最初の段階では、Amazon Mechanical Turkプラットフォームを利用して、47,000以上の文からなる大規模なデータベースが収集されました。クラウドワーカーはWinogradスキーマに従って文のペアを作成しました。これにより、少数の専門家によって作成されたタスクとは異なり、自然な会話に特有の言語的多様性と「ノイズ」が確保されました[1]。
AfLite algorithm - AfLiteアルゴリズム
WinoGrandeの主要な革新点は、AfLite(Adversarial Filtering Lite)アルゴリズムです。この手法は、常識を必要とせず、単純な統計的手がかりで解決できてしまうタスクを自動的に除外するために開発されました。アルゴリズムは、単純なモデルを用いて、選択肢の一方が文中の他の単語とあまりにも明白に関連している例を特定し、削除しました。 例えば、「ライオンはシマウマを食べた。なぜなら彼らは捕食者だからだ」というタスクは、「捕食者」という単語が統計的に「ライオン」と強く関連しているため、フィルタリングされます。
フィルタリングの結果、収集されたデータの約14%が破棄されました。データセットの最終版には43,972個のタスクが含まれており、これにより、はるかに信頼性が高く、困難なテストとなっています[1]。
モデルの性能と進展
WinoGrandeが公開された当時、最先端のモデルは人間よりも大幅に低い性能しか示せませんでした。
- RoBERTa(BERTの改良版)は、精度約79%を達成しました。
- 人間は平均して約94%の精度でタスクを解決します[1]。
この差は、AfLiteフィルタリングがモデルにとっての多くの「簡単な」解決策を効果的に排除したことを裏付けました。しかし、LLMの発展に伴い、この差は縮まり始めました。
- 2022年までに、モデルST-MoE-32Bは96.1%の精度を達成し、人間レベルを超えました[5]。
- GPT-3は、約88%のスコアを示しました[6]。
- GPT-4は、特別なファインチューニングなしで、約87.5%の精度でタスクを解決します[7]。
影響と批判
WinoGrandeは常識を評価するための主要なベンチマークの一つとなり、新しいモデルのテストに定期的に使用されています。その結果は、主要なAI企業の技術報告書やモデル比較プラットフォームで公開されています[8]。
同時に、データセットの作成手法は科学的な議論の対象となりました。一部の研究者は、大規模なクラウドソーシングが不自然または曖昧なフレーズを生み出す可能性があったと指摘しています。また、AfLiteによる自動フィルタリングが、すべての隠れたアーティファクトを完全に排除できるかについても疑問が呈されました[5]。とはいえ、WinoGrandeは指標の向上だけでなく、AIの評価におけるより堅牢で信頼性の高い手法の創出に関する重要な議論を促進しました。
外部リンク
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
脚注
- ↑ 1.0 1.1 1.2 1.3 Sakaguchi, K., Le Bras, R., Bhagavatula, C., Choi, Y. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv:1907.10641. [1]
- ↑ «allenai/winogrande». Hugging Face. [2]
- ↑ «Winograd schema challenge». In Wikipedia. [3]
- ↑ Kocijan, V. et al. «The defeat of the Winograd Schema Challenge». Artificial Intelligence. [4]
- ↑ 5.0 5.1 Lepore, J. «AI Has Been Surprising for Years». Carnegie Endowment for International Peace. [5]
- ↑ Brown, T. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165. [6]
- ↑ OpenAI. «GPT-4 Technical Report». arXiv:2303.08774. [7]
- ↑ «Common Sense Reasoning On Winogrande». HyperAI. [8]