GLUE Benchmark — GLUEベンチマーク

GLUE（General Language Understanding Evaluation、「一般言語理解評価」のアクロニム）は、自然言語理解（NLU）モデルの品質を評価するためのマルチタスクベンチマークです。このベンチマークは、2018年にニューヨーク大学、ワシントン大学、DeepMindの研究者グループ（アレックス・ワン、サミュエル・ボウマンなど）によって提案され、研究コミュニティで広く採用されました^[1]。

GLUEの主な目的は、単一の特定分野にとどまらない多様なタスクセットでNLUモデルの能力を比較評価するため、統一され、中立的で、挑戦的なテストスイートを提供することです。このベンチマークにはリーダーボード（ランキング表）を備えたオンラインプラットフォームが含まれており、一部のテストの正解ラベルが公開されず、評価サーバーを介してのみ利用可能であるため、テストデータに対する過剰適合を防ぎ、モデルの客観的な比較を保証します。高いスコアを達成するためには、モデルが普遍的な言語表現を抽出し、異なる種類のタスク間で知識を効果的に転移させる能力を持つ必要があると想定されています。

ベンチマークの構成とタスク

GLUEベンチマークは、既存のAIにとって困難なデータセットに基づいた、9つの異なる言語理解タスクを統合しています。すべてのタスクは、単一の文または文のペアに対する分類問題または回帰問題として形式化されています^[1]。

CoLA（Corpus of Linguistic Acceptability） — 文の文法的な許容性を判断するタスク。評価指標はマシューズ相関係数。
SST-2（Stanford Sentiment Treebank） — 映画レビューの感情（肯定的/否定的）を判断するタスク。指標は正解率（accuracy）。
MRPC（Microsoft Research Paraphrase Corpus） — ニュースソースからの文ペアにおける言い換えを検出するタスク。指標は正解率とF1スコア。
QQP（Quora Question Pairs） — Quoraコミュニティからの質問ペアが重複しているかを判断するタスク。指標は正解率とF1スコア。
STS-B（Semantic Textual Similarity Benchmark） — 2つの文の意味的類似性を評価するタスク。モデルは1から5のスケールで意味的な近さの度合いを予測する必要があります。指標はピアソン相関係数とスピアマン相関係数。
MNLI（Multi-Genre Natural Language Inference） — 多ジャンルのソースからの文ペアにおける含意関係認識タスク（含意、矛盾、中立）。結果は、ジャンルが一致する（matched）サブセットと一致しない（mismatched）サブセットで別々に評価されます。
QNLI（Question Natural Language Inference） — SQuADデータセットを変換して作られたタスク。段落中の文が、与えられた質問への答えを含んでいるかを判断する必要があります。
RTE（Recognizing Textual Entailment） — 複数の小規模なデータセットを統合した含意関係認識データセット。文間の関係を二値分類するタスクです。
WNLI（Winograd NLI） — ウィノグラード・スキーマをNLI形式に適合させた改良版。照応解析のタスクです。システムには曖昧な代名詞を含む文が与えられ、それが2つの対象のうちどちらを指しているかを示す必要があります。

評価方法

GLUEでの評価のために、研究者はモデルの予測を専用サーバーに送信し、その後、各タスクの指標と総合スコアが自動的に計算されます。

GLUEスコア — 9つの主要タスクすべての結果の平均値として計算される最終的な指標です。
リーダーボード — 現状を反映し、どのモデルがNLUタスクに優れているかを示す公開テーブルです。非公開のテストセットを使用することで、公正な比較が保証されます。
診断データセット — 専門家によって手動で注釈付けされた1100の例からなる特別なデータセットで、詳細な言語学的分析を目的としています。これはランキングには影響せず、モデルがどのような言語現象（語彙的意味論、論理、常識）を認識でき、どのような点で困難を抱えているかを検証するための定性的分析ツールとして機能します^[1]。

結果と業界への影響

2018年にGLUEが開始された当時、最高のモデル（例：BiLSTMとELMo）は総合スコアが約70ポイント（0～100点満点）であり、これは人間のスコア（約87ポイント）を大幅に下回っていました^[2]。

GLUEと公開リーダーボードの登場は、NLPにおける転移学習の分野で急速な進歩を促しました。

2019年5月までには、1年足らずで、Transformerベースの新世代モデル（特にBERT）が最先端（state-of-the-art）のスコアを83.9ポイントにまで引き上げました。
2019年後半には、GLUEベンチマークは事実上「クリア」されました。最高のシステムが人間のレベルに肉薄し、一部のタスクでは人間を上回りました^[3]。

GLUEは、言語理解モデルの開発における共通の基準点として非常に大きな役割を果たしました。これにより、研究者たちは複雑なタスクセット上でさまざまなアーキテクチャを直接比較し、アプローチの長所と短所を特定し、公開リーダーボードを通じて成果を迅速に共有することができました。

SuperGLUE: その後の発展

GLUEの急速な成功を受け、1年後には同じ著者グループがFacebook AIの協力者と共に、SuperGLUEと名付けられた新しい、より困難なベンチマークを発表しました^[4]。

SuperGLUEは2019年末に、「より粘着性の高い」（stickier）テストセットとして発表され、当時の最新モデルと人間の能力との間に再び差を生み出すことを目的としていました。これには、より深い言語理解を必要とする8つのタスクが含まれており、ツールキットや参加者向けのルールも改善されました。GLUEは依然として基本的なテストとして使用されていますが、競争的な改善の主要な焦点はSuperGLUEや他のより専門的なベンチマークへと移りました。

外部リンク

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

脚注

↑ ^1.0 ^1.1 ^1.2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]
↑ Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]
↑ Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]
↑ «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]

[glue_paper-1] 1.0 ^1.1 ^1.2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]

[human_vs_muppet-2] Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]

[w4ngatang_superglue-3] Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]

[venturebeat_superglue-4] «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]

[1]

[2]

[3]

[4]

GLUE Benchmark — GLUEベンチマーク

Contents

ベンチマークの構成とタスク

評価方法

結果と業界への影響

SuperGLUE: その後の発展

外部リンク

参考文献

脚注

Navigation menu

GLUE Benchmark — GLUEベンチマーク

ベンチマークの構成とタスク

評価方法

結果と業界への影響

SuperGLUE: その後の発展

外部リンク

参考文献

脚注

Navigation menu

Search