MMLU Benchmark — MMLUベンチマーク

MMLU（Measuring Massive Multitask Language Understandingの略）は、大規模言語モデル（LLM）の能力を幅広い分野にわたって評価するために設計された、タスクの標準セット（ベンチマーク）です。このベンチマークは、2020年にカリフォルニア大学バークレー校のダン・ヘンドリックス（Dan Hendrycks）が率いる研究チームによって開発され、2021年のICLR会議で発表されました^[1]。

MMLUの目的は、追加のファインチューニングを行わず、「ゼロショット」または「フューショット」（zero/few-shot）学習モードでテストすることにより、モデルが事前学習段階で習得した多様な知識とスキルをどの程度保持しているかを検証することです。MMLUは、GLUEやSuperGLUEといった既存のテストに代わる、より難易度の高い選択肢として作成されました。これらの既存テストでは、2020年までに多くのモデルがすでに人間レベルの性能に達していました^[2]。

概要と構成

MMLUは、57の異なる分野をカバーする15,908問の多肢選択問題で構成されています。課題のテーマは以下の通りです：

STEM分野（数学、物理学、生物学、情報科学）
人文科学および社会科学（歴史、文学、法学、経営学）
応用・専門分野（医学、法学、ビジネス）^[1]

難易度は小学校レベルから高度な専門家レベルまで様々です。問題は、学校、大学、GREやUSMLEなどの専門試験で実際に使用される試験資料に基づいています^[1]。課題の形式は、各問題に4つの選択肢があり、ランダムに選択した場合の正解率は25%です。高いスコアを達成するためには、モデルは広範な百科事典的知識と推論能力を備えている必要があります。

結果と発展

2020年にMMLUが発表された当初、ほとんどのLLMの成績はランダムな推測をわずかに上回る程度でした。最高の成績を示したのはGPT-3モデル（1750億パラメータ）で、正解率は約43.9%でした。比較として、人間の専門家は平均で約90%の正解率を達成していました^[1]。この差は、新しいベンチマークの難易度と高い基準を裏付けるものでした。

時を経て、MMLUはLLMにとって最も人気のあるテストの一つとなり、主要なAI企業のレポートで「ゴールドスタンダード」としての地位を確立しました^[3]。2023年から2024年にかけて、GPT-4、GoogleのGemini Ultra、AnthropicのClaude 3.5などの最新モデルは人間レベルに近づき、正解率約85〜90%に達しました^[2]^[3]。

急速な進歩は、ベンチマークの「飽和」を徐々に引き起こしました。主要なモデルが最大に近いスコアを達成するようになり、MMLUがモデルの知的能力を区別する能力が低下しました。これにより、コミュニティはより難易度の高い新しいテストの開発を推進するようになりました^[3]。

限界と批判

広く普及しているにもかかわらず、MMLUにはいくつかの重大な限界があります。

データの品質と正確性

2024年6月、研究者らがMMLUの5,700問のサンプルを手動で分析したところ、かなりの数の誤りが発見されました^[4]。

MMLUの全問題の約6.5%に、ラベル付けや表現の誤りが含まれています。
特定のカテゴリでは、不正確な問題の割合が非常に高くなっています。例えば、「ウイルス学」の分野では、問題の57%に誤り（複数の正解、不適切な表現、誤った正解ラベルなど）が含まれていました。

これは、理想的なモデルであっても元のデータセットで100%のスコアを達成することは不可能であり、メトリクスの改善の一部は、モデルがデータセットの体系的なエラーを記憶することによるものかもしれないことを意味します^[4]。

評価方法とデータ汚染

テスト基準の欠如。開発者ごとに異なるプロンプトやフューショット設定を使用する可能性があり、モデルの結果を直接比較することが困難です。
データ汚染（data contamination）。公開されているベンチマークの質問と回答がLLMの学習データセットに含まれてしまうリスクがあります。この場合、モデルは事実上正解を「知っている」ことになり、評価が不公正になります^[3]。

派生版と拡張

オリジナルのMMLUの問題点を解決するために、いくつかの派生版が作成されました。

MMLU-Redux。2024年6月に発表された、修正・改良版のデータセットです。30のカテゴリから3,000問の再ラベル付けされた問題が含まれており、データ内のエラーによる歪みのない、より信頼性の高いモデル評価を目的としています^[4]。
MMLU-Pro。2024年末に発表された、拡張・高難易度版のテストです。12,000問以上の問題が含まれ、各問題には4つではなく10個の選択肢が用意されています。これにより、ランダムな推測の確率が10%にまで下がります。問題は専門家によるレビューを経ており、より難易度の高い出典からの新しい課題も含まれています^[5]。
MMMLU（Multilingual MMLU）。2023年にOpenAIがリリースした多言語版です。MMLUの全データセットが、プロの翻訳者によって14言語（スペイン語、中国語、ロシア語などの普及言語から、ヨルバ語などの低リソース言語まで）に翻訳されました。これにより、異なる言語におけるモデルの能力を評価・比較することが可能になります^[6]。

外部リンク

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

脚注

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hendrycks, D. et al. "Measuring Massive Multitask Language Understanding". arXiv:2009.03300, 2021. [1]
↑ ^2.0 ^2.1 "MMLU". In Wikipedia. [2]
↑ ^3.0 ^3.1 ^3.2 ^3.3 "NEW SAVANNA: The AI industry lacks useful ways of measuring performance". New Savanna Blog, 2024. [3]
↑ ^4.0 ^4.1 ^4.2 Gema, A. P. et al. "Are We Done with MMLU?". arXiv:2406.04127, 2024. [4]
↑ "MMLU Pro". Vals.ai, 2025. [5]
↑ "openai/MMMLU". Hugging Face Datasets. [6]

[mmlu_paper-1] 1.0 ^1.1 ^1.2 ^1.3 Hendrycks, D. et al. "Measuring Massive Multitask Language Understanding". arXiv:2009.03300, 2021. [1]

[mmlu_wiki-2] 2.0 ^2.1 "MMLU". In Wikipedia. [2]

[new_savanna_2024-3] 3.0 ^3.1 ^3.2 ^3.3 "NEW SAVANNA: The AI industry lacks useful ways of measuring performance". New Savanna Blog, 2024. [3]

[done_with_mmlu_2024-4] 4.0 ^4.1 ^4.2 Gema, A. P. et al. "Are We Done with MMLU?". arXiv:2406.04127, 2024. [4]

[mmlu_pro_vals_ai-5] "MMLU Pro". Vals.ai, 2025. [5]

[mmmlu_hf-6] "openai/MMMLU". Hugging Face Datasets. [6]

[1]

[2]

[3]

[4]

[5]

[6]

MMLU Benchmark — MMLUベンチマーク

Contents

概要と構成

結果と発展

限界と批判

データの品質と正確性

評価方法とデータ汚染

派生版と拡張

外部リンク

参考文献

脚注

Navigation menu

MMLU Benchmark — MMLUベンチマーク

概要と構成

結果と発展

限界と批判

データの品質と正確性

評価方法とデータ汚染

派生版と拡張

外部リンク

参考文献

脚注

Navigation menu

Search