MMLU Benchmark — MMLU 基准测试

MMLU（Measuring Massive Multitask Language Understanding 的缩写）是一个基准测试任务集，旨在评估大型语言模型 (LLM)在广泛学科领域的能力。该基准测试由加州大学伯克利分校的 Dan Hendrycks 领导的研究团队于2020年开发，并于2021年在 ICLR 会议上发表^[1]。

MMLU 的目标是通过在零样本或少样本（zero/few-shot）模式下进行测试，来检验模型在预训练阶段所获得的多样化知识和技能的掌握程度，而无需进行额外的微调。MMLU 的创建是为了替代此前已有的测试（如 GLUE 和 SuperGLUE），因为到2020年，许多模型在这些测试上已经达到了人类水平，MMLU 则提供了更具挑战性的替代方案^[2]。

描述与内容

MMLU 包含 15,908 道多项选择题，涵盖 57 个不同学科。任务主题包括：

STEM 学科（数学、物理、生物学、计算机科学）。
人文与社会科学（历史、文学、法律、管理学）。
应用与专业领域（医学、法学、商业）^[1]。

题目的难度范围从小学水平到高级专业水平不等。这些问题基于学校、大学和专业考试（如 GRE 和 USMLE）的真实考试材料^[1]。题目格式为每道题四个选项，这意味着随机选择的准确率为 25%。为了取得高分，模型必须具备广泛的百科知识和推理能力。

结果与发展

2020年 MMLU 发布时，大多数 LLM 的表现仅略高于随机猜测。表现最好的是 GPT-3 模型（1750亿参数），取得了约 43.9% 的正确率。相比之下，人类专家的平均水平达到了约 90%^[1]。这一差距证实了该新基准测试的难度和高标准。

随着时间的推移，MMLU 成为最受欢迎的 LLM 测试之一，在顶尖 AI 公司的报告中获得了“黄金标准”的地位^[3]。到 2023-2024 年，最新的模型，如 GPT-4、谷歌的 Gemini Ultra 和 Anthropic 的 Claude 3.5，已接近人类水平，准确率达到约 85-90%^[2]^[3]。

快速的进展导致该基准测试逐渐“饱和”：顶尖模型的得分开始接近最高分，这降低了 MMLU 区分它们智能能力的作用。这激励了社区开发新的、更难的测试^[3]。

局限性与批评

尽管 MMLU 被广泛使用，但它也存在一些显著的局限性。

数据质量与正确性

2024年6月，研究人员对 MMLU 的 5700 个问题样本进行了手动分析，发现了大量错误^[4]。

MMLU 中约有 6.5% 的问题在标注或表述上存在错误。
在某些类别中，不正确任务的比例非常高。例如，在“病毒学”部分，57% 的任务存在错误（多个正确答案、不正确的表述或错误的参考答案）。

这意味着即使是完美的模型也无法在原始数据集上获得 100% 的分数，并且指标的部分提升可能与模型记住了数据集中的系统性错误有关^[4]。

评估方法与数据泄露

缺乏测试标准。不同的开发者可能会使用不同的提示和 few-shot 模式，这使得直接比较模型结果变得困难。
数据泄露（data contamination）。公共基准测试中的问题和答案存在被泄露到 LLM 训练集中的风险。在这种情况下，模型实际上“知道”正确答案，从而导致评估不公平^[3]。

衍生版本与扩展

为了解决原始 MMLU 的问题，已经创建了几个变体版本。

MMLU-Redux。2024年6月推出的修正和完善版数据集。它包含来自30个类别的3000个重新标注的问题，旨在更可靠地评估模型，避免因数据错误而产生偏差^[4]。
MMLU-Pro。2024年底推出的扩展和增强版测试。它包含超过12,000个问题，每道题提供10个选项而不是四个。这将随机猜测的概率降低到10%。这些问题经过专家审核，并包含了来自更复杂来源的新任务^[5]。
MMMLU（Multilingual MMLU）。由 OpenAI 于2023年发布的多语言版本。整个 MMLU 数据集由专业翻译人员翻译成14种语言，既包括常见语言（西班牙语、中文、俄语），也包括低资源语言（如约鲁巴语）。这使得在不同语言上评估和比较模型的能力成为可能^[6]。

链接

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
↑ ^2.0 ^2.1 «MMLU». In Wikipedia. [2]
↑ ^3.0 ^3.1 ^3.2 ^3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
↑ ^4.0 ^4.1 ^4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
↑ «MMLU Pro». Vals.ai, 2025. [5]
↑ «openai/MMMLU». Hugging Face Datasets. [6]

[mmlu_paper-1] 1.0 ^1.1 ^1.2 ^1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]

[mmlu_wiki-2] 2.0 ^2.1 «MMLU». In Wikipedia. [2]

[new_savanna_2024-3] 3.0 ^3.1 ^3.2 ^3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]

[done_with_mmlu_2024-4] 4.0 ^4.1 ^4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]

[mmlu_pro_vals_ai-5] «MMLU Pro». Vals.ai, 2025. [5]

[mmmlu_hf-6] «openai/MMMLU». Hugging Face Datasets. [6]

[1]

[2]

[3]

[4]

[5]

[6]

MMLU Benchmark — MMLU 基准测试

Contents

描述与内容

结果与发展

局限性与批评

数据质量与正确性

评估方法与数据泄露

衍生版本与扩展

链接

参考文献

注释

Navigation menu

MMLU Benchmark — MMLU 基准测试

描述与内容

结果与发展

局限性与批评

数据质量与正确性

评估方法与数据泄露

衍生版本与扩展

链接

参考文献

注释

Navigation menu

Search