MMLU Benchmark — MMLU 基准测试
MMLU(Measuring Massive Multitask Language Understanding 的缩写)是一个基准测试任务集,旨在评估大型语言模型 (LLM)在广泛学科领域的能力。该基准测试由加州大学伯克利分校的 Dan Hendrycks 领导的研究团队于2020年开发,并于2021年在 ICLR 会议上发表[1]。
MMLU 的目标是通过在零样本或少样本(zero/few-shot)模式下进行测试,来检验模型在预训练阶段所获得的多样化知识和技能的掌握程度,而无需进行额外的微调。MMLU 的创建是为了替代此前已有的测试(如 GLUE 和 SuperGLUE),因为到2020年,许多模型在这些测试上已经达到了人类水平,MMLU 则提供了更具挑战性的替代方案[2]。
描述与内容
MMLU 包含 15,908 道多项选择题,涵盖 57 个不同学科。任务主题包括:
- STEM 学科(数学、物理、生物学、计算机科学)。
- 人文与社会科学(历史、文学、法律、管理学)。
- 应用与专业领域(医学、法学、商业)[1]。
题目的难度范围从小学水平到高级专业水平不等。这些问题基于学校、大学和专业考试(如 GRE 和 USMLE)的真实考试材料[1]。题目格式为每道题四个选项,这意味着随机选择的准确率为 25%。为了取得高分,模型必须具备广泛的百科知识和推理能力。
结果与发展
2020年 MMLU 发布时,大多数 LLM 的表现仅略高于随机猜测。表现最好的是 GPT-3 模型(1750亿参数),取得了约 43.9% 的正确率。相比之下,人类专家的平均水平达到了约 90%[1]。这一差距证实了该新基准测试的难度和高标准。
随着时间的推移,MMLU 成为最受欢迎的 LLM 测试之一,在顶尖 AI 公司的报告中获得了“黄金标准”的地位[3]。到 2023-2024 年,最新的模型,如 GPT-4、谷歌的 Gemini Ultra 和 Anthropic 的 Claude 3.5,已接近人类水平,准确率达到约 85-90%[2][3]。
快速的进展导致该基准测试逐渐“饱和”:顶尖模型的得分开始接近最高分,这降低了 MMLU 区分它们智能能力的作用。这激励了社区开发新的、更难的测试[3]。
局限性与批评
尽管 MMLU 被广泛使用,但它也存在一些显著的局限性。
数据质量与正确性
2024年6月,研究人员对 MMLU 的 5700 个问题样本进行了手动分析,发现了大量错误[4]。
- MMLU 中约有 6.5% 的问题在标注或表述上存在错误。
- 在某些类别中,不正确任务的比例非常高。例如,在“病毒学”部分,57% 的任务存在错误(多个正确答案、不正确的表述或错误的参考答案)。
这意味着即使是完美的模型也无法在原始数据集上获得 100% 的分数,并且指标的部分提升可能与模型记住了数据集中的系统性错误有关[4]。
评估方法与数据泄露
- 缺乏测试标准。不同的开发者可能会使用不同的提示和 few-shot 模式,这使得直接比较模型结果变得困难。
- 数据泄露(data contamination)。公共基准测试中的问题和答案存在被泄露到 LLM 训练集中的风险。在这种情况下,模型实际上“知道”正确答案,从而导致评估不公平[3]。
衍生版本与扩展
为了解决原始 MMLU 的问题,已经创建了几个变体版本。
- MMLU-Redux。2024年6月推出的修正和完善版数据集。它包含来自30个类别的3000个重新标注的问题,旨在更可靠地评估模型,避免因数据错误而产生偏差[4]。
- MMLU-Pro。2024年底推出的扩展和增强版测试。它包含超过12,000个问题,每道题提供10个选项而不是四个。这将随机猜测的概率降低到10%。这些问题经过专家审核,并包含了来自更复杂来源的新任务[5]。
- MMMLU(Multilingual MMLU)。由 OpenAI 于2023年发布的多语言版本。整个 MMLU 数据集由专业翻译人员翻译成14种语言,既包括常见语言(西班牙语、中文、俄语),也包括低资源语言(如约鲁巴语)。这使得在不同语言上评估和比较模型的能力成为可能[6]。
链接
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
注释
- ↑ 1.0 1.1 1.2 1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
- ↑ 2.0 2.1 «MMLU». In Wikipedia. [2]
- ↑ 3.0 3.1 3.2 3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
- ↑ 4.0 4.1 4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
- ↑ «MMLU Pro». Vals.ai, 2025. [5]
- ↑ «openai/MMMLU». Hugging Face Datasets. [6]