MMLU Benchmark — MMLU 基准测试

From Systems analysis wiki
Jump to navigation Jump to search

MMLUMeasuring Massive Multitask Language Understanding 的缩写)是一个基准测试任务集,旨在评估大型语言模型 (LLM)在广泛学科领域的能力。该基准测试由加州大学伯克利分校的 Dan Hendrycks 领导的研究团队于2020年开发,并于2021年在 ICLR 会议上发表[1]

MMLU 的目标是通过在零样本少样本zero/few-shot)模式下进行测试,来检验模型在预训练阶段所获得的多样化知识和技能的掌握程度,而无需进行额外的微调。MMLU 的创建是为了替代此前已有的测试(如 GLUE 和 SuperGLUE),因为到2020年,许多模型在这些测试上已经达到了人类水平,MMLU 则提供了更具挑战性的替代方案[2]

描述与内容

MMLU 包含 15,908 道多项选择题,涵盖 57 个不同学科。任务主题包括:

  • STEM 学科(数学、物理、生物学、计算机科学)。
  • 人文与社会科学(历史、文学、法律、管理学)。
  • 应用与专业领域(医学、法学、商业)[1]

题目的难度范围从小学水平到高级专业水平不等。这些问题基于学校、大学和专业考试(如 GRE 和 USMLE)的真实考试材料[1]。题目格式为每道题四个选项,这意味着随机选择的准确率为 25%。为了取得高分,模型必须具备广泛的百科知识和推理能力。

结果与发展

2020年 MMLU 发布时,大多数 LLM 的表现仅略高于随机猜测。表现最好的是 GPT-3 模型(1750亿参数),取得了约 43.9% 的正确率。相比之下,人类专家的平均水平达到了约 90%[1]。这一差距证实了该新基准测试的难度和高标准。

随着时间的推移,MMLU 成为最受欢迎的 LLM 测试之一,在顶尖 AI 公司的报告中获得了“黄金标准”的地位[3]。到 2023-2024 年,最新的模型,如 GPT-4、谷歌的 Gemini Ultra 和 Anthropic 的 Claude 3.5,已接近人类水平,准确率达到约 85-90%[2][3]

快速的进展导致该基准测试逐渐“饱和”:顶尖模型的得分开始接近最高分,这降低了 MMLU 区分它们智能能力的作用。这激励了社区开发新的、更难的测试[3]

局限性与批评

尽管 MMLU 被广泛使用,但它也存在一些显著的局限性。

数据质量与正确性

2024年6月,研究人员对 MMLU 的 5700 个问题样本进行了手动分析,发现了大量错误[4]

  • MMLU 中约有 6.5% 的问题在标注或表述上存在错误。
  • 在某些类别中,不正确任务的比例非常高。例如,在“病毒学”部分,57% 的任务存在错误(多个正确答案、不正确的表述或错误的参考答案)。

这​​​​意味着即使是完美的模型也无法在原始数据集上获得 100% 的分数,并且指标的部分提升可能与模型记住了数据集中的系统性错误有关[4]

评估方法与数据泄露

  • 缺乏测试标准。不同的开发者可能会使用不同的提示和 few-shot 模式,这使得直接比较模型结果变得困难。
  • 数据泄露data contamination)。公共基准测试中的问题和答案存在被泄露到 LLM 训练集中的风险。在这种情况下,模型实际上“知道”正确答案,从而导致评估不公平[3]

衍生版本与扩展

为了解决原始 MMLU 的问题,已经创建了几个变体版本。

  • MMLU-Redux。2024年6月推出的修正和完善版数据集。它包含来自30个类别的3000个重新标注的问题,旨在更可靠地评估模型,避免因数据错误而产生偏差[4]
  • MMLU-Pro。2024年底推出的扩展和增强版测试。它包含超过12,000个问题,每道题提供10个选项而不是四个。这将随机猜测的概率降低到10%。这些问题经过专家审核,并包含了来自更复杂来源的新任务[5]
  • MMMLUMultilingual MMLU)。由 OpenAI 于2023年发布的多语言版本。整个 MMLU 数据集由专业翻译人员翻译成14种语言,既包括常见语言(西班牙语、中文、俄语),也包括低资源语言(如约鲁巴语)。这使得在不同语言上评估和比较模型的能力成为可能[6]

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.


注释

  1. 1.0 1.1 1.2 1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
  2. 2.0 2.1 «MMLU». In Wikipedia. [2]
  3. 3.0 3.1 3.2 3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
  4. 4.0 4.1 4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
  5. «MMLU Pro». Vals.ai, 2025. [5]
  6. «openai/MMMLU». Hugging Face Datasets. [6]