MMLU Benchmark

From Systems analysis wiki
Jump to navigation Jump to search

MMLU (Abkürzung für Measuring Massive Multitask Language Understanding) ist ein Benchmark-Datensatz, der entwickelt wurde, um die Fähigkeiten von großen Sprachmodellen (LLM) in einem breiten Spektrum von Fachgebieten zu bewerten. Der Benchmark wurde 2020 von einem Forscherteam unter der Leitung von Dan Hendrycks von der UC Berkeley entwickelt und 2021 auf der ICLR-Konferenz veröffentlicht[1].

Das Ziel von MMLU ist es zu überprüfen, inwieweit ein Modell vielfältiges Wissen und Fähigkeiten, die während des Pre-Trainings erworben wurden, durch Tests im Zero-Shot- oder Few-Shot-Modus ohne zusätzliches Fine-Tuning verinnerlicht hat. MMLU wurde als eine anspruchsvollere Alternative zu bestehenden Tests (wie GLUE und SuperGLUE) geschaffen, bei denen viele Modelle bis 2020 bereits menschliches Leistungsniveau erreicht hatten[2].

Beschreibung und Inhalt

MMLU besteht aus 15.908 Multiple-Choice-Fragen, die 57 verschiedene Fachgebiete abdecken. Die Themen der Aufgaben umfassen:

  • MINT-Fächer (Mathematik, Physik, Biologie, Informatik).
  • Geistes- und Sozialwissenschaften (Geschichte, Literatur, Recht, Verwaltung).
  • Angewandte und berufliche Bereiche (Medizin, Rechtswissenschaft, Wirtschaft)[1].

Der Schwierigkeitsgrad reicht vom Grundschulniveau bis hin zu fortgeschrittenem professionellem Niveau. Die Fragen basieren auf realen Prüfungsmaterialien für Schulen, Universitäten und beruflichen Tests wie dem GRE und dem USMLE[1]. Das Aufgabenformat besteht aus vier Antwortmöglichkeiten pro Frage, was bedeutet, dass die Genauigkeit bei zufälliger Auswahl 25 % beträgt. Um ein hohes Ergebnis zu erzielen, muss ein Modell über umfassendes enzyklopädisches Wissen und die Fähigkeit zum logischen Denken verfügen.

Ergebnisse und Entwicklung

Bei der Veröffentlichung von MMLU im Jahr 2020 zeigten die meisten LLMs Ergebnisse, die nur geringfügig über dem Zufallsniveau lagen. Das beste Ergebnis erzielte das Modell GPT-3 (175 Mrd. Parameter) mit ~43,9 % korrekten Antworten. Zum Vergleich erreichte ein menschlicher Experte im Durchschnitt ~90 %[1]. Diese Lücke bestätigte die Komplexität und den hohen Anspruch des neuen Benchmarks.

Mit der Zeit entwickelte sich MMLU zu einem der populärsten Tests für LLMs und erhielt den Status eines „Goldstandards“ in den Berichten führender KI-Unternehmen[3]. In den Jahren 2023–2024 näherten sich die neuesten Modelle wie GPT-4, Googles Gemini Ultra und Anthropics Claude 3.5 dem menschlichen Niveau an und erreichten eine Genauigkeit von ~85–90 %[2][3].

Der schnelle Fortschritt führte zu einer allmählichen „Sättigung“ des Benchmarks: Führende Modelle erreichten Ergebnisse nahe dem Maximum, was die Fähigkeit von MMLU verringerte, ihre intellektuellen Fähigkeiten zu differenzieren. Dies motivierte die Community, neue, schwierigere Tests zu entwickeln[3].

Einschränkungen und Kritik

Trotz seiner weiten Verbreitung weist MMLU eine Reihe wesentlicher Einschränkungen auf.

Datenqualität und Korrektheit

Im Juni 2024 führten Forscher eine manuelle Analyse einer Stichprobe von 5.700 MMLU-Fragen durch und stellten eine erhebliche Anzahl von Fehlern fest[4].

  • Etwa 6,5 % aller MMLU-Fragen enthalten Fehler in der Annotation oder Formulierung.
  • In einigen Kategorien ist der Anteil fehlerhafter Aufgaben sehr hoch. Beispielsweise enthielten im Bereich „Virologie“ 57 % der Aufgaben Fehler (mehrere korrekte Antworten, ungenaue Formulierungen oder eine falsch angegebene Referenzantwort).

Dies bedeutet, dass selbst ein perfektes Modell auf dem ursprünglichen Datensatz keine 100 % erreichen kann und ein Teil der Verbesserungen in den Metriken auf das Auswendiglernen systematischer Fehler im Datensatz durch das Modell zurückzuführen sein könnte[4].

Bewertungsmethodik und Data Contamination

  • Fehlender Teststandard. Verschiedene Entwickler können unterschiedliche Prompts und Few-Shot-Modi verwenden, was einen direkten Vergleich der Modellergebnisse erschwert.
  • Data Contamination (Datenleck). Es besteht das Risiko, dass Fragen und Antworten aus öffentlichen Benchmarks in die Trainingsdatensätze von LLMs gelangen. In einem solchen Fall „kennt“ das Modell die richtigen Antworten bereits, was die Bewertung unfair macht[3].

Abgeleitete Versionen und Erweiterungen

Um die Probleme des ursprünglichen MMLU zu beheben, wurden mehrere Varianten entwickelt.

  • MMLU-Redux. Eine korrigierte und verfeinerte Version des Datensatzes, die im Juni 2024 vorgestellt wurde. Sie umfasst 3.000 neu annotierte Fragen aus 30 Kategorien und soll eine zuverlässigere Bewertung von Modellen ermöglichen, ohne die durch Datenfehler verursachten Verzerrungen[4].
  • MMLU-Pro. Eine erweiterte und anspruchsvollere Variante des Tests, die Ende 2024 vorgestellt wurde. Sie enthält über 12.000 Fragen mit jeweils 10 Antwortmöglichkeiten anstelle von vier. Dies reduziert die Wahrscheinlichkeit des zufälligen Erratens auf 10 %. Die Fragen wurden von Experten geprüft und umfassen neue Aufgaben aus anspruchsvolleren Quellen[5].
  • MMMLU (Multilingual MMLU). Eine mehrsprachige Version, die 2023 von OpenAI veröffentlicht wurde. Der gesamte MMLU-Datensatz wurde von professionellen Übersetzern in 14 Sprachen übersetzt, darunter weit verbreitete Sprachen (Spanisch, Chinesisch, Russisch) und ressourcenarme Sprachen (z. B. Yoruba). Dies ermöglicht die Bewertung und den Vergleich der Fähigkeiten von Modellen in verschiedenen Sprachen[6].

Literatur

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.


Einzelnachweise

  1. 1.0 1.1 1.2 1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
  2. 2.0 2.1 «MMLU». In: Wikipedia. [2]
  3. 3.0 3.1 3.2 3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
  4. 4.0 4.1 4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
  5. «MMLU Pro». Vals.ai, 2025. [5]
  6. «openai/MMMLU». Hugging Face Datasets. [6]