MMLU benchmark

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

MMLU (аббревиатура от Measuring Massive Multitask Language Understanding) — это эталонный набор задач (бенчмарк), предназначенный для оценки способностей больших языковых моделей (LLM) по широкому кругу предметных областей. Бенчмарк был разработан в 2020 году командой исследователей под руководством Дэна Хендрикса (Dan Hendrycks) из UC Berkeley и опубликован на конференции ICLR в 2021 году[1].

Цель MMLU — проверить, насколько модель усваивает разнообразные знания и умения, приобретённые на этапе предобучения, путём тестирования в режиме нулевого или нескольких примеров (zero/few-shot) без дополнительной донастройки. MMLU был создан как более сложная альтернатива ранее существовавшим тестам (таким как GLUE и SuperGLUE), на которых многие модели к 2020 году уже достигли уровня человека[2].

Описание и содержание

MMLU состоит из 15 908 вопросов с множественным выбором ответа, охватывающих 57 различных дисциплин. Тематика заданий включает:

  • Предметы STEM-направления (математика, физика, биология, информатика).
  • Гуманитарные и социальные науки (история, литература, право, управление).
  • Прикладные и профессиональные области (медицина, юриспруденция, бизнес)[1].

Диапазон сложности варьируется от уровня начальной школы до продвинутого профессионального уровня. Вопросы основаны на реальных экзаменационных материалах для школ, вузов и профессиональных тестов, таких как GRE и USMLE[1]. Формат заданий — четыре варианта ответа на каждый вопрос, что означает, что при случайном выборе точность составляет 25%. Для достижения высокого результата модель должна обладать обширными энциклопедическими знаниями и способностью к рассуждению.

Результаты и развитие

При выпуске MMLU в 2020 году большинство LLM показывали результаты лишь ненамного выше случайного угадывания. Лучший результат продемонстрировала модель GPT-3 (175 млрд параметров), набрав ~43,9% правильных ответов. Для сравнения, человек-эксперт в среднем достигал ~90%[1]. Этот разрыв подтвердил сложность и высокую планку нового бенчмарка.

Со временем MMLU стал одним из наиболее популярных тестов для LLM, получив статус «золотого стандарта» в отчётах ведущих AI-компаний[3]. К 2023-2024 годам новейшие модели, такие как GPT-4, Gemini Ultra от Google и Claude 3.5 от Anthropic, приблизились к человеческому уровню, достигнув ~85-90% точности[2][3].

Быстрый прогресс привёл к постепенному «насыщению» бенчмарка: ведущие модели стали достигать близких к максимальным оценок, что снизило способность MMLU различать их интеллектуальные возможности. Это стимулировало сообщество к разработке новых, более трудных тестов[3].

Ограничения и критика

Несмотря на широкое распространение, MMLU имеет ряд существенных ограничений.

Качество и корректность данных

В июне 2024 года исследователи провели ручной анализ выборки из 5700 вопросов MMLU и обнаружили значительное количество ошибок[4].

  • Около 6,5% всех вопросов MMLU содержат ошибки в разметке или формулировках.
  • В отдельных категориях доля некорректных заданий очень высока. Например, в разделе «Вирусология» 57% заданий содержали ошибки (несколько правильных ответов, некорректные формулировки или неверно указанный эталонный ответ).

Это означает, что даже идеальная модель не может набрать 100% на исходном датасете, а часть улучшений в метриках может быть связана с запоминанием моделью систематических ошибок набора[4].

Методика оценки и утечка данных

  • Отсутствие стандарта тестирования. Разные разработчики могут использовать разные промпты и режимы few-shot, что затрудняет прямое сравнение результатов моделей.
  • Утечка данных (data contamination). Существует риск попадания вопросов и ответов из публичных бенчмарков в обучающие выборки LLM. В таком случае модель фактически «знает» правильные ответы, что делает оценку нечестной[3].

Производные версии и расширения

Для решения проблем оригинального MMLU было создано несколько его вариантов.

  • MMLU-Redux. Исправленная и уточнённая версия набора, представленная в июне 2024 года. Она включает 3000 переразмеченных вопросов из 30 категорий и предназначена для более надёжной оценки моделей без искажений, вызванных ошибками в данных[4].
  • MMLU-Pro. Расширенный и усложнённый вариант теста, представленный в конце 2024 года. Он содержит более 12 000 вопросов, на каждый из которых даётся 10 вариантов ответа вместо четырёх. Это снижает вероятность случайного угадывания до 10%. Вопросы прошли проверку экспертами и включают новые задания из более сложных источников[5].
  • MMMLU (Multilingual MMLU). Многоязычная версия, выпущенная OpenAI в 2023 году. Весь набор MMLU был переведён профессиональными переводчиками на 14 языков, включая как распространённые (испанский, китайский, русский), так и низкоресурсные (например, йоруба). Это позволяет оценивать и сопоставлять возможности моделей на разных языках[6].

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.


Примечания

  1. 1,0 1,1 1,2 1,3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
  2. 2,0 2,1 «MMLU». In Wikipedia. [2]
  3. 3,0 3,1 3,2 3,3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
  4. 4,0 4,1 4,2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
  5. «MMLU Pro». Vals.ai, 2025. [5]
  6. «openai/MMMLU». Hugging Face Datasets. [6]