MMLU benchmark

MMLU (аббревиатура от Measuring Massive Multitask Language Understanding) — это эталонный набор задач (бенчмарк), предназначенный для оценки способностей больших языковых моделей (LLM) по широкому кругу предметных областей. Бенчмарк был разработан в 2020 году командой исследователей под руководством Дэна Хендрикса (Dan Hendrycks) из UC Berkeley и опубликован на конференции ICLR в 2021 году^[1].

Цель MMLU — проверить, насколько модель усваивает разнообразные знания и умения, приобретённые на этапе предобучения, путём тестирования в режиме нулевого или нескольких примеров (zero/few-shot) без дополнительной донастройки. MMLU был создан как более сложная альтернатива ранее существовавшим тестам (таким как GLUE и SuperGLUE), на которых многие модели к 2020 году уже достигли уровня человека^[2].

Описание и содержание

MMLU состоит из 15 908 вопросов с множественным выбором ответа, охватывающих 57 различных дисциплин. Тематика заданий включает:

Предметы STEM-направления (математика, физика, биология, информатика).
Гуманитарные и социальные науки (история, литература, право, управление).
Прикладные и профессиональные области (медицина, юриспруденция, бизнес)^[1].

Диапазон сложности варьируется от уровня начальной школы до продвинутого профессионального уровня. Вопросы основаны на реальных экзаменационных материалах для школ, вузов и профессиональных тестов, таких как GRE и USMLE^[1]. Формат заданий — четыре варианта ответа на каждый вопрос, что означает, что при случайном выборе точность составляет 25%. Для достижения высокого результата модель должна обладать обширными энциклопедическими знаниями и способностью к рассуждению.

Результаты и развитие

При выпуске MMLU в 2020 году большинство LLM показывали результаты лишь ненамного выше случайного угадывания. Лучший результат продемонстрировала модель GPT-3 (175 млрд параметров), набрав ~43,9% правильных ответов. Для сравнения, человек-эксперт в среднем достигал ~90%^[1]. Этот разрыв подтвердил сложность и высокую планку нового бенчмарка.

Со временем MMLU стал одним из наиболее популярных тестов для LLM, получив статус «золотого стандарта» в отчётах ведущих AI-компаний^[3]. К 2023-2024 годам новейшие модели, такие как GPT-4, Gemini Ultra от Google и Claude 3.5 от Anthropic, приблизились к человеческому уровню, достигнув ~85-90% точности^[2]^[3].

Быстрый прогресс привёл к постепенному «насыщению» бенчмарка: ведущие модели стали достигать близких к максимальным оценок, что снизило способность MMLU различать их интеллектуальные возможности. Это стимулировало сообщество к разработке новых, более трудных тестов^[3].

Ограничения и критика

Несмотря на широкое распространение, MMLU имеет ряд существенных ограничений.

Качество и корректность данных

В июне 2024 года исследователи провели ручной анализ выборки из 5700 вопросов MMLU и обнаружили значительное количество ошибок^[4].

Около 6,5% всех вопросов MMLU содержат ошибки в разметке или формулировках.
В отдельных категориях доля некорректных заданий очень высока. Например, в разделе «Вирусология» 57% заданий содержали ошибки (несколько правильных ответов, некорректные формулировки или неверно указанный эталонный ответ).

Это означает, что даже идеальная модель не может набрать 100% на исходном датасете, а часть улучшений в метриках может быть связана с запоминанием моделью систематических ошибок набора^[4].

Методика оценки и утечка данных

Отсутствие стандарта тестирования. Разные разработчики могут использовать разные промпты и режимы few-shot, что затрудняет прямое сравнение результатов моделей.
Утечка данных (data contamination). Существует риск попадания вопросов и ответов из публичных бенчмарков в обучающие выборки LLM. В таком случае модель фактически «знает» правильные ответы, что делает оценку нечестной^[3].

Производные версии и расширения

Для решения проблем оригинального MMLU было создано несколько его вариантов.

MMLU-Redux. Исправленная и уточнённая версия набора, представленная в июне 2024 года. Она включает 3000 переразмеченных вопросов из 30 категорий и предназначена для более надёжной оценки моделей без искажений, вызванных ошибками в данных^[4].
MMLU-Pro. Расширенный и усложнённый вариант теста, представленный в конце 2024 года. Он содержит более 12 000 вопросов, на каждый из которых даётся 10 вариантов ответа вместо четырёх. Это снижает вероятность случайного угадывания до 10%. Вопросы прошли проверку экспертами и включают новые задания из более сложных источников^[5].
MMMLU (Multilingual MMLU). Многоязычная версия, выпущенная OpenAI в 2023 году. Весь набор MMLU был переведён профессиональными переводчиками на 14 языков, включая как распространённые (испанский, китайский, русский), так и низкоресурсные (например, йоруба). Это позволяет оценивать и сопоставлять возможности моделей на разных языках^[6].

См. также

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,0 ^1,1 ^1,2 ^1,3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
↑ ^2,0 ^2,1 «MMLU». In Wikipedia. [2]
↑ ^3,0 ^3,1 ^3,2 ^3,3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
↑ ^4,0 ^4,1 ^4,2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
↑ «MMLU Pro». Vals.ai, 2025. [5]
↑ «openai/MMMLU». Hugging Face Datasets. [6]

[mmlu_paper-1] 1,0 ^1,1 ^1,2 ^1,3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]

[mmlu_wiki-2] 2,0 ^2,1 «MMLU». In Wikipedia. [2]

[new_savanna_2024-3] 3,0 ^3,1 ^3,2 ^3,3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]

[done_with_mmlu_2024-4] 4,0 ^4,1 ^4,2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]

[mmlu_pro_vals_ai-5] «MMLU Pro». Vals.ai, 2025. [5]

[mmmlu_hf-6] «openai/MMMLU». Hugging Face Datasets. [6]

[1]

[2]

[3]

[4]

[5]

[6]

MMLU benchmark

Содержание

Описание и содержание

Результаты и развитие

Ограничения и критика

Качество и корректность данных

Методика оценки и утечка данных

Производные версии и расширения

См. также

Ссылки

Литература

Примечания

Навигация

MMLU benchmark

Описание и содержание

Результаты и развитие

Ограничения и критика

Качество и корректность данных

Методика оценки и утечка данных

Производные версии и расширения

См. также

Ссылки

Литература

Примечания

Навигация

Поиск