MMLU benchmark
MMLU (аббревиатура от Measuring Massive Multitask Language Understanding) — это эталонный набор задач (бенчмарк), предназначенный для оценки способностей больших языковых моделей (LLM) по широкому кругу предметных областей. Бенчмарк был разработан в 2020 году командой исследователей под руководством Дэна Хендрикса (Dan Hendrycks) из UC Berkeley и опубликован на конференции ICLR в 2021 году[1].
Цель MMLU — проверить, насколько модель усваивает разнообразные знания и умения, приобретённые на этапе предобучения, путём тестирования в режиме нулевого или нескольких примеров (zero/few-shot) без дополнительной донастройки. MMLU был создан как более сложная альтернатива ранее существовавшим тестам (таким как GLUE и SuperGLUE), на которых многие модели к 2020 году уже достигли уровня человека[2].
Описание и содержание
MMLU состоит из 15 908 вопросов с множественным выбором ответа, охватывающих 57 различных дисциплин. Тематика заданий включает:
- Предметы STEM-направления (математика, физика, биология, информатика).
- Гуманитарные и социальные науки (история, литература, право, управление).
- Прикладные и профессиональные области (медицина, юриспруденция, бизнес)[1].
Диапазон сложности варьируется от уровня начальной школы до продвинутого профессионального уровня. Вопросы основаны на реальных экзаменационных материалах для школ, вузов и профессиональных тестов, таких как GRE и USMLE[1]. Формат заданий — четыре варианта ответа на каждый вопрос, что означает, что при случайном выборе точность составляет 25%. Для достижения высокого результата модель должна обладать обширными энциклопедическими знаниями и способностью к рассуждению.
Результаты и развитие
При выпуске MMLU в 2020 году большинство LLM показывали результаты лишь ненамного выше случайного угадывания. Лучший результат продемонстрировала модель GPT-3 (175 млрд параметров), набрав ~43,9% правильных ответов. Для сравнения, человек-эксперт в среднем достигал ~90%[1]. Этот разрыв подтвердил сложность и высокую планку нового бенчмарка.
Со временем MMLU стал одним из наиболее популярных тестов для LLM, получив статус «золотого стандарта» в отчётах ведущих AI-компаний[3]. К 2023-2024 годам новейшие модели, такие как GPT-4, Gemini Ultra от Google и Claude 3.5 от Anthropic, приблизились к человеческому уровню, достигнув ~85-90% точности[2][3].
Быстрый прогресс привёл к постепенному «насыщению» бенчмарка: ведущие модели стали достигать близких к максимальным оценок, что снизило способность MMLU различать их интеллектуальные возможности. Это стимулировало сообщество к разработке новых, более трудных тестов[3].
Ограничения и критика
Несмотря на широкое распространение, MMLU имеет ряд существенных ограничений.
Качество и корректность данных
В июне 2024 года исследователи провели ручной анализ выборки из 5700 вопросов MMLU и обнаружили значительное количество ошибок[4].
- Около 6,5% всех вопросов MMLU содержат ошибки в разметке или формулировках.
- В отдельных категориях доля некорректных заданий очень высока. Например, в разделе «Вирусология» 57% заданий содержали ошибки (несколько правильных ответов, некорректные формулировки или неверно указанный эталонный ответ).
Это означает, что даже идеальная модель не может набрать 100% на исходном датасете, а часть улучшений в метриках может быть связана с запоминанием моделью систематических ошибок набора[4].
Методика оценки и утечка данных
- Отсутствие стандарта тестирования. Разные разработчики могут использовать разные промпты и режимы few-shot, что затрудняет прямое сравнение результатов моделей.
- Утечка данных (data contamination). Существует риск попадания вопросов и ответов из публичных бенчмарков в обучающие выборки LLM. В таком случае модель фактически «знает» правильные ответы, что делает оценку нечестной[3].
Производные версии и расширения
Для решения проблем оригинального MMLU было создано несколько его вариантов.
- MMLU-Redux. Исправленная и уточнённая версия набора, представленная в июне 2024 года. Она включает 3000 переразмеченных вопросов из 30 категорий и предназначена для более надёжной оценки моделей без искажений, вызванных ошибками в данных[4].
- MMLU-Pro. Расширенный и усложнённый вариант теста, представленный в конце 2024 года. Он содержит более 12 000 вопросов, на каждый из которых даётся 10 вариантов ответа вместо четырёх. Это снижает вероятность случайного угадывания до 10%. Вопросы прошли проверку экспертами и включают новые задания из более сложных источников[5].
- MMMLU (Multilingual MMLU). Многоязычная версия, выпущенная OpenAI в 2023 году. Весь набор MMLU был переведён профессиональными переводчиками на 14 языков, включая как распространённые (испанский, китайский, русский), так и низкоресурсные (например, йоруба). Это позволяет оценивать и сопоставлять возможности моделей на разных языках[6].
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 1,2 1,3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
- ↑ 2,0 2,1 «MMLU». In Wikipedia. [2]
- ↑ 3,0 3,1 3,2 3,3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
- ↑ 4,0 4,1 4,2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
- ↑ «MMLU Pro». Vals.ai, 2025. [5]
- ↑ «openai/MMMLU». Hugging Face Datasets. [6]