MATH benchmark

МАТН (акроним от англ. Mathematics Aptitude Test of Heuristics) — это крупный набор данных и бенчмарк для оценки математических способностей и навыков решения задач у больших языковых моделей (LLM). Датасет был представлен в 2021 году группой исследователей под руководством Дэна Хендрикса (Dan Hendrycks) и содержит 12 500 задач, взятых из американских математических соревнований для старших классов, таких как AMC 10, AMC 12 и AIME^[1].

Задачи охватывают широкий спектр областей (алгебра, геометрия, теория чисел, комбинаторика и др.) и имеют градацию по уровню сложности. В отличие от стандартных учебных задач, они зачастую требуют творческого подхода и эвристических методов, а не прямого применения формул. Каждое задание сопровождается полным пошаговым решением и финальным ответом, что делает МАТН ценным ресурсом как для обучения, так и для тестирования моделей^[2].

Структура и особенности датасета

Бенчмарк МАТН обладает рядом ключевых особенностей, делающих его сложным и надёжным инструментом оценки.

Формат задач

Все задания и решения представлены в формате LaTeX, а для описания геометрических чертежей используется язык Asymptote. Это позволяет представить все условия, включая изображения, в текстовом виде, доступном для обработки языковой моделью. Каждой задаче присвоены метки по семи областям математики и по пяти уровням сложности^[1].

Автоматическая оценка

Финальные ответы в датасете заключены в специальный формат `\boxed{...}` и приведены к строгому стандарту (например, дроби в несократимом виде). Это позволяет проводить автоматическую оценку моделей по метрике точного совпадения (exact match), что исключает субъективность и неоднозначность при проверке результатов. Модель должна выдать строго правильный ответ, чтобы задача считалась решённой^[1].

Сложность задач и уровень человека

МАТН является одним из самых сложных математических тестов для ИИ. Задачи представляют сложность даже для людей с сильной математической подготовкой.

В ходе исследования датасета группу студентов университета протестировали с результатами от ~40% до ~90% у победителей олимпиад.
Даже обладатель трёх золотых медалей Международной математической олимпиады не смог решить все задания без ошибок^[1].

Это показывает, что для успешного решения задач МАТН требуется не только знание, но и высокая точность и математическая интуиция.

Результаты моделей и прогресс в решении

Первоначальные результаты (2021)

При запуске бенчмарка в 2021 году даже самые крупные модели показывали крайне низкие результаты.

Модель GPT-3 (175 млрд параметров) смогла правильно решить лишь около 5% задач.
Дообученные версии GPT-2 показывали точность 6-7%^[1].

Авторы пришли к выводу, что простое увеличение масштаба моделей почти не влияет на производительность и для прогресса требуются новые алгоритмические подходы^[3].

Прорыв Minerva и GPT-4 (2022–2023)

Прорыв произошёл с появлением моделей, специально обученных на научных текстах, и новых методов решения.

В 2022 году модель Google Minerva достигла точности около 50%, продемонстрировав, что сочетание масштаба и специализированной подготовки может резко повысить качество решения^[3].
В 2023 году GPT-4 от OpenAI показала новый скачок. Используя инструменты, модель смогла значительно улучшить свои результаты:
- С Code Interpreter (выполнение кода для проверки вычислений) точность достигла почти 70%.
- С методом code-based self-verification (самопроверка и исправление ошибок с помощью кода) был установлен рекорд в 84,3% решённых задач^[4].

Этот результат сопоставим с уровнем сильных участников-людей и приближается к экспертному порогу.

Значение и влияние

Бенчмарк МАТН сыграл ключевую роль в развитии математических способностей LLM. Он наглядно продемонстрировал, что для решения сложных задач недостаточно простого масштабирования, а необходимы новые подходы, такие как:

Обучение на полных пошаговых решениях.
Специализированная подготовка на научных данных.
Использование внешних инструментов для вычислений и верификации.

Несмотря на значительный прогресс, МАТН остаётся важным и сложным испытанием. Он продолжает служить индикатором уровня математического мышления у LLM и стимулирует исследования в области надёжного решения задач, требующих многошаговых рассуждений^[1].

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]
↑ «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]
↑ ^3,0 ^3,1 «Language models surprised us». Planned-Obsolescence.org. [3]
↑ «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]

[hendrycks2021-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]

[llm_eval_datasets-2] «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]

[lang_models_surprised-3] 3,0 ^3,1 «Language models surprised us». Planned-Obsolescence.org. [3]

[decoder_gpt4-4] «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]

[1]

[2]

[3]

[4]

MATH benchmark

Содержание

Структура и особенности датасета

Формат задач

Автоматическая оценка

Сложность задач и уровень человека

Результаты моделей и прогресс в решении

Первоначальные результаты (2021)

Прорыв Minerva и GPT-4 (2022–2023)

Значение и влияние

Ссылки

Литература

Примечания

Навигация

MATH benchmark

Структура и особенности датасета

Формат задач

Автоматическая оценка

Сложность задач и уровень человека

Результаты моделей и прогресс в решении

Первоначальные результаты (2021)

Прорыв Minerva и GPT-4 (2022–2023)

Значение и влияние

Ссылки

Литература

Примечания

Навигация

Поиск