MATH benchmark
МАТН (акроним от англ. Mathematics Aptitude Test of Heuristics) — это крупный набор данных и бенчмарк для оценки математических способностей и навыков решения задач у больших языковых моделей (LLM). Датасет был представлен в 2021 году группой исследователей под руководством Дэна Хендрикса (Dan Hendrycks) и содержит 12 500 задач, взятых из американских математических соревнований для старших классов, таких как AMC 10, AMC 12 и AIME[1].
Задачи охватывают широкий спектр областей (алгебра, геометрия, теория чисел, комбинаторика и др.) и имеют градацию по уровню сложности. В отличие от стандартных учебных задач, они зачастую требуют творческого подхода и эвристических методов, а не прямого применения формул. Каждое задание сопровождается полным пошаговым решением и финальным ответом, что делает МАТН ценным ресурсом как для обучения, так и для тестирования моделей[2].
Структура и особенности датасета
Бенчмарк МАТН обладает рядом ключевых особенностей, делающих его сложным и надёжным инструментом оценки.
Формат задач
Все задания и решения представлены в формате LaTeX, а для описания геометрических чертежей используется язык Asymptote. Это позволяет представить все условия, включая изображения, в текстовом виде, доступном для обработки языковой моделью. Каждой задаче присвоены метки по семи областям математики и по пяти уровням сложности[1].
Автоматическая оценка
Финальные ответы в датасете заключены в специальный формат `\boxed{...}` и приведены к строгому стандарту (например, дроби в несократимом виде). Это позволяет проводить автоматическую оценку моделей по метрике точного совпадения (exact match), что исключает субъективность и неоднозначность при проверке результатов. Модель должна выдать строго правильный ответ, чтобы задача считалась решённой[1].
Сложность задач и уровень человека
МАТН является одним из самых сложных математических тестов для ИИ. Задачи представляют сложность даже для людей с сильной математической подготовкой.
- В ходе исследования датасета группу студентов университета протестировали с результатами от ~40% до ~90% у победителей олимпиад.
- Даже обладатель трёх золотых медалей Международной математической олимпиады не смог решить все задания без ошибок[1].
Это показывает, что для успешного решения задач МАТН требуется не только знание, но и высокая точность и математическая интуиция.
Результаты моделей и прогресс в решении
Первоначальные результаты (2021)
При запуске бенчмарка в 2021 году даже самые крупные модели показывали крайне низкие результаты.
- Модель GPT-3 (175 млрд параметров) смогла правильно решить лишь около 5% задач.
- Дообученные версии GPT-2 показывали точность 6-7%[1].
Авторы пришли к выводу, что простое увеличение масштаба моделей почти не влияет на производительность и для прогресса требуются новые алгоритмические подходы[3].
Прорыв Minerva и GPT-4 (2022–2023)
Прорыв произошёл с появлением моделей, специально обученных на научных текстах, и новых методов решения.
- В 2022 году модель Google Minerva достигла точности около 50%, продемонстрировав, что сочетание масштаба и специализированной подготовки может резко повысить качество решения[3].
- В 2023 году GPT-4 от OpenAI показала новый скачок. Используя инструменты, модель смогла значительно улучшить свои результаты:
- С Code Interpreter (выполнение кода для проверки вычислений) точность достигла почти 70%.
- С методом code-based self-verification (самопроверка и исправление ошибок с помощью кода) был установлен рекорд в 84,3% решённых задач[4].
Этот результат сопоставим с уровнем сильных участников-людей и приближается к экспертному порогу.
Значение и влияние
Бенчмарк МАТН сыграл ключевую роль в развитии математических способностей LLM. Он наглядно продемонстрировал, что для решения сложных задач недостаточно простого масштабирования, а необходимы новые подходы, такие как:
- Обучение на полных пошаговых решениях.
- Специализированная подготовка на научных данных.
- Использование внешних инструментов для вычислений и верификации.
Несмотря на значительный прогресс, МАТН остаётся важным и сложным испытанием. Он продолжает служить индикатором уровня математического мышления у LLM и стимулирует исследования в области надёжного решения задач, требующих многошаговых рассуждений[1].
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 1,2 1,3 1,4 1,5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]
- ↑ «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]
- ↑ 3,0 3,1 «Language models surprised us». Planned-Obsolescence.org. [3]
- ↑ «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]