MATH benchmark

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

МАТН (акроним от англ. Mathematics Aptitude Test of Heuristics) — это крупный набор данных и бенчмарк для оценки математических способностей и навыков решения задач у больших языковых моделей (LLM). Датасет был представлен в 2021 году группой исследователей под руководством Дэна Хендрикса (Dan Hendrycks) и содержит 12 500 задач, взятых из американских математических соревнований для старших классов, таких как AMC 10, AMC 12 и AIME[1].

Задачи охватывают широкий спектр областей (алгебра, геометрия, теория чисел, комбинаторика и др.) и имеют градацию по уровню сложности. В отличие от стандартных учебных задач, они зачастую требуют творческого подхода и эвристических методов, а не прямого применения формул. Каждое задание сопровождается полным пошаговым решением и финальным ответом, что делает МАТН ценным ресурсом как для обучения, так и для тестирования моделей[2].

Структура и особенности датасета

Бенчмарк МАТН обладает рядом ключевых особенностей, делающих его сложным и надёжным инструментом оценки.

Формат задач

Все задания и решения представлены в формате LaTeX, а для описания геометрических чертежей используется язык Asymptote. Это позволяет представить все условия, включая изображения, в текстовом виде, доступном для обработки языковой моделью. Каждой задаче присвоены метки по семи областям математики и по пяти уровням сложности[1].

Автоматическая оценка

Финальные ответы в датасете заключены в специальный формат `\boxed{...}` и приведены к строгому стандарту (например, дроби в несократимом виде). Это позволяет проводить автоматическую оценку моделей по метрике точного совпадения (exact match), что исключает субъективность и неоднозначность при проверке результатов. Модель должна выдать строго правильный ответ, чтобы задача считалась решённой[1].

Сложность задач и уровень человека

МАТН является одним из самых сложных математических тестов для ИИ. Задачи представляют сложность даже для людей с сильной математической подготовкой.

  • В ходе исследования датасета группу студентов университета протестировали с результатами от ~40% до ~90% у победителей олимпиад.
  • Даже обладатель трёх золотых медалей Международной математической олимпиады не смог решить все задания без ошибок[1].

Это показывает, что для успешного решения задач МАТН требуется не только знание, но и высокая точность и математическая интуиция.

Результаты моделей и прогресс в решении

Первоначальные результаты (2021)

При запуске бенчмарка в 2021 году даже самые крупные модели показывали крайне низкие результаты.

  • Модель GPT-3 (175 млрд параметров) смогла правильно решить лишь около 5% задач.
  • Дообученные версии GPT-2 показывали точность 6-7%[1].

Авторы пришли к выводу, что простое увеличение масштаба моделей почти не влияет на производительность и для прогресса требуются новые алгоритмические подходы[3].

Прорыв Minerva и GPT-4 (2022–2023)

Прорыв произошёл с появлением моделей, специально обученных на научных текстах, и новых методов решения.

  • В 2022 году модель Google Minerva достигла точности около 50%, продемонстрировав, что сочетание масштаба и специализированной подготовки может резко повысить качество решения[3].
  • В 2023 году GPT-4 от OpenAI показала новый скачок. Используя инструменты, модель смогла значительно улучшить свои результаты:
    • С Code Interpreter (выполнение кода для проверки вычислений) точность достигла почти 70%.
    • С методом code-based self-verification (самопроверка и исправление ошибок с помощью кода) был установлен рекорд в 84,3% решённых задач[4].

Этот результат сопоставим с уровнем сильных участников-людей и приближается к экспертному порогу.

Значение и влияние

Бенчмарк МАТН сыграл ключевую роль в развитии математических способностей LLM. Он наглядно продемонстрировал, что для решения сложных задач недостаточно простого масштабирования, а необходимы новые подходы, такие как:

  • Обучение на полных пошаговых решениях.
  • Специализированная подготовка на научных данных.
  • Использование внешних инструментов для вычислений и верификации.

Несмотря на значительный прогресс, МАТН остаётся важным и сложным испытанием. Он продолжает служить индикатором уровня математического мышления у LLM и стимулирует исследования в области надёжного решения задач, требующих многошаговых рассуждений[1].

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]
  2. «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]
  3. 3,0 3,1 «Language models surprised us». Planned-Obsolescence.org. [3]
  4. «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]