MATH Benchmark (PT)

MATH (acrônimo do inglês Mathematics Aptitude Test of Heuristics) é um grande conjunto de dados e benchmark para avaliar as habilidades matemáticas e a capacidade de resolução de problemas de grandes modelos de linguagem (LLMs). O dataset foi apresentado em 2021 por um grupo de pesquisadores liderado por Dan Hendrycks e contém 12.500 problemas de competições de matemática do ensino médio americano, como AMC 10, AMC 12 e AIME^[1].

Os problemas abrangem uma ampla gama de áreas (álgebra, geometria, teoria dos números, combinatória, etc.) e são classificados por nível de dificuldade. Diferente dos problemas didáticos padrão, eles frequentemente exigem uma abordagem criativa e métodos heurísticos, em vez da aplicação direta de fórmulas. Cada problema é acompanhado por uma solução completa passo a passo e uma resposta final, o que torna o MATH um recurso valioso tanto para o treinamento quanto para o teste de modelos^[2].

Estrutura e características do dataset

O benchmark MATH possui várias características importantes que o tornam uma ferramenta de avaliação complexa e confiável.

Formato dos problemas

Todos os problemas e soluções são apresentados no formato LaTeX, e para a descrição de diagramas geométricos, utiliza-se a linguagem Asymptote. Isso permite que todas as condições, incluindo imagens, sejam representadas em formato de texto, acessível para processamento por um modelo de linguagem. A cada problema são atribuídas etiquetas correspondentes a sete áreas da matemática e cinco níveis de dificuldade^[1].

Avaliação automática

As respostas finais no dataset são encapsuladas no formato especial `\boxed{...}` e seguem um padrão rigoroso (por exemplo, frações na forma irredutível). Isso permite a avaliação automática dos modelos usando a métrica de correspondência exata (exact match), o que elimina a subjetividade e a ambiguidade na verificação dos resultados. O modelo deve fornecer a resposta estritamente correta para que o problema seja considerado resolvido^[1].

Complexidade dos problemas e nível humano

O MATH é um dos testes matemáticos mais difíceis para IA. Os problemas representam um desafio até mesmo para pessoas com sólida formação em matemática.

Durante a pesquisa do dataset, um grupo de estudantes universitários foi testado, com resultados variando de ~40% a ~90% para os vencedores de olimpíadas.
Até mesmo um vencedor de três medalhas de ouro na Olimpíada Internacional de Matemática não conseguiu resolver todos os problemas sem erros^[1].

Isso demonstra que, para resolver com sucesso os problemas do MATH, não é necessário apenas conhecimento, mas também alta precisão e intuição matemática.

Resultados dos modelos e progresso na resolução

Resultados iniciais (2021)

No lançamento do benchmark em 2021, até mesmo os maiores modelos apresentaram resultados extremamente baixos.

O modelo GPT-3 (175 bilhões de parâmetros) conseguiu resolver corretamente apenas cerca de 5% dos problemas.
Versões ajustadas (fine-tuned) do GPT-2 mostraram uma precisão de 6-7%^[1].

Os autores concluíram que o simples aumento da escala dos modelos quase não afeta o desempenho e que novas abordagens algorítmicas são necessárias para o progresso^[3].

Avanço do Minerva e GPT-4 (2022–2023)

O grande avanço ocorreu com o surgimento de modelos especificamente treinados em textos científicos e novos métodos de resolução.

Em 2022, o modelo Minerva do Google alcançou uma precisão de cerca de 50%, demonstrando que a combinação de escala e treinamento especializado pode aumentar drasticamente a qualidade da resolução^[3].
Em 2023, o GPT-4 da OpenAI demonstrou um novo salto. Utilizando ferramentas, o modelo conseguiu melhorar significativamente seus resultados:
- Com o Code Interpreter (execução de código para verificar cálculos), a precisão atingiu quase 70%.
- Com o método de code-based self-verification (autoverificação e correção de erros com código), foi estabelecido um recorde de 84,3% dos problemas resolvidos^[4].

Este resultado é comparável ao nível de participantes humanos fortes e se aproxima do limiar de um especialista.

Significado e impacto

O benchmark MATH desempenhou um papel crucial no desenvolvimento das capacidades matemáticas dos LLMs. Ele demonstrou claramente que, para resolver problemas complexos, o simples escalonamento não é suficiente, sendo necessárias novas abordagens, tais como:

Treinamento com soluções completas passo a passo.
Treinamento especializado em dados científicos.
Uso de ferramentas externas para cálculos e verificação.

Apesar do progresso significativo, o MATH continua sendo um teste importante e desafiador. Ele continua a servir como um indicador do nível de raciocínio matemático dos LLMs e estimula a pesquisa na área de resolução confiável de problemas que exigem raciocínio de múltiplos passos^[1].

Links

Literatura

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]
↑ «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]
↑ ^3.0 ^3.1 «Language models surprised us». Planned-Obsolescence.org. [3]
↑ «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]

[hendrycks2021-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]

[llm_eval_datasets-2] «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]

[lang_models_surprised-3] 3.0 ^3.1 «Language models surprised us». Planned-Obsolescence.org. [3]

[decoder_gpt4-4] «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]

[1]

[2]

[3]

[4]

MATH Benchmark (PT)

Contents

Estrutura e características do dataset

Formato dos problemas

Avaliação automática

Complexidade dos problemas e nível humano

Resultados dos modelos e progresso na resolução

Resultados iniciais (2021)

Avanço do Minerva e GPT-4 (2022–2023)

Significado e impacto

Links

Literatura

Notas

Navigation menu

MATH Benchmark (PT)

Estrutura e características do dataset

Formato dos problemas

Avaliação automática

Complexidade dos problemas e nível humano

Resultados dos modelos e progresso na resolução

Resultados iniciais (2021)

Avanço do Minerva e GPT-4 (2022–2023)

Significado e impacto

Links

Literatura

Notas

Navigation menu

Search