MATH Benchmark (PT)

From Systems analysis wiki
Jump to navigation Jump to search

MATH (acrônimo do inglês Mathematics Aptitude Test of Heuristics) é um grande conjunto de dados e benchmark para avaliar as habilidades matemáticas e a capacidade de resolução de problemas de grandes modelos de linguagem (LLMs). O dataset foi apresentado em 2021 por um grupo de pesquisadores liderado por Dan Hendrycks e contém 12.500 problemas de competições de matemática do ensino médio americano, como AMC 10, AMC 12 e AIME[1].

Os problemas abrangem uma ampla gama de áreas (álgebra, geometria, teoria dos números, combinatória, etc.) e são classificados por nível de dificuldade. Diferente dos problemas didáticos padrão, eles frequentemente exigem uma abordagem criativa e métodos heurísticos, em vez da aplicação direta de fórmulas. Cada problema é acompanhado por uma solução completa passo a passo e uma resposta final, o que torna o MATH um recurso valioso tanto para o treinamento quanto para o teste de modelos[2].

Estrutura e características do dataset

O benchmark MATH possui várias características importantes que o tornam uma ferramenta de avaliação complexa e confiável.

Formato dos problemas

Todos os problemas e soluções são apresentados no formato LaTeX, e para a descrição de diagramas geométricos, utiliza-se a linguagem Asymptote. Isso permite que todas as condições, incluindo imagens, sejam representadas em formato de texto, acessível para processamento por um modelo de linguagem. A cada problema são atribuídas etiquetas correspondentes a sete áreas da matemática e cinco níveis de dificuldade[1].

Avaliação automática

As respostas finais no dataset são encapsuladas no formato especial `\boxed{...}` e seguem um padrão rigoroso (por exemplo, frações na forma irredutível). Isso permite a avaliação automática dos modelos usando a métrica de correspondência exata (exact match), o que elimina a subjetividade e a ambiguidade na verificação dos resultados. O modelo deve fornecer a resposta estritamente correta para que o problema seja considerado resolvido[1].

Complexidade dos problemas e nível humano

O MATH é um dos testes matemáticos mais difíceis para IA. Os problemas representam um desafio até mesmo para pessoas com sólida formação em matemática.

  • Durante a pesquisa do dataset, um grupo de estudantes universitários foi testado, com resultados variando de ~40% a ~90% para os vencedores de olimpíadas.
  • Até mesmo um vencedor de três medalhas de ouro na Olimpíada Internacional de Matemática não conseguiu resolver todos os problemas sem erros[1].

Isso demonstra que, para resolver com sucesso os problemas do MATH, não é necessário apenas conhecimento, mas também alta precisão e intuição matemática.

Resultados dos modelos e progresso na resolução

Resultados iniciais (2021)

No lançamento do benchmark em 2021, até mesmo os maiores modelos apresentaram resultados extremamente baixos.

  • O modelo GPT-3 (175 bilhões de parâmetros) conseguiu resolver corretamente apenas cerca de 5% dos problemas.
  • Versões ajustadas (fine-tuned) do GPT-2 mostraram uma precisão de 6-7%[1].

Os autores concluíram que o simples aumento da escala dos modelos quase não afeta o desempenho e que novas abordagens algorítmicas são necessárias para o progresso[3].

Avanço do Minerva e GPT-4 (2022–2023)

O grande avanço ocorreu com o surgimento de modelos especificamente treinados em textos científicos e novos métodos de resolução.

  • Em 2022, o modelo Minerva do Google alcançou uma precisão de cerca de 50%, demonstrando que a combinação de escala e treinamento especializado pode aumentar drasticamente a qualidade da resolução[3].
  • Em 2023, o GPT-4 da OpenAI demonstrou um novo salto. Utilizando ferramentas, o modelo conseguiu melhorar significativamente seus resultados:
    • Com o Code Interpreter (execução de código para verificar cálculos), a precisão atingiu quase 70%.
    • Com o método de code-based self-verification (autoverificação e correção de erros com código), foi estabelecido um recorde de 84,3% dos problemas resolvidos[4].

Este resultado é comparável ao nível de participantes humanos fortes e se aproxima do limiar de um especialista.

Significado e impacto

O benchmark MATH desempenhou um papel crucial no desenvolvimento das capacidades matemáticas dos LLMs. Ele demonstrou claramente que, para resolver problemas complexos, o simples escalonamento não é suficiente, sendo necessárias novas abordagens, tais como:

  • Treinamento com soluções completas passo a passo.
  • Treinamento especializado em dados científicos.
  • Uso de ferramentas externas para cálculos e verificação.

Apesar do progresso significativo, o MATH continua sendo um teste importante e desafiador. Ele continua a servir como um indicador do nível de raciocínio matemático dos LLMs e estimula a pesquisa na área de resolução confiável de problemas que exigem raciocínio de múltiplos passos[1].

Literatura

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

  1. 1.0 1.1 1.2 1.3 1.4 1.5 Hendrycks, D., et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv:2103.03874. [1]
  2. «AI Benchmarks and Datasets for LLM Evaluation». arXiv:2412.01020. [2]
  3. 3.0 3.1 «Language models surprised us». Planned-Obsolescence.org. [3]
  4. «GPT-4 Code Interpreter smashes maths benchmarks, hits new SOTA». The Decoder. [4]