GSM8K (Grade School Math 8K) (PT)
GSM8K (Grade School Math 8K) é um conjunto de dados de referência contendo cerca de 8.500 problemas de matemática de nível escolar em formato de texto. Foi criado em 2021 por pesquisadores da OpenAI para avaliar e desenvolver as capacidades de raciocínio matemático em múltiplos passos de grandes modelos de linguagem (LLMs)[1]. O GSM8K tornou-se um dos benchmarks fundamentais para medir o progresso no campo do raciocínio matemático da inteligência artificial.
Cada problema no conjunto de dados é uma pequena história em texto, cuja solução exige a execução de 2 a 8 operações aritméticas sequenciais (adição, subtração, multiplicação, divisão). Apesar de sua aparente simplicidade, os problemas exigem uma compreensão profunda do texto e raciocínio lógico, tornando-os desafiadores para muitos LLMs[2].
Principais características
Volume e estrutura
O conjunto de dados GSM8K contém aproximadamente 8.500 problemas, divididos em duas partes:
- Conjunto de treinamento: ~7.500 problemas, destinados ao ajuste fino (fine-tuning) de modelos. Cada problema é acompanhado de uma solução detalhada passo a passo.
- Conjunto de teste: ~1.000 problemas, usados para avaliação independente do desempenho dos modelos[1].
Complexidade e conteúdo
Os problemas são intencionalmente elaborados para que um aluno talentoso do ensino fundamental possa resolvê-los, mas exigem raciocínio em múltiplos passos. Isso permite testar não tanto o conhecimento matemático do modelo, mas sua capacidade de decompor um problema e executar operações lógicas de forma sequencial.
Diversidade linguística
As formulações dos problemas no GSM8K apresentam uma grande diversidade de estilos e construções linguísticas. Isso foi feito para testar a capacidade dos modelos de compreender as condições dos problemas expressas de diferentes maneiras e evitar a "memorização" de padrões específicos[3].
História e evolução da avaliação de modelos
Primeiros modelos e resultados de base
No artigo original de 2021, os autores demonstraram que mesmo os grandes modelos da época, como o GPT-3 (175 bilhões de parâmetros), enfrentavam dificuldades significativas com o conjunto de dados. Após o ajuste fino e o uso de um modelo verificador auxiliar, a precisão na resolução atingiu apenas cerca de 55%[1]. Esse resultado mostrou que um único erro pequeno na cadeia de raciocínio poderia levar a uma resposta completamente incorreta.
Técnicas inovadoras: Chain-of-Thought
Uma grande inovação na resolução de problemas do GSM8K foi a abordagem de "cadeia de pensamento" (Chain-of-Thought, CoT). Em 2022, pesquisadores do Google mostraram que, ao incentivar o modelo a detalhar explicitamente os passos da solução antes de fornecer a resposta, a precisão aumentava significativamente. O modelo PaLM (540 bilhões de parâmetros), usando CoT, alcançou 58% de precisão[4]. A aplicação de uma técnica mais complexa, a self-consistency (gerar múltiplas variantes de solução e escolher a resposta mais frequente), permitiu elevar a precisão para 74%[4].
Superando o nível humano
A partir de 2023, os modelos generativos mais recentes superaram o desempenho humano neste benchmark.
- O GPT-4 da OpenAI, no modo few-shot CoT (quando o prompt inclui alguns exemplos de problemas resolvidos), atingiu uma precisão de aproximadamente 92%[5], e com estratégias adicionais, chegou a 97%[6].
- O Claude 2 da Anthropic alcançou 88%, enquanto a versão mais recente, Claude 3, obteve cerca de 95%[3].
Esses altos índices de desempenho demonstram um progresso significativo nas capacidades de raciocínio dos LLMs, mas também indicam que o GSM8K está se tornando "quase resolvido" para os modelos de ponta, o que incentiva o desenvolvimento de benchmarks mais complexos, como o MATH e o MMLU.
Papel no treinamento e desenvolvimento de modelos
Além da avaliação, o GSM8K é ativamente utilizado para o treinamento e aprimoramento de modelos.
- Fine-tuning (ajuste fino): O conjunto de treinamento com soluções passo a passo é um recurso valioso para treinar os modelos em lógica matemática.
- Treinamento de verificadores: No trabalho original da OpenAI, parte dos dados do GSM8K foi usada para treinar um modelo verificador separado, que avaliava a correção das soluções geradas. Essa abordagem de treinar separadamente um gerador e um crítico provou sua eficácia[1].
- Engenharia de Prompt: A disponibilidade de um grande número de exemplos permitiu que os pesquisadores desenvolvessem e refinassem técnicas de prompt, como Chain-of-Thought e Tree-of-Thought, que ensinam o modelo a raciocinar sem alterar seus pesos.
Links
Leitura adicional
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notas
- ↑ 1.0 1.1 1.2 1.3 Cobbe, Karl et al. “Training Verifiers to Solve Math Word Problems”. arXiv:2110.14168. [1]
- ↑ “GSM8K Dataset”. Papers With Code. [2]
- ↑ 3.0 3.1 “GSM8K Benchmark”. Klu.ai. [3]
- ↑ 4.0 4.1 Wei, Jason et al. “Language Models Perform Reasoning via Chain of Thought”. Google Research Blog. [4]
- ↑ Yu, L., et al. “Solving Challenging Math Word Problems Using GPT-4”. EMNLP 2023. [5]
- ↑ “Achieving >97% on GSM8K”. arXiv:2404.14963. [6]