GSM8K (Grade School Math 8K) (PT)

GSM8K (Grade School Math 8K) é um conjunto de dados de referência contendo cerca de 8.500 problemas de matemática de nível escolar em formato de texto. Foi criado em 2021 por pesquisadores da OpenAI para avaliar e desenvolver as capacidades de raciocínio matemático em múltiplos passos de grandes modelos de linguagem (LLMs)^[1]. O GSM8K tornou-se um dos benchmarks fundamentais para medir o progresso no campo do raciocínio matemático da inteligência artificial.

Cada problema no conjunto de dados é uma pequena história em texto, cuja solução exige a execução de 2 a 8 operações aritméticas sequenciais (adição, subtração, multiplicação, divisão). Apesar de sua aparente simplicidade, os problemas exigem uma compreensão profunda do texto e raciocínio lógico, tornando-os desafiadores para muitos LLMs^[2].

Principais características

Volume e estrutura

O conjunto de dados GSM8K contém aproximadamente 8.500 problemas, divididos em duas partes:

Conjunto de treinamento: ~7.500 problemas, destinados ao ajuste fino (fine-tuning) de modelos. Cada problema é acompanhado de uma solução detalhada passo a passo.
Conjunto de teste: ~1.000 problemas, usados para avaliação independente do desempenho dos modelos^[1].

Complexidade e conteúdo

Os problemas são intencionalmente elaborados para que um aluno talentoso do ensino fundamental possa resolvê-los, mas exigem raciocínio em múltiplos passos. Isso permite testar não tanto o conhecimento matemático do modelo, mas sua capacidade de decompor um problema e executar operações lógicas de forma sequencial.

Diversidade linguística

As formulações dos problemas no GSM8K apresentam uma grande diversidade de estilos e construções linguísticas. Isso foi feito para testar a capacidade dos modelos de compreender as condições dos problemas expressas de diferentes maneiras e evitar a "memorização" de padrões específicos^[3].

História e evolução da avaliação de modelos

Primeiros modelos e resultados de base

No artigo original de 2021, os autores demonstraram que mesmo os grandes modelos da época, como o GPT-3 (175 bilhões de parâmetros), enfrentavam dificuldades significativas com o conjunto de dados. Após o ajuste fino e o uso de um modelo verificador auxiliar, a precisão na resolução atingiu apenas cerca de 55%^[1]. Esse resultado mostrou que um único erro pequeno na cadeia de raciocínio poderia levar a uma resposta completamente incorreta.

Técnicas inovadoras: Chain-of-Thought

Uma grande inovação na resolução de problemas do GSM8K foi a abordagem de "cadeia de pensamento" (Chain-of-Thought, CoT). Em 2022, pesquisadores do Google mostraram que, ao incentivar o modelo a detalhar explicitamente os passos da solução antes de fornecer a resposta, a precisão aumentava significativamente. O modelo PaLM (540 bilhões de parâmetros), usando CoT, alcançou 58% de precisão^[4]. A aplicação de uma técnica mais complexa, a self-consistency (gerar múltiplas variantes de solução e escolher a resposta mais frequente), permitiu elevar a precisão para 74%^[4].

Superando o nível humano

A partir de 2023, os modelos generativos mais recentes superaram o desempenho humano neste benchmark.

O GPT-4 da OpenAI, no modo few-shot CoT (quando o prompt inclui alguns exemplos de problemas resolvidos), atingiu uma precisão de aproximadamente 92%^[5], e com estratégias adicionais, chegou a 97%^[6].
O Claude 2 da Anthropic alcançou 88%, enquanto a versão mais recente, Claude 3, obteve cerca de 95%^[3].

Esses altos índices de desempenho demonstram um progresso significativo nas capacidades de raciocínio dos LLMs, mas também indicam que o GSM8K está se tornando "quase resolvido" para os modelos de ponta, o que incentiva o desenvolvimento de benchmarks mais complexos, como o MATH e o MMLU.

Papel no treinamento e desenvolvimento de modelos

Além da avaliação, o GSM8K é ativamente utilizado para o treinamento e aprimoramento de modelos.

Fine-tuning (ajuste fino): O conjunto de treinamento com soluções passo a passo é um recurso valioso para treinar os modelos em lógica matemática.
Treinamento de verificadores: No trabalho original da OpenAI, parte dos dados do GSM8K foi usada para treinar um modelo verificador separado, que avaliava a correção das soluções geradas. Essa abordagem de treinar separadamente um gerador e um crítico provou sua eficácia^[1].
Engenharia de Prompt: A disponibilidade de um grande número de exemplos permitiu que os pesquisadores desenvolvessem e refinassem técnicas de prompt, como Chain-of-Thought e Tree-of-Thought, que ensinam o modelo a raciocinar sem alterar seus pesos.

Links

Leitura adicional

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. “Training Verifiers to Solve Math Word Problems”. arXiv:2110.14168. [1]
↑ “GSM8K Dataset”. Papers With Code. [2]
↑ ^3.0 ^3.1 “GSM8K Benchmark”. Klu.ai. [3]
↑ ^4.0 ^4.1 Wei, Jason et al. “Language Models Perform Reasoning via Chain of Thought”. Google Research Blog. [4]
↑ Yu, L., et al. “Solving Challenging Math Word Problems Using GPT-4”. EMNLP 2023. [5]
↑ “Achieving >97% on GSM8K”. arXiv:2404.14963. [6]

[openai2021-1] 1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. “Training Verifiers to Solve Math Word Problems”. arXiv:2110.14168. [1]

[pwc-2] “GSM8K Dataset”. Papers With Code. [2]

[klu_benchmark-3] 3.0 ^3.1 “GSM8K Benchmark”. Klu.ai. [3]

[google_cot-4] 4.0 ^4.1 Wei, Jason et al. “Language Models Perform Reasoning via Chain of Thought”. Google Research Blog. [4]

[gpt4_92-5] Yu, L., et al. “Solving Challenging Math Word Problems Using GPT-4”. EMNLP 2023. [5]

[gpt4_97-6] “Achieving >97% on GSM8K”. arXiv:2404.14963. [6]

[1]

[2]

[3]

[4]

[5]

[6]

GSM8K (Grade School Math 8K) (PT)

Contents

Principais características

Volume e estrutura

Complexidade e conteúdo

Diversidade linguística

História e evolução da avaliação de modelos

Primeiros modelos e resultados de base

Técnicas inovadoras: Chain-of-Thought

Superando o nível humano

Papel no treinamento e desenvolvimento de modelos

Links

Leitura adicional

Notas

Navigation menu

GSM8K (Grade School Math 8K) (PT)

Principais características

Volume e estrutura

Complexidade e conteúdo

Diversidade linguística

História e evolução da avaliação de modelos

Primeiros modelos e resultados de base

Técnicas inovadoras: Chain-of-Thought

Superando o nível humano

Papel no treinamento e desenvolvimento de modelos

Links

Leitura adicional

Notas

Navigation menu

Search