GSM8K (Grade School Math 8K) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

GSM8K (Grade School Math 8K) é um conjunto de dados de referência contendo cerca de 8.500 problemas de matemática de nível escolar em formato de texto. Foi criado em 2021 por pesquisadores da OpenAI para avaliar e desenvolver as capacidades de raciocínio matemático em múltiplos passos de grandes modelos de linguagem (LLMs)[1]. O GSM8K tornou-se um dos benchmarks fundamentais para medir o progresso no campo do raciocínio matemático da inteligência artificial.

Cada problema no conjunto de dados é uma pequena história em texto, cuja solução exige a execução de 2 a 8 operações aritméticas sequenciais (adição, subtração, multiplicação, divisão). Apesar de sua aparente simplicidade, os problemas exigem uma compreensão profunda do texto e raciocínio lógico, tornando-os desafiadores para muitos LLMs[2].

Principais características

Volume e estrutura

O conjunto de dados GSM8K contém aproximadamente 8.500 problemas, divididos em duas partes:

  • Conjunto de treinamento: ~7.500 problemas, destinados ao ajuste fino (fine-tuning) de modelos. Cada problema é acompanhado de uma solução detalhada passo a passo.
  • Conjunto de teste: ~1.000 problemas, usados para avaliação independente do desempenho dos modelos[1].

Complexidade e conteúdo

Os problemas são intencionalmente elaborados para que um aluno talentoso do ensino fundamental possa resolvê-los, mas exigem raciocínio em múltiplos passos. Isso permite testar não tanto o conhecimento matemático do modelo, mas sua capacidade de decompor um problema e executar operações lógicas de forma sequencial.

Diversidade linguística

As formulações dos problemas no GSM8K apresentam uma grande diversidade de estilos e construções linguísticas. Isso foi feito para testar a capacidade dos modelos de compreender as condições dos problemas expressas de diferentes maneiras e evitar a "memorização" de padrões específicos[3].

História e evolução da avaliação de modelos

Primeiros modelos e resultados de base

No artigo original de 2021, os autores demonstraram que mesmo os grandes modelos da época, como o GPT-3 (175 bilhões de parâmetros), enfrentavam dificuldades significativas com o conjunto de dados. Após o ajuste fino e o uso de um modelo verificador auxiliar, a precisão na resolução atingiu apenas cerca de 55%[1]. Esse resultado mostrou que um único erro pequeno na cadeia de raciocínio poderia levar a uma resposta completamente incorreta.

Técnicas inovadoras: Chain-of-Thought

Uma grande inovação na resolução de problemas do GSM8K foi a abordagem de "cadeia de pensamento" (Chain-of-Thought, CoT). Em 2022, pesquisadores do Google mostraram que, ao incentivar o modelo a detalhar explicitamente os passos da solução antes de fornecer a resposta, a precisão aumentava significativamente. O modelo PaLM (540 bilhões de parâmetros), usando CoT, alcançou 58% de precisão[4]. A aplicação de uma técnica mais complexa, a self-consistency (gerar múltiplas variantes de solução e escolher a resposta mais frequente), permitiu elevar a precisão para 74%[4].

Superando o nível humano

A partir de 2023, os modelos generativos mais recentes superaram o desempenho humano neste benchmark.

  • O GPT-4 da OpenAI, no modo few-shot CoT (quando o prompt inclui alguns exemplos de problemas resolvidos), atingiu uma precisão de aproximadamente 92%[5], e com estratégias adicionais, chegou a 97%[6].
  • O Claude 2 da Anthropic alcançou 88%, enquanto a versão mais recente, Claude 3, obteve cerca de 95%[3].

Esses altos índices de desempenho demonstram um progresso significativo nas capacidades de raciocínio dos LLMs, mas também indicam que o GSM8K está se tornando "quase resolvido" para os modelos de ponta, o que incentiva o desenvolvimento de benchmarks mais complexos, como o MATH e o MMLU.

Papel no treinamento e desenvolvimento de modelos

Além da avaliação, o GSM8K é ativamente utilizado para o treinamento e aprimoramento de modelos.

  • Fine-tuning (ajuste fino): O conjunto de treinamento com soluções passo a passo é um recurso valioso para treinar os modelos em lógica matemática.
  • Treinamento de verificadores: No trabalho original da OpenAI, parte dos dados do GSM8K foi usada para treinar um modelo verificador separado, que avaliava a correção das soluções geradas. Essa abordagem de treinar separadamente um gerador e um crítico provou sua eficácia[1].
  • Engenharia de Prompt: A disponibilidade de um grande número de exemplos permitiu que os pesquisadores desenvolvessem e refinassem técnicas de prompt, como Chain-of-Thought e Tree-of-Thought, que ensinam o modelo a raciocinar sem alterar seus pesos.

Leitura adicional

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

  1. 1.0 1.1 1.2 1.3 Cobbe, Karl et al. “Training Verifiers to Solve Math Word Problems”. arXiv:2110.14168. [1]
  2. “GSM8K Dataset”. Papers With Code. [2]
  3. 3.0 3.1 “GSM8K Benchmark”. Klu.ai. [3]
  4. 4.0 4.1 Wei, Jason et al. “Language Models Perform Reasoning via Chain of Thought”. Google Research Blog. [4]
  5. Yu, L., et al. “Solving Challenging Math Word Problems Using GPT-4”. EMNLP 2023. [5]
  6. “Achieving >97% on GSM8K”. arXiv:2404.14963. [6]