GSM8K (Grade School Math 8K) (ES)

GSM8K (Grade School Math 8K) es un conjunto de datos de referencia que contiene alrededor de 8.500 problemas de matemáticas de nivel escolar. Fue creado en 2021 por investigadores de OpenAI para evaluar y desarrollar las capacidades de los modelos de lenguaje grandes (LLM) para el razonamiento matemático de múltiples pasos^[1]. GSM8K se ha convertido en uno de los benchmarks clave para medir el progreso en el campo del razonamiento matemático de la inteligencia artificial.

Cada problema en el conjunto de datos es una breve historia de texto cuya solución requiere la ejecución de 2 a 8 operaciones aritméticas secuenciales (suma, resta, multiplicación, división). A pesar de su aparente simplicidad, los problemas requieren una comprensión profunda del texto y un razonamiento lógico, lo que los hace difíciles para muchos LLM^[2].

Características clave

Volumen y estructura

El conjunto de datos GSM8K contiene aproximadamente 8500 problemas, que se dividen en dos partes:

Conjunto de entrenamiento: ~7500 problemas, destinados al ajuste fino (fine-tuning) de los modelos. Cada problema viene con una solución detallada paso a paso.
Conjunto de prueba: ~1000 problemas, utilizados para la evaluación independiente del rendimiento de los modelos^[1].

Complejidad y contenido

Los problemas están diseñados deliberadamente para que un estudiante de secundaria competente pueda resolverlos, pero al mismo tiempo requieren un razonamiento de múltiples pasos. Esto permite evaluar no tanto los conocimientos matemáticos del modelo, sino su capacidad para descomponer un problema y ejecutar operaciones lógicas de forma secuencial.

Diversidad lingüística

Las formulaciones de los problemas en GSM8K presentan una gran diversidad de estilos y construcciones lingüísticas. Esto se hace para verificar la capacidad de los modelos para comprender las condiciones de los problemas expresadas de diferentes maneras y evitar la "memorización" de plantillas específicas^[3].

Historia y evolución de la evaluación de modelos

Primeros modelos y resultados base

En el trabajo original de 2021, los autores demostraron que incluso los grandes modelos de la época, como GPT-3 (175 mil millones de parámetros), tenían dificultades significativas con el conjunto de datos. Después del ajuste fino y el uso de un modelo verificador auxiliar, la precisión de la solución solo alcanzaba alrededor del 55%^[1]. Este resultado demostró que un pequeño error en la cadena de razonamiento puede llevar a una respuesta completamente incorrecta.

Técnicas innovadoras: Chain-of-Thought

Un gran avance en la resolución de problemas de GSM8K fue el enfoque de la "cadena de pensamiento" (Chain-of-Thought, CoT). En 2022, investigadores de Google demostraron que si se incita al modelo a detallar explícitamente los pasos de la solución antes de dar la respuesta, la precisión aumenta significativamente. El modelo PaLM (540 mil millones de parámetros) con el uso de CoT alcanzó una precisión del 58%^[4]. El uso de la técnica más compleja de self-consistency (generar varias variantes de solución y elegir la respuesta más frecuente) permitió elevar la precisión al 74%^[4].

Superando el nivel humano

A partir de 2023, los modelos generativos más recientes han superado el nivel humano en este benchmark.

GPT-4 de OpenAI en modo few-shot CoT (cuando en el prompt se dan varios ejemplos de problemas resueltos) alcanzó una precisión de alrededor del 92%^[5], y con estrategias adicionales, hasta un 97%^[6].
Claude 2 de Anthropic mostró un resultado del 88%, y la versión más reciente, Claude 3, alrededor del 95%^[3].

Estos altos resultados demuestran un progreso significativo en las capacidades de razonamiento de los LLM, pero también indican que GSM8K se está convirtiendo en un problema "casi resuelto" para los modelos de vanguardia, lo que impulsa el desarrollo de benchmarks más complejos como MATH y MMLU.

Papel en el entrenamiento y desarrollo de modelos

Además de la evaluación, GSM8K se utiliza activamente para el entrenamiento y la mejora de los modelos.

Fine-tuning (ajuste fino): El conjunto de entrenamiento con soluciones paso a paso es un recurso valioso para entrenar a los modelos en lógica matemática.
Entrenamiento de verificadores: En el trabajo original de OpenAI, parte de los datos de GSM8K se utilizó para entrenar un modelo verificador separado, que evaluaba la corrección de las soluciones generadas. Este enfoque de entrenar por separado un generador y un crítico demostró su eficacia^[1].
Ingeniería de prompts: La disponibilidad de un gran número de ejemplos ha permitido a los investigadores desarrollar y perfeccionar técnicas de prompting, como Chain-of-Thought y Tree-of-Thought, que enseñan al modelo a razonar sin modificar sus pesos.

Enlaces

Bibliografía

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]
↑ «GSM8K Dataset». Papers With Code. [2]
↑ ^3.0 ^3.1 «GSM8K Benchmark». Klu.ai. [3]
↑ ^4.0 ^4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]
↑ Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]
↑ «Achieving >97% on GSM8K». arXiv:2404.14963. [6]

[openai2021-1] 1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]

[pwc-2] «GSM8K Dataset». Papers With Code. [2]

[klu_benchmark-3] 3.0 ^3.1 «GSM8K Benchmark». Klu.ai. [3]

[google_cot-4] 4.0 ^4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]

[gpt4_92-5] Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]

[gpt4_97-6] «Achieving >97% on GSM8K». arXiv:2404.14963. [6]

[1]

[2]

[3]

[4]

[5]

[6]

GSM8K (Grade School Math 8K) (ES)

Contents

Características clave

Volumen y estructura

Complejidad y contenido

Diversidad lingüística

Historia y evolución de la evaluación de modelos

Primeros modelos y resultados base

Técnicas innovadoras: Chain-of-Thought

Superando el nivel humano

Papel en el entrenamiento y desarrollo de modelos

Enlaces

Bibliografía

Notas

Navigation menu

GSM8K (Grade School Math 8K) (ES)

Características clave

Volumen y estructura

Complejidad y contenido

Diversidad lingüística

Historia y evolución de la evaluación de modelos

Primeros modelos y resultados base

Técnicas innovadoras: Chain-of-Thought

Superando el nivel humano

Papel en el entrenamiento y desarrollo de modelos

Enlaces

Bibliografía

Notas

Navigation menu

Search