GSM8K (Grade School Math 8K) — 小学数学8K

GSM8K（Grade School Math 8K）是一个基准数据集，包含约8500道小学水平的数学应用题。该数据集由OpenAI的研究人员于2021年创建，旨在评估和提升大型语言模型（LLM）的多步数学推理能力^[1]。GSM8K已成为衡量人工智能数学思维能力进展的关键基准之一。

数据集中的每个问题都是一个简短的文本故事，其解答需要执行2到8个连续的算术运算（加、减、乘、除）。尽管这些问题看似简单，但它们需要深入的文本理解和逻辑推理，这对许多LLM来说具有挑战性^[2]。

主要特点

数据量与结构

GSM8K数据集包含约8500个问题，分为两部分：

训练集：约7500个问题，用于模型的微调（fine-tuning）。每个问题都附有详细的分步解答。
测试集：约1000个问题，用于独立评估模型的性能^[1]。

复杂性与内容

这些问题被特意设计成一个优秀的中学生能够解决的水平，但同时要求多步推理。这使得测试的重点不仅在于模型的数学知识，更在于其分解问题并按顺序执行逻辑运算的能力。

语言多样性

GSM8K中问题的表述方式风格各异，语言结构多样。这样做是为了测试模型理解不同表达方式下的问题条件的能力，并避免“死记硬背”特定的模板^[3]。

模型评估的历史与演变

早期模型与基线结果

在2021年的原始论文中，作者指出，即使是当时的大型模型，如GPT-3（1750亿参数），在处理该数据集时也遇到了相当大的困难。在经过微调并使用辅助的验证器模型后，解题准确率仅达到约55%^[1]。这一结果表明，推理链中的一个微小错误就可能导致完全错误的答案。

突破性方法：思维链

解决GSM8K问题的一大突破是“思维链”（Chain-of-Thought, CoT）方法的出现。2022年，Google的研究人员发现，如果引导模型在输出答案前明确写出解题步骤，准确率会显著提高。使用CoT的PaLM模型（5400亿参数）达到了58%的准确率^[4]。而采用更复杂的自我一致性（self-consistency）技术（即生成多个解题方案并选择最常见的答案），准确率可提升至74%^[4]。

超越人类水平

从2023年起，最新的生成模型在该基准测试上已经超越了人类水平。

OpenAI的GPT-4在few-shot CoT模式下（即在提示中提供几个已解决问题的示例）准确率达到了约92%^[5]，并通过额外策略提升至97%^[6]。
Anthropic的Claude 2取得了88%的成绩，而更新的Claude 3版本则达到了约95%^[3]。

如此高的性能表现证明了LLM在推理能力上的巨大进步，但同时也表明，对于前沿模型而言，GSM8K已接近“被解决”，这催生了更复杂的基准测试的开发，例如MATH和MMLU。

在模型训练与发展中的作用

除了评估，GSM8K还被广泛用于模型的训练与改进。

微调（Fine-tuning）：带有分步解答的训练集是用于微调模型数学逻辑能力的宝贵资源。
训练验证器：在OpenAI的原始论文中，部分GSM8K数据被用来训练一个独立的验证器模型，该模型负责评估生成解答的正确性。这种分别训练生成器和批评器的方案被证明是有效的^[1]。
提示工程（Prompt Engineering）：大量的示例使得研究人员能够开发和完善诸如思维链（Chain-of-Thought）和思维树（Tree-of-Thought）等提示技术，这些技术可以在不改变模型权重的情况下训练模型进行推理。

链接

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]
↑ «GSM8K Dataset». Papers With Code. [2]
↑ ^3.0 ^3.1 «GSM8K Benchmark». Klu.ai. [3]
↑ ^4.0 ^4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]
↑ Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]
↑ «Achieving >97% on GSM8K». arXiv:2404.14963. [6]

[openai2021-1] 1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]

[pwc-2] «GSM8K Dataset». Papers With Code. [2]

[klu_benchmark-3] 3.0 ^3.1 «GSM8K Benchmark». Klu.ai. [3]

[google_cot-4] 4.0 ^4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]

[gpt4_92-5] Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]

[gpt4_97-6] «Achieving >97% on GSM8K». arXiv:2404.14963. [6]

[1]

[2]

[3]

[4]

[5]

[6]

GSM8K (Grade School Math 8K) — 小学数学8K

Contents

主要特点

数据量与结构

复杂性与内容

语言多样性

模型评估的历史与演变

早期模型与基线结果

突破性方法：思维链

超越人类水平

在模型训练与发展中的作用

链接

参考文献

注释

Navigation menu

GSM8K (Grade School Math 8K) — 小学数学8K

主要特点

数据量与结构

复杂性与内容

语言多样性

模型评估的历史与演变

早期模型与基线结果

突破性方法：思维链

超越人类水平

在模型训练与发展中的作用

链接

参考文献

注释

Navigation menu

Search