GSM8K (Grade School Math 8K) — 小学数学8K

From Systems analysis wiki
Jump to navigation Jump to search

GSM8KGrade School Math 8K)是一个基准数据集,包含约8500道小学水平的数学应用题。该数据集由OpenAI的研究人员于2021年创建,旨在评估和提升大型语言模型(LLM)的多步数学推理能力[1]。GSM8K已成为衡量人工智能数学思维能力进展的关键基准之一。

数据集中的每个问题都是一个简短的文本故事,其解答需要执行2到8个连续的算术运算(加、减、乘、除)。尽管这些问题看似简单,但它们需要深入的文本理解和逻辑推理,这对许多LLM来说具有挑战性[2]

主要特点

数据量与结构

GSM8K数据集包含约8500个问题,分为两部分:

  • 训练集:约7500个问题,用于模型的微调(fine-tuning)。每个问题都附有详细的分步解答。
  • 测试集:约1000个问题,用于独立评估模型的性能[1]

复杂性与内容

这些问题被特意设计成一个优秀的中学生能够解决的水平,但同时要求多步推理。这使得测试的重点不仅在于模型的数学知识,更在于其分解问题并按顺序执行逻辑运算的能力。

语言多样性

GSM8K中问题的表述方式风格各异,语言结构多样。这样做是为了测试模型理解不同表达方式下的问题条件的能力,并避免“死记硬背”特定的模板[3]

模型评估的历史与演变

早期模型与基线结果

在2021年的原始论文中,作者指出,即使是当时的大型模型,如GPT-3(1750亿参数),在处理该数据集时也遇到了相当大的困难。在经过微调并使用辅助的验证器模型后,解题准确率仅达到约55%[1]。这一结果表明,推理链中的一个微小错误就可能导致完全错误的答案。

突破性方法:思维链

解决GSM8K问题的一大突破是“思维链”Chain-of-Thought, CoT)方法的出现。2022年,Google的研究人员发现,如果引导模型在输出答案前明确写出解题步骤,准确率会显著提高。使用CoT的PaLM模型(5400亿参数)达到了58%的准确率[4]。而采用更复杂的自我一致性(self-consistency)技术(即生成多个解题方案并选择最常见的答案),准确率可提升至74%[4]

超越人类水平

从2023年起,最新的生成模型在该基准测试上已经超越了人类水平。

  • OpenAI的GPT-4few-shot CoT模式下(即在提示中提供几个已解决问题的示例)准确率达到了约92%[5],并通过额外策略提升至97%[6]
  • Anthropic的Claude 2取得了88%的成绩,而更新的Claude 3版本则达到了约95%[3]

如此高的性能表现证明了LLM在推理能力上的巨大进步,但同时也表明,对于前沿模型而言,GSM8K已接近“被解决”,这催生了更复杂的基准测试的开发,例如MATHMMLU

在模型训练与发展中的作用

除了评估,GSM8K还被广泛用于模型的训练与改进

  • 微调(Fine-tuning):带有分步解答的训练集是用于微调模型数学逻辑能力的宝贵资源。
  • 训练验证器:在OpenAI的原始论文中,部分GSM8K数据被用来训练一个独立的验证器模型,该模型负责评估生成解答的正确性。这种分别训练生成器和批评器的方案被证明是有效的[1]
  • 提示工程(Prompt Engineering):大量的示例使得研究人员能够开发和完善诸如思维链(Chain-of-Thought)思维树(Tree-of-Thought)等提示技术,这些技术可以在不改变模型权重的情况下训练模型进行推理。

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

  1. 1.0 1.1 1.2 1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]
  2. «GSM8K Dataset». Papers With Code. [2]
  3. 3.0 3.1 «GSM8K Benchmark». Klu.ai. [3]
  4. 4.0 4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]
  5. Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]
  6. «Achieving >97% on GSM8K». arXiv:2404.14963. [6]