GSM8K (Grade School Math 8K) — 学童算数8K
GSM8K (Grade School Math 8K) は、小学生レベルの数学文章問題約8,500問を含むベンチマークデータセットです。このデータセットは2021年にOpenAIの研究者によって作成され、大規模言語モデル(LLM)の多段階の数学的推論能力を評価・発展させることを目的としています[1]。GSM8Kは、人工知能の数学的思考能力の進歩を測定するための主要なベンチマークの一つとなっています。
データセットの各問題は短い文章題であり、解答するには2から8ステップの連続した算術演算(足し算、引き算、掛け算、割り算)が必要です。一見単純に見えますが、問題はテキストの深い理解と論理的推論を必要とするため、多くのLLMにとって困難な課題となっています[2]。
主な特徴
データ量と構成
GSM8Kデータセットには約8500問が含まれており、2つの部分に分かれています。
- 訓練セット:約7500問。モデルのファインチューニング(fine-tuning)を目的としており、各問題には詳細なステップバイステップの解答が付いています。
- テストセット:約1000問。モデルの性能を独立して評価するために使用されます[1]。
難易度と内容
問題は、優秀な中学生が解けるように意図的に作成されていますが、同時に多段階の推論が求められます。これにより、モデルの数学的知識そのものよりも、問題を分解し、論理的な操作を順次実行する能力をテストすることができます。
言語的な多様性
GSM8Kの問題文は、スタイルや言語構造において非常に多様です。これは、モデルが様々な方法で表現された問題の条件を理解し、特定のテンプレートを「暗記」することを避ける能力を検証するために行われています[3]。
モデル評価の歴史と進化
初期モデルとベースライン結果
2021年の最初の論文で、著者らは当時の大規模モデルであるGPT-3(1750億パラメータ)でさえ、このデータセットに大きな困難を抱えていることを示しました。ファインチューニングと補助的な検証モデルを使用した後でも、正解率はわずか55%程度でした[1]。この結果は、推論の連鎖における一つの小さな間違いが、完全に誤った答えにつながる可能性があることを示しました。
画期的な手法:Chain-of-Thought
GSM8Kの問題解決におけるブレークスルーは、「思考の連鎖」(Chain-of-Thought, CoT)というアプローチでした。2022年、Googleの研究者らは、モデルに答えを出す前に解決のステップを明示的に記述させることで、正解率が大幅に向上することを示しました。PaLMモデル(5400億パラメータ)は、CoTを使用して58%の正解率を達成しました[4]。さらに複雑な手法であるself-consistency(複数の解答候補を生成し、最も頻度の高い答えを選択する)を適用することで、正解率を74%まで向上させることができました[4]。
人間のレベルを超える
2023年以降、最新の生成モデルはこのベンチマークで人間レベルを上回りました。
- OpenAIのGPT-4は、few-shot CoTモード(プロンプトで解決済みの問題例をいくつか与える)で約92%の正解率を達成し[5]、追加の戦略を用いることで最大97%に達しました[6]。
- AnthropicのClaude 2は88%の結果を示し、新しいバージョンのClaude 3は約95%を達成しました[3]。
このような高いパフォーマンスは、LLMの推論能力が大幅に進歩したことを示していますが、同時にGSM8Kが最先端モデルにとっては「ほぼ解決済み」になりつつあることも示唆しています。これにより、MATHやMMLUといった、より複雑なベンチマークの開発が促進されています。
モデルの訓練と開発における役割
GSM8Kは評価だけでなく、モデルの訓練と改善にも積極的に利用されています。
- ファインチューニング(Fine-tuning):ステップバイステップの解答が含まれる訓練セットは、モデルに数学的論理を教えるための貴重なリソースです。
- 検証モデルの訓練:OpenAIの最初の研究では、GSM8Kデータの一部が、生成された解答の正しさを評価する別の検証モデルの訓練に使用されました。この生成モデルと批評モデルを別々に訓練するアプローチは、その有効性を証明しました[1]。
- プロンプトエンジニアリング:多数の例が存在することにより、研究者らはChain-of-ThoughtやTree-of-Thoughtといった、モデルの重みを変更せずに推論を教えるプロンプト技術を開発・改良することができました。
外部リンク
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
脚注
- ↑ 1.0 1.1 1.2 1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]
- ↑ «GSM8K Dataset». Papers With Code. [2]
- ↑ 3.0 3.1 «GSM8K Benchmark». Klu.ai. [3]
- ↑ 4.0 4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]
- ↑ Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]
- ↑ «Achieving >97% on GSM8K». arXiv:2404.14963. [6]