GSM8K (Grade School Math 8K) (DE)

GSM8K (Grade School Math 8K) ist ein Benchmark-Datensatz, der etwa 8.500 Textaufgaben aus der Grundschulmathematik enthält. Er wurde 2021 von Forschern bei OpenAI entwickelt, um die Fähigkeit von großen Sprachmodellen (LLMs) zu mehrstufigen mathematischen Schlussfolgerungen zu bewerten und weiterzuentwickeln^[1]. GSM8K hat sich zu einem der wichtigsten Benchmarks für die Messung von Fortschritten im Bereich des mathematischen Denkens bei künstlicher Intelligenz entwickelt.

Jede Aufgabe im Datensatz ist eine kurze Textgeschichte, deren Lösung die Ausführung von 2 bis 8 aufeinanderfolgenden arithmetischen Operationen (Addition, Subtraktion, Multiplikation, Division) erfordert. Trotz ihrer scheinbaren Einfachheit erfordern die Aufgaben ein tiefes Textverständnis und logisches Denken, was sie für viele LLMs zu einer Herausforderung macht^[2].

Schlüsselmerkmale

Umfang und Struktur

Der GSM8K-Datensatz umfasst etwa 8.500 Aufgaben, die in zwei Teile unterteilt sind:

Trainingsdatensatz: ~7.500 Aufgaben, die für das Feinabstimmen (fine-tuning) von Modellen vorgesehen sind. Jede Aufgabe enthält eine detaillierte schrittweise Lösung.
Testdatensatz: ~1.000 Aufgaben, die zur unabhängigen Bewertung der Modellleistung verwendet werden^[1].

Komplexität und Inhalt

Die Aufgaben sind absichtlich so konzipiert, dass ein fähiger Mittelschüler sie lösen kann, erfordern jedoch mehrstufige Schlussfolgerungen. Dies ermöglicht es, nicht so sehr das mathematische Wissen des Modells zu testen, sondern vielmehr seine Fähigkeit, ein Problem zu zerlegen und logische Operationen nacheinander auszuführen.

Linguistische Vielfalt

Die Formulierungen der Aufgaben in GSM8K zeichnen sich durch eine große Vielfalt an Stilen und sprachlichen Konstruktionen aus. Dies dient dazu, die Fähigkeit der Modelle zu überprüfen, Aufgabenstellungen zu verstehen, die auf unterschiedliche Weise formuliert sind, und das „Auswendiglernen“ bestimmter Muster zu vermeiden^[3].

Geschichte und Entwicklung der Modellevaluierung

Frühe Modelle und Baseline-Ergebnisse

In der ursprünglichen Arbeit von 2021 zeigten die Autoren, dass selbst große Modelle dieser Zeit, wie GPT-3 (175 Mrd. Parameter), erhebliche Schwierigkeiten mit dem Datensatz hatten. Nach dem Feinabstimmen und dem Einsatz eines unterstützenden Verifikator-Modells erreichte die Lösungsgenauigkeit nur etwa 55 %^[1]. Dieses Ergebnis zeigte, dass ein einziger kleiner Fehler in der Argumentationskette zu einer völlig falschen Antwort führen kann.

Bahnbrechende Methoden: Chain-of-Thought

Ein Durchbruch bei der Lösung der GSM8K-Aufgaben war der Chain-of-Thought-Ansatz (Chain-of-Thought, CoT). Im Jahr 2022 zeigten Forscher von Google, dass die Genauigkeit erheblich steigt, wenn das Modell dazu angeleitet wird, die Lösungsschritte explizit darzulegen, bevor es die Antwort ausgibt. Das Modell PaLM (540 Mrd. Parameter) erreichte mit CoT eine Genauigkeit von 58 %^[4]. Die Anwendung der komplexeren Technik Self-Consistency (Generierung mehrerer Lösungswege und Auswahl der häufigsten Antwort) steigerte die Genauigkeit auf 74 %^[4].

Übertreffen des menschlichen Niveaus

Seit 2023 haben die neuesten generativen Modelle das menschliche Leistungsniveau bei diesem Benchmark übertroffen.

GPT-4 von OpenAI erreichte im Few-Shot-CoT-Modus (bei dem im Prompt einige Beispiele für gelöste Aufgaben gegeben werden) eine Genauigkeit von etwa 92 %^[5] und mit zusätzlichen Strategien bis zu 97 %^[6].
Claude 2 von Anthropic erzielte ein Ergebnis von 88 %, während die neuere Version Claude 3 etwa 95 % erreichte^[3].

Solch hohe Werte deuten auf erhebliche Fortschritte in den Schlussfolgerungsfähigkeiten von LLMs hin. Sie zeigen jedoch auch, dass GSM8K für Spitzenmodelle „nahezu gelöst“ ist, was die Entwicklung komplexerer Benchmarks wie MATH und MMLU vorantreibt.

Rolle beim Training und der Entwicklung von Modellen

Neben der Evaluierung wird GSM8K auch aktiv für das Training und die Verbesserung von Modellen genutzt.

Fine-Tuning (Feinabstimmung): Der Trainingsdatensatz mit schrittweisen Lösungen ist eine wertvolle Ressource, um Modelle in mathematischer Logik zu schulen.
Training von Verifikatoren: In der ursprünglichen Arbeit von OpenAI wurde ein Teil der GSM8K-Daten verwendet, um ein separates Verifikator-Modell zu trainieren, das die Korrektheit der generierten Lösungen bewertete. Dieser Ansatz, bei dem Generator und Kritiker getrennt trainiert werden, hat sich als wirksam erwiesen^[1].
Prompt Engineering: Die große Anzahl an Beispielen ermöglichte es Forschern, Prompt-Techniken wie Chain-of-Thought und Tree-of-Thought zu entwickeln und zu verfeinern. Diese Techniken bringen dem Modell bei, zu schlussfolgern, ohne seine Gewichte zu verändern.

Weblinks

Literatur

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Einzelnachweise

↑ ^1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. "Training Verifiers to Solve Math Word Problems". arXiv:2110.14168. [1]
↑ "GSM8K Dataset". Papers With Code. [2]
↑ ^3.0 ^3.1 "GSM8K Benchmark". Klu.ai. [3]
↑ ^4.0 ^4.1 Wei, Jason et al. "Language Models Perform Reasoning via Chain of Thought". Google Research Blog. [4]
↑ Yu, L., et al. "Solving Challenging Math Word Problems Using GPT-4". EMNLP 2023. [5]
↑ "Achieving >97% on GSM8K". arXiv:2404.14963. [6]

[openai2021-1] 1.0 ^1.1 ^1.2 ^1.3 Cobbe, Karl et al. "Training Verifiers to Solve Math Word Problems". arXiv:2110.14168. [1]

[pwc-2] "GSM8K Dataset". Papers With Code. [2]

[klu_benchmark-3] 3.0 ^3.1 "GSM8K Benchmark". Klu.ai. [3]

[google_cot-4] 4.0 ^4.1 Wei, Jason et al. "Language Models Perform Reasoning via Chain of Thought". Google Research Blog. [4]

[gpt4_92-5] Yu, L., et al. "Solving Challenging Math Word Problems Using GPT-4". EMNLP 2023. [5]

[gpt4_97-6] "Achieving >97% on GSM8K". arXiv:2404.14963. [6]

[1]

[2]

[3]

[4]

[5]

[6]

GSM8K (Grade School Math 8K) (DE)

Contents

Schlüsselmerkmale

Umfang und Struktur

Komplexität und Inhalt

Linguistische Vielfalt

Geschichte und Entwicklung der Modellevaluierung

Frühe Modelle und Baseline-Ergebnisse

Bahnbrechende Methoden: Chain-of-Thought

Übertreffen des menschlichen Niveaus

Rolle beim Training und der Entwicklung von Modellen

Weblinks

Literatur

Einzelnachweise

Navigation menu

GSM8K (Grade School Math 8K) (DE)

Schlüsselmerkmale

Umfang und Struktur

Komplexität und Inhalt

Linguistische Vielfalt

Geschichte und Entwicklung der Modellevaluierung

Frühe Modelle und Baseline-Ergebnisse

Bahnbrechende Methoden: Chain-of-Thought

Übertreffen des menschlichen Niveaus

Rolle beim Training und der Entwicklung von Modellen

Weblinks

Literatur

Einzelnachweise

Navigation menu

Search