GSM8K
GSM8K (Grade School Math 8K) — это эталонный набор данных, содержащий около 8,5 тысяч текстовых задач по математике школьного уровня. Он был создан в 2021 году исследователями из OpenAI для оценки и развития способностей больших языковых моделей (LLM) к многошаговым математическим рассуждениям[1]. GSM8K стал одним из ключевых бенчмарков для измерения прогресса в области математического мышления искусственного интеллекта.
Каждая задача в датасете представляет собой короткую текстовую историю, решение которой требует выполнения от 2 до 8 последовательных арифметических действий (сложение, вычитание, умножение, деление). Несмотря на кажущуюся простоту, задачи требуют глубокого понимания текста и логических рассуждений, что делает их сложными для многих LLM[2].
Ключевые характеристики
Объем и структура
Датасет GSM8K содержит около 8500 задач, которые разделены на две части:
- Обучающая выборка: ~7500 задач, предназначенных для дообучения (fine-tuning) моделей. Каждая задача снабжена развернутым пошаговым решением.
- Тестовая выборка: ~1000 задач, используемых для независимой оценки производительности моделей[1].
Сложность и содержание
Задачи намеренно составлены так, чтобы их мог решить способный ученик средней школы, но при этом они требуют многошаговых рассуждений. Это позволяет тестировать не столько математические знания модели, сколько её способность декомпозировать проблему и последовательно выполнять логические операции.
Лингвистическое разнообразие
Формулировки задач в GSM8K отличаются большим разнообразием стилей и языковых конструкций. Это сделано для проверки способности моделей понимать условия задач, выраженные разными способами, и избегать "заучивания" конкретных шаблонов[3].
История и эволюция оценки моделей
Ранние модели и базовые результаты
В оригинальной работе 2021 года авторы показали, что даже крупные модели того времени, такие как GPT-3 (175 млрд параметров), испытывали значительные трудности с датасетом. После дообучения и использования вспомогательной модели-верификатора точность решения достигала лишь около 55%[1]. Этот результат продемонстрировал, что одна небольшая ошибка в цепочке рассуждений может привести к полностью неверному ответу.
Прорывные методики: Chain-of-Thought
Прорывом в решении задач GSM8K стал подход «цепочка рассуждений» (Chain-of-Thought, CoT). В 2022 году исследователи из Google показали, что если побуждать модель явно расписывать шаги решения перед выводом ответа, точность значительно возрастает. Модель PaLM (540 млрд параметров) с использованием CoT достигла 58% точности[4]. Применение более сложной техники self-consistency (генерация нескольких вариантов решения и выбор наиболее частого ответа) позволило поднять точность до 74%[4].
Преодоление человеческого уровня
Начиная с 2023 года, новейшие генеративные модели превзошли человеческий уровень на данном бенчмарке.
- GPT-4 от OpenAI в режиме few-shot CoT (когда в подсказке даётся несколько примеров решённых задач) достиг точности около 92%[5], а с дополнительными стратегиями — до 97%[6].
- Claude 2 от Anthropic показал результат 88%, а более новая версия Claude 3 — около 95%[3].
Такие высокие показатели свидетельствуют о значительном прогрессе в способностях LLM к рассуждениям, однако также указывают на то, что GSM8K становится "почти решённым" для передовых моделей, что стимулирует разработку более сложных бенчмарков, таких как MATH и MMLU.
Роль в обучении и развитии моделей
Помимо оценки, GSM8K активно используется для обучения и улучшения моделей.
- Fine-tuning (дообучение): Обучающая выборка с пошаговыми решениями является ценным ресурсом для дообучения моделей математической логике.
- Обучение верификаторов: В оригинальной работе OpenAI часть данных GSM8K использовалась для обучения отдельной модели-верификатора, которая оценивала правильность сгенерированных решений. Этот подход раздельного обучения генератора и критика доказал свою эффективность[1].
- Prompt Engineering: Наличие большого числа примеров позволило исследователям разрабатывать и оттачивать техники подсказок, такие как Chain-of-Thought и Tree-of-Thought, которые обучают модель рассуждать без изменения её весов.
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 1,2 1,3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [1]
- ↑ «GSM8K Dataset». Papers With Code. [2]
- ↑ 3,0 3,1 «GSM8K Benchmark». Klu.ai. [3]
- ↑ 4,0 4,1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [4]
- ↑ Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [5]
- ↑ «Achieving >97% on GSM8K». arXiv:2404.14963. [6]