GSM8K (Grade School Math 8K) — جي إس إم 8 كي

From Systems analysis wiki
Jump to navigation Jump to search

GSM8K (اختصار لـ Grade School Math 8K) — هي مجموعة بيانات مرجعية تحتوي على حوالي 8,500 مسألة رياضية نصية من المستوى المدرسي. تم إنشاؤها في عام 2021 من قبل باحثين في OpenAI لتقييم وتطوير قدرات نماذج اللغة الكبيرة (LLMs) على الاستدلال الرياضي متعدد الخطوات[1]. أصبحت GSM8K واحدة من معايير التقييم الرئيسية لقياس التقدم في مجال التفكير الرياضي لدى الذكاء الاصطناعي.

كل مسألة في مجموعة البيانات هي عبارة عن قصة نصية قصيرة، يتطلب حلها تنفيذ ما بين 2 إلى 8 عمليات حسابية متسلسلة (الجمع، الطرح، الضرب، القسمة). على الرغم من بساطتها الظاهرية، تتطلب المسائل فهمًا عميقًا للنص واستدلالًا منطقيًا، مما يجعلها صعبة للعديد من نماذج اللغة الكبيرة[2].

الخصائص الرئيسية

الحجم والهيكلية

تحتوي مجموعة بيانات GSM8K على حوالي 8500 مسألة، مقسمة إلى جزأين:

  • مجموعة التدريب: حوالي 7500 مسألة، مخصصة للضبط الدقيق (fine-tuning) للنماذج. كل مسألة مزودة بحل مفصل خطوة بخطوة.
  • مجموعة الاختبار: حوالي 1000 مسألة، تستخدم للتقييم المستقل لأداء النماذج[1].

الصعوبة والمحتوى

تم تصميم المسائل عمدًا بحيث يمكن لطالب متميز في المرحلة الإعدادية حلها، ولكنها في نفس الوقت تتطلب استدلالًا متعدد الخطوات. وهذا يسمح باختبار قدرة النموذج على تفكيك المشكلة وتنفيذ العمليات المنطقية بشكل متسلسل، أكثر من اختبار معرفته الرياضية بحد ذاتها.

التنوع اللغوي

تتميز صياغة المسائل في GSM8K بتنوع كبير في الأساليب والتراكيب اللغوية. ويهدف هذا إلى اختبار قدرة النماذج على فهم شروط المسائل المعبر عنها بطرق مختلفة، وتجنب "حفظ" قوالب معينة[3].

تاريخ وتقييم النماذج وتطوره

النماذج المبكرة والنتائج الأساسية

في الورقة البحثية الأصلية لعام 2021، أظهر المؤلفون أنه حتى النماذج الكبيرة في ذلك الوقت، مثل GPT-3 (175 مليار مُعلَمة)، واجهت صعوبات كبيرة مع مجموعة البيانات هذه. بعد الضبط الدقيق واستخدام نموذج مُدقِّق مساعد، لم تتجاوز دقة الحل سوى حوالي 55%[1]. أظهرت هذه النتيجة أن خطأ صغيرًا واحدًا في سلسلة الاستدلال يمكن أن يؤدي إلى إجابة غير صحيحة تمامًا.

الأساليب المبتكرة: سلسلة الفكر (Chain-of-Thought)

كانت الطفرة في حل مسائل GSM8K هي نهج "سلسلة الفكر" (Chain-of-Thought, CoT). في عام 2022، أظهر باحثون من Google أنه عند حث النموذج على تفصيل خطوات الحل بشكل صريح قبل تقديم الإجابة، تزداد الدقة بشكل كبير. حقق نموذج PaLM (540 مليار مُعلَمة) باستخدام CoT دقة بلغت 58%[4]. أما تطبيق تقنية أكثر تعقيدًا مثل self-consistency (توليد عدة حلول محتملة واختيار الإجابة الأكثر تكرارًا) فقد سمح برفع الدقة إلى 74%[4].

تجاوز المستوى البشري

بداية من عام 2023، تجاوزت النماذج التوليدية الأحدث مستوى الأداء البشري في هذا المعيار.

  • GPT-4 من OpenAI، في وضع few-shot CoT (حيث يُعطى في المُوجِّه عدة أمثلة لمسائل محلولة)، حقق دقة بلغت حوالي 92%[5]، ومع استراتيجيات إضافية وصلت إلى 97%[6].
  • Claude 2 من Anthropic أظهر نتيجة 88%، بينما الإصدار الأحدث Claude 3 حقق حوالي 95%[3].

تشير هذه المعدلات العالية إلى تقدم كبير في قدرات نماذج اللغة الكبيرة على الاستدلال، لكنها تشير أيضًا إلى أن معيار GSM8K أصبح "شبه محلول" بالنسبة للنماذج المتقدمة، مما يحفز تطوير معايير تقييم أكثر تعقيدًا مثل MATH و MMLU.

الدور في تدريب النماذج وتطويرها

إلى جانب التقييم، يُستخدم GSM8K بنشاط لـتدريب وتحسين النماذج.

  • الضبط الدقيق (Fine-tuning): تعد مجموعة التدريب التي تحتوي على حلول خطوة بخطوة موردًا قيمًا لتدريب النماذج على المنطق الرياضي.
  • تدريب المُدقِّقات (Verifiers): في العمل الأصلي لـ OpenAI، استُخدم جزء من بيانات GSM8K لتدريب نموذج مُدقِّق منفصل، يقوم بتقييم صحة الحلول المولَّدة. وقد أثبت هذا النهج، القائم على التدريب المنفصل للمولِّد والناقد، فعاليته[1].
  • هندسة الموجهات (Prompt Engineering): أتاح وجود عدد كبير من الأمثلة للباحثين تطوير وصقل تقنيات التوجيه، مثل Chain-of-Thought وTree-of-Thought، التي تعلم النموذج كيفية الاستدلال دون تغيير أوزانه.

روابط خارجية

مراجع

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

ملاحظات

  1. 1.0 1.1 1.2 1.3 Cobbe, Karl et al. «Training Verifiers to Solve Math Word Problems». arXiv:2110.14168. [١]
  2. «GSM8K Dataset». Papers With Code. [٢]
  3. 3.0 3.1 «GSM8K Benchmark». Klu.ai. [٣]
  4. 4.0 4.1 Wei, Jason et al. «Language Models Perform Reasoning via Chain of Thought». Google Research Blog. [٤]
  5. Yu, L., et al. «Solving Challenging Math Word Problems Using GPT-4». EMNLP 2023. [٥]
  6. «Achieving >97% on GSM8K». arXiv:2404.14963. [٦]