WinoGrande Benchmark — مقياس WinoGrande

From Systems analysis wiki
Jump to navigation Jump to search

WinoGrande — هي مجموعة بيانات معيارية واسعة النطاق، مصممة لتقييم قدرة أنظمة الذكاء الاصطناعي على التفكير المنطقي المبني على الفطرة السليمة. تحتوي على حوالي 44,000 مهمة مبنية على صيغة تحدي مخططات وينوجراد (Winograd Schema Challenge - WSC)، ولكنها موسعة ومعقدة بشكل كبير باستخدام طريقة ترشيح "تنافسية" (adversarial) لإزالة الإشارات الإحصائية المضللة[1].

تم تطوير مجموعة البيانات هذه في عام 2019 من قبل مجموعة من الباحثين من Allen Institute for AI وجامعة واشنطن. كل مهمة عبارة عن جملة بها فراغ يجب ملؤه بأحد خيارين، مع اختيار الإجابة الصحيحة بناءً على السياق وفهم الموقف. أصبح WinoGrande أحد المقاييس الرئيسية في مجال معالجة اللغات الطبيعية (NLP)[2].

الخلفية: تقادم تحدي WSC

تحدي Winograd Schema Challenge (WSC) الأصلي، الذي تم اقتراحه في عام 2011، كان يحتوي على 273 مهمة فقط واعتُبر لفترة طويلة اختبارًا موثوقًا للفطرة السليمة. صُممت المهام فيه لتتطلب فهمًا للعالم، وليس مجرد مطابقة بسيطة للكلمات[3].

لكن بحلول عامي 2018–2019، ومع ظهور نماذج اللغة الكبيرة القائمة على معمارية "المحول" (Transformer)، مثل BERT، تغير الوضع. فقد تعلمت النماذج كيفية "خداع" الاختبار، محققة دقة تصل إلى حوالي 90% من خلال استغلال الأنماط الإحصائية غير المقصودة (العيوب أو artifacts) في البيانات، بدلاً من الفهم الحقيقي[4]. لم يعد تحدي WSC مؤشرًا موثوقًا، مما استدعى الحاجة إلى إنشاء مقياس جديد أكثر تعقيدًا وأوسع نطاقًا، وهو WinoGrande.

التطوير وطريقة الترشيح التنافسي (adversarial filtering)

مر إنشاء WinoGrande بمرحلتين رئيسيتين: التوليد الجماعي للمهام ثم ترشيحها.

التعهيد الجماعي (Crowdsourcing)

في المرحلة الأولى، وباستخدام منصة Amazon Mechanical Turk، تم تجميع قاعدة بيانات كبيرة تضم أكثر من 47,000 جملة. قام العاملون عبر المنصة بإنشاء أزواج من الجمل وفقًا لمخطط وينوجراد، مما ضمن التنوع اللغوي و"الضوضاء" التي تميز اللغة الطبيعية، على عكس المهام التي يكتبها فريق صغير من الخبراء[1].

خوارزمية AfLite

كان الابتكار الرئيسي في WinoGrande هو خوارزمية AfLite (اختصار لـ Adversarial Filtering Lite). صُممت هذه الطريقة لاستبعاد المهام التي يمكن حلها تلقائيًا بالاعتماد على إشارات إحصائية بسيطة، دون الحاجة إلى الفطرة السليمة. استخدمت الخوارزمية نماذج بسيطة لتحديد وإزالة الأمثلة التي كان فيها أحد الخيارين مرتبطًا بشكل واضح جدًا بكلمات أخرى في الجملة. على سبيل المثال، مهمة مثل «أكلت الأسود الحمر الوحشية لأنها مفترسة» كان سيتم استبعادها، لأن كلمة "مفترسة" ترتبط إحصائيًا بشكل وثيق بكلمة "الأسود".

نتيجة لعملية الترشيح، تم استبعاد حوالي 14% من البيانات التي جُمعت. تتضمن النسخة النهائية من مجموعة البيانات 43972 مهمة، مما يجعلها اختبارًا أكثر موثوقية وتعقيدًا بشكل ملحوظ[1].

نتائج النماذج والتقدم المحرز

عند إطلاق WinoGrande، أظهرت أفضل النماذج في ذلك الوقت نتائج أقل بكثير من الأداء البشري.

  • RoBERTa (نسخة محسّنة من BERT) حقق دقة بلغت ~79%.
  • الإنسان، في المتوسط، يحل المهام بدقة تبلغ ~94%[1].

أكدت هذه الفجوة أن الترشيح باستخدام AfLite قد نجح في إزالة العديد من "الطرق السهلة" أمام النماذج. ولكن مع تطور LLM، بدأت هذه الفجوة تتقلص.

  • بحلول عام 2022، وصل نموذج ST-MoE-32B إلى دقة 96.1%، متجاوزًا المستوى البشري[5].
  • أظهر نموذج GPT-3 نتيجة بلغت حوالي 88%[6].
  • يحل نموذج GPT-4، دون تدريب مسبق متخصص، المهام بدقة تبلغ ~87.5%[7].

التأثير والنقد

أصبح WinoGrande أحد المقاييس الرئيسية لتقييم الفطرة السليمة، ويُستخدم بانتظام لاختبار النماذج الجديدة. تُنشر نتائجه في التقارير الفنية لـشركات الذكاء الاصطناعي الرائدة وعلى منصات مقارنة النماذج[8].

في الوقت نفسه، أصبحت منهجية إنشاء مجموعة البيانات موضوعًا للنقاش العلمي. يشير بعض الباحثين إلى أن التعهيد الجماعي المكثف ربما أدى إلى ظهور عبارات غير طبيعية أو غامضة. كما أُثيرت شكوك حول ما إذا كان الترشيح التلقائي باستخدام AfLite قادرًا على إزالة جميع العيوب (artifacts) الخفية بالكامل[5]. ومع ذلك، لم يحفز WinoGrande التقدم في المقاييس فحسب، بل أثار أيضًا نقاشًا مهمًا حول تطوير طرق أكثر قوة وموثوقية لتقييم الذكاء الاصطناعي.

روابط خارجية

مراجع

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

الهوامش

  1. 1.0 1.1 1.2 1.3 Sakaguchi, K., Le Bras, R., Bhagavatula, C., Choi, Y. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv:1907.10641. [١]
  2. «allenai/winogrande». Hugging Face. [٢]
  3. «Winograd schema challenge». In Wikipedia. [٣]
  4. Kocijan, V. et al. «The defeat of the Winograd Schema Challenge». Artificial Intelligence. [٤]
  5. 5.0 5.1 Lepore, J. «AI Has Been Surprising for Years». Carnegie Endowment for International Peace. [٥]
  6. Brown, T. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165. [٦]
  7. OpenAI. «GPT-4 Technical Report». arXiv:2303.08774. [٧]
  8. «Common Sense Reasoning On Winogrande». HyperAI. [٨]