HellaSwag Benchmark — معيار HellaSwag
HellaSwag هو مجموعة بيانات قياسية (benchmark) قُدِّمت عام 2019 لتقييم قدرة نماذج الذكاء الاصطناعي على فهم المواقف الحياتية اليومية (ما يُعرف بالـ commonsense reasoning) باللغة الطبيعية[1]. طوّر هذا المعيار مجموعة من الباحثين من جامعة واشنطن ومعهد ألن للذكاء الاصطناعي.
تتلخص مهمة HellaSwag في اختيار التكملة الأكثر منطقية لسياق نصي معين. الميزة الأساسية لمجموعة البيانات هي أنها تبدو تافهة للإنسان، لكنها تربك حتى النماذج اللغوية المتقدمة التي تعتمد على الأنماط الإحصائية السطحية[2].
التاريخ والخلفية
يعتبر HellaSwag تطويراً لأفكار مجموعة البيانات SWAG (Situations With Adversarial Generations)، التي اقترحتها نفس المجموعة من المؤلفين في عام 2018. في مهمة SWAG، كان يُطلب من النماذج اختيار التكملة الأكثر احتمالاً لوصف موقف بسيط. في البداية، كانت مهمة SWAG صعبة على الخوارزميات، ولكن مع ظهور نموذج BERT، وصلت نتائجه على SWAG إلى مستوى ~86%، أي ما يعادل الأداء البشري تقريبًا[2].
أثار هذا النجاح شكوكًا: هل يفهم BERT النص حقًا، أم أنه تعلم ببساطة التعرف على المصنوعات والأنماط الإحصائية الموجودة في مجموعة البيانات؟ طرح مؤلفو HellaSwag فرضية مفادها أن النتيجة العالية لـ BERT لا تُعزى إلى فهم حقيقي، بل إلى التكيف المفرط مع خصوصيات مجموعة البيانات. وقد أظهروا أنه عند أدنى تغيير في توزيع البيانات، تنخفض دقة BERT بشكل حاد. كان هذا يعني أنه لتقييم التقدم في مجال NLP بموضوعية، هناك حاجة إلى معيار جديد أكثر تعقيدًا و"خداعًا"[2].
وصف مجموعة البيانات وأهدافها
صُمم HellaSwag كاختبار يهدف إلى كشف قيود النماذج الحديثة في فهم العلاقات السببية والسيناريوهات اليومية.
بنية المهمة
يتكون كل مثال في HellaSwag من جزأين:
- السياق: فقرة قصيرة (تصل إلى ثلاث جمل) تصف بداية موقف ما.
- أربعة خيارات للتكملة: أربع تتمات محتملة للقصة، تتكون أيضًا من عدة جمل.
واحدة فقط من هذه التكميلات هي الصحيحة (الواقعية)، بينما الخيارات الثلاثة الأخرى خاطئة، وقد تم إنشاؤها خصيصًا لتضليل النموذج.
مصادر البيانات
أُخذت أمثلة المواقف من مصدرين يغطيان مجموعة واسعة من السيناريوهات اليومية:
- ActivityNet Captions: أوصاف لأفعال من مقاطع فيديو (على سبيل المثال، "شخص يفتح برطمان مخلل").
- WikiHow: إرشادات من مقالات (على سبيل المثال، "كيفية تغيير إطار سيارة").
الهدف من HellaSwag هو إنشاء معيار أداء يمكن للإنسان حله بسهولة (بشكل حدسي)، ولكنه يصعّب المهمة إلى أقصى حد على النماذج التي تفتقر إلى الحس السليم الكامل. أطلق المؤلفون على هذا التأثير اسم "تأثير غولديلوكس" (Goldilocks effect)[1].
Adversarial Filtering (AF) - منهجية الترشيح التنافسي
كان الابتكار الرئيسي عند إنشاء HellaSwag هو استخدام طريقة Adversarial Filtering (AF) — وهي عملية اختيار تكرارية لـ "الأفخاخ" المصممة خصيصًا لنموذج "ضحيّة" معين. سمحت هذه الطريقة بإنشاء خيارات خاطئة تشبه بشكل خادع الخيارات الصحيحة من وجهة نظر النماذج الإحصائية.
تبدو آلية عمل AF كما يلي:
- التوليد. بناءً على السياق الأصلي، يقوم نموذج لغوي مولِّد (مثل GPT) بإنشاء العديد من النهايات الخاطئة المحتملة.
- التمييز. يحاول نموذج مصنِّف (مثل BERT)، الذي يلعب دور "الضحية"، التمييز بين التتمات المولَّدة والتتمة الحقيقية (الصحيحة).
- الاختيار. يتم اختيار تلك الخيارات الخاطئة التي اعتبرها المصنِّف الأكثر منطقية، أي تلك التي كان من المرجح أن يخطئ في تصنيفها.
- التكرار. تتكرر العملية عدة مرات حتى تصبح الإجابات الخاطئة شبيهة جدًا بالإجابة الصحيحة بالنسبة للخوارزمية.
- التحقق البشري. في المرحلة النهائية، يتم تقييم المجموعات الناتجة (السياق + نهاية صحيحة واحدة + أفضل 3 نهايات خاطئة) من قبل البشر. يؤكد المقيِّمون أن الخيار الصحيح هو الأكثر طبيعية بشكل لا لبس فيه، وأن جميع البدائل تحتوي على نوع من عدم المنطقية يلاحظه الإنسان[2].
بفضل AF، تم تصميم كل مثال في HellaSwag في الأصل لتضليل النموذج، مع الحفاظ على شفافيته بالنسبة للإنسان.
النتائج والأهمية
أصبح HellaSwag اختبارًا صارمًا لنماذج فهم النصوص. أظهرت نتائج الاختبار فجوة هائلة بين الذكاء الآلي والذكاء البشري:
- الإنسان يحل مهام HellaSwag بشكل شبه مثالي، بدقة تقارب 95-96%[2].
- أفضل نموذج وقت إنشائه، BERT-Large، حقق دقة بلغت ~47% فقط. أما الطرق الأبسط فقد أظهرت نتائج أعلى بقليل من التخمين العشوائي (25%)[2].
الفجوة التي تزيد عن 45 نقطة مئوية أكدت الفرضية القائلة بأن الأداء المرتفع في الاختبارات السابقة لم يكن يعني فهمًا حقيقيًا. أظهر HellaSwag أنه حتى بعد التدريب على كميات هائلة من البيانات، لا تستطيع النماذج تطوير الحس السليم العام للتعامل مع مواقف جديدة.
في السنوات التالية، أصبح HellaSwag أحد الاختبارات القياسية للنماذج اللغوية الجديدة. وأصبح من الممكن تتبع تقدم أنظمة الذكاء الاصطناعي من خلال نتائجها على هذا المعيار.
- في عام 2020، أظهر نموذج GPT-3 (175 مليار مُعلَمة) دقة بلغت ~79% في وضع few-shot، وهو ما تجاوز مستوى العديد من النماذج المتخصصة في تلك الفترة، لكنه ظل أقل بكثير من الأداء البشري[3].
- فقط في عام 2023، تمكنت نماذج الجيل الجديد، مثل GPT-4، من تحقيق نتيجة على HellaSwag تضاهي الأداء البشري (حوالي 95% دقة)[4].
شكل إنشاء HellaSwag نهجًا جديدًا لتقييم التقدم في مجال NLP، يعتمد على فكرة المعايير المتطورة: فمع تحسن النماذج، من الضروري إنشاء اختبارات جديدة وأكثر صعوبة تكشف نقاط ضعفها.
روابط خارجية
- الموقع الرسمي لمشروع HellaSwag
- الورقة البحثية "HellaSwag: Can a Machine Really Finish Your Sentence?"
مراجع
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
ملاحظات
- ↑ 1.0 1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [١]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [٢]
- ↑ Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [٣]
- ↑ Zellers, R. et al. «HellaSwag Project Page». [٤]