SuperGLUE Benchmark — معيار GLUE الفائق

From Systems analysis wiki
Jump to navigation Jump to search

SuperGLUE هو معيار أداء شامل (مجموعة من المهام الاختبارية) لتقييم أنظمة معالجة اللغة الطبيعية، وخاصة نماذج اللغة الكبيرة (LLMs)[1]. قُدّم في عام 2019 من قبل مجموعة من الباحثين بقيادة أليكس وانغ من جامعة نيويورك، بمشاركة من Facebook AI Research ومؤسسات أخرى[1].

كان الدافع وراء إنشاء SuperGLUE هو أن المعيار السابق GLUE أصبح بحلول منتصف عام 2019 "مهمة سهلة" للنماذج الحديثة، حيث وصلت النتيجة الإجمالية لأفضل النماذج على GLUE إلى 88.4، متجاوزة متوسط الأداء البشري (87.1)[1]. وبذلك، تقلص الهامش المتاح لمزيد من التقدم[1]. استجابة لذلك، طور المؤلفون SuperGLUE كبديل أكثر صعوبة، قادر على توفير تقييم أكثر صرامة لفهم النماذج للغة[1]. يهدف SuperGLUE إلى تقديم مقياس محايد و"صعب التعلم" للتقدم في مجال الفهم اللغوي العام للغة الإنجليزية[1]. كان من المتوقع أن يتطلب التحسن الملحوظ في نتائج SuperGLUE ابتكارات جوهرية في أساليب التعلم الآلي، مثل التعلم الأكثر كفاءة على عينات صغيرة، والتعلم متعدد المهام، والتعلم ذاتي الإشراف[1]. بعبارة أخرى، يتضمن SuperGLUE مهامًا سهلة على البشر ولكنها صعبة على الذكاء الآلي[1]، بهدف تحفيز تطوير نماذج ذات فهم لغوي عميق حقيقي.

Features and differences from GLUE - الميزات والاختلافات عن GLUE

يكرر SuperGLUE إلى حد كبير تنسيق GLUE، حيث يقدم مؤشر جودة تكامليًا موحدًا عبر مجموعة من المهام، ولوحة صدارة عامة، ومجموعة أدوات لتحليل النماذج[1]. ومع ذلك، يقدم SuperGLUE عددًا من التحسينات والابتكارات مقارنة بسلفه[1]:

  • مهام أكثر صعوبة: اختيرت لـ SuperGLUE ثماني من أصعب المهام[1]. اثنتان منها موروثتان من GLUE (وكانتا من بين الأصعب فيه)، بينما تم اختيار البقية من مهام مرشحة جديدة بناءً على صعوبتها بالنسبة لنماذج معالجة اللغة الطبيعية الحديثة[1]. وبهذا، يركز المعيار على جوانب الفهم التي أظهرت فيها النماذج أسوأ النتائج سابقًا.
  • تنوع التنسيقات: بينما كانت جميع المهام في GLUE تقتصر على تصنيف الجمل أو أزواج الجمل، يتضمن SuperGLUE مجموعة أوسع من التنسيقات[1]. فبالإضافة إلى التصنيف، أضيفت مهام حل الإحالة المشتركة والإجابة على الأسئلة، التي تتطلب من النموذج فهم النصوص المترابطة والاستدلال المنطقي[1].
  • تقييم بشري لجميع المهام: لكل مهمة في SuperGLUE، تم حساب مستوى أداء بشري أساسي (لغير الخبراء)[1]، مما يؤكد أن النماذج القوية مثل BERT كانت تتخلف بشكل كبير عن البشر عند إطلاق المعيار[1]. إن وجود مرجع بشري (حوالي 90% إجمالاً) يوفر "هامشًا" لنمو النماذج ويعمل كهدف مرجعي[1].
  • قواعد وأدوات شفافة: تمت مراجعة قواعد نشر النتائج على لوحة الصدارة (لضمان المقارنة العادلة والإشارة إلى مساهمات مؤلفي مجموعات البيانات)[1]. كما تم نشر مجموعة أدوات برمجية مفتوحة المصدر جديدة لتسهيل الضبط الدقيق والتعلم متعدد المهام للنماذج على بيانات SuperGLUE[1].

بشكل جماعي، تجعل هذه الإجراءات من SuperGLUE اختبارًا أكثر موثوقية لـالقدرات اللغوية المعممة للنماذج، مما لا يسمح بتحقيق نتائج عالية عن طريق التحايل الضيق أو التكيف المفرط مع التنسيقات المحددة لمعيار GLUE السابق[1].

SuperGLUE Task Set - مجموعة مهام SuperGLUE

يتكون SuperGLUE من ثماني مهام تغطي جوانب مختلفة من فهم النص.

  • BoolQ (Boolean Questions): مهمة من نوع سؤال-جواب (QA)، حيث يُعطى لكل مثال نص قصير (مقتطف من ويكيبيديا) وسؤال يتطلب الإجابة بـ "نعم" أو "لا"[1]. الأسئلة مصاغة من قبل المستخدمين (من استعلامات بحث جوجل) وتتطلب استخلاص حقيقة صريحة أو ضمنية من النص؛ مقياس الجودة هو نسبة الإجابات الصحيحة (accuracy)[1].
  • CB (CommitmentBank): مهمة استتباع نصي (textual entailment) بثلاث فئات[1]. تتكون مجموعة البيانات من نصوص قصيرة تحتوي على جمل معقدة؛ والمطلوب هو تحديد مدى التزام كاتب النص بصحة العبارة المضمنة[1]. في الواقع، هذا اختبار لما إذا كان يمكن استنتاج العبارة من السياق المحدد. المهمة صعبة بسبب صغر حجم العينة (حوالي 250 مثالًا) وعدم توازن الفئات؛ يتم تقييم الجودة باستخدام الدقة ومقياس F1، مع حساب المتوسط عبر الفئات[1].
  • COPA (Choice of Plausible Alternatives): مهمة استدلال سببي[1]. يُعطى للنموذج فرضية (جملة واحدة) ويجب عليه اختيار السبب أو النتيجة الصحيحة من بين خيارين[1]. جميع أمثلة COPA مصاغة يدويًا وتتطلب الحس السليم لإقامة علاقة السبب والنتيجة. تشمل الموضوعات مواقف من المدونات وموسوعة متخصصة؛ المقياس هو الدقة (نسبة الاختيارات الصحيحة)[1]. مثال: تُعطى الجملة "اكتسب الطفل مناعة ضد المرض" وسؤال "ما هو السبب؟" – يفهم الإنسان على الفور أن الإجابة الصحيحة هي "لقد تلقى لقاحًا"، بينما يتعين على النموذج تخمين العلاقة السببية[1].
  • MultiRC (Multi-Sentence Reading Comprehension): مهمة فهم النص متعدد الجمل مع عناصر الاختيار من متعدد[1]. يتلقى النموذج فقرة نصية، وسؤالًا حول محتوى الفقرة، وقائمة من الإجابات المحتملة؛ ويجب عليه تحديد الإجابات الصحيحة (قد يكون لكل سؤال عدة إجابات صحيحة)[1]. الميزات: للإجابة على السؤال، عادة ما يتطلب الأمر دمج معلومات من عدة جمل في النص، مما يختبر قدرة النموذج على ربط الحقائق[1]. تقاس الجودة بمقياسين: F1 على مستوى الإجابات (يأخذ في الاعتبار المجموعات الصحيحة جزئيًا) والمطابقة التامة (Exact Match) - نسبة الأسئلة التي تم تقديم مجموعات إجابات صحيحة بالكامل لها[1].
  • ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): مهمة قراءة مع فهم واستخدام المعرفة[1]. وهي عبارة عن اختبار Cloze معدل: يُعطى نص إخباري (مقالة من CNN/Daily Mail) وجملة بها كلمة اسمية مفقودة؛ يجب على النموذج اختيار الكيان من النص الذي يناسب الفراغ[1]. يتم تحديد خيارات الإجابة كجميع الكيانات المذكورة في المقالة، والتي قد تتطابق في جوهرها[1]. يتطلب الحل الناجح فهم السياق والحس السليم. المقاييس هي الحد الأقصى لمقياس F1 على مستوى الوحدة الرمزية (token-level) والمطابقة التامة (Exact Match) للإجابات المتوقعة[1].
  • RTE (Recognizing Textual Entailment): مهمة تصنيف ثنائي لـالاستتباع النصي (استتباع مقابل عدم استتباع)[1]. تجمع مجموعة البيانات أمثلة من عدة مسابقات للتعرف على الاستتباع النصي (سلسلة RTE 1-5)[1]. تحتوي كل مهمة على زوج من المقاطع النصية (فرضية-استنتاج)؛ يجب على النموذج تحديد ما إذا كان الاستنتاج يتبع من الفرضية. على عكس العديد من مجموعات البيانات الكبيرة، فإن RTE صغير جدًا (حوالي 2.5 ألف مثال تدريبي)، لكنه أظهر مكاسب كبيرة من التعلم بالنقل: زادت الدقة من حوالي 56% (مستوى التخمين العشوائي) إلى حوالي 86% مع ظهور نماذج مثل BERT[1]. ومع ذلك، في وقت إطلاق SuperGLUE، كانت دقة النماذج لا تزال متخلفة عن الأداء البشري بحوالي 8 نقاط مئوية[1]، لذا تم تضمين RTE كإحدى المهام التي لا تزال تحتفظ بفجوة مقارنة بالمستوى البشري.
  • WiC (Word-in-Context): مهمة إزالة الغموض عن معنى الكلمة في السياق (WSD)[1]. تُعطى جملتان مستقلتان، تحتوي كل منهما على نفس الكلمة متعددة المعاني؛ والمطلوب هو تحديد ما إذا كانت الكلمة قد استخدمت بنفس المعنى في كلتا الحالتين[1]. البيانات مأخوذة من موارد معجمية (WordNet، VerbNet، Wiktionary)، وبالتالي تغطي مجموعة واسعة من الكلمات والمعاني[1]. تمت صياغة المهمة كتصنيف ثنائي ويتم تقييمها بناءً على نسبة الإجابات الصحيحة. تتطلب WiC من النموذج فهم الفروق الدقيقة في المعنى، مما يختبر فعليًا الدلالات المعجمية.
  • WSC (Winograd Schema Challenge): مهمة حل الإحالة المشتركة باستخدام الحس السليم[1]. تتكون كل مهمة من جملة واحدة تحتوي على ضمير، وقائمة من كيانين (اسمين) من نفس الجملة[1]. المطلوب هو تحديد إلى أي من الأسماء المقترحة يعود الضمير[1]. مثال على جملة وينوجراد الكلاسيكية: "الكأس لم يتسع في الحقيبة لأنه كان صغيرًا جدًا" - يفهم الإنسان أن "هو" يعود إلى الحقيبة (الحقيبة هي التي كانت صغيرة جدًا). من المستحيل حل مثل هذه الأمثلة بدون المعرفة اليومية والسياق[1]. كان هناك بالفعل نسخة مبسطة من هذه المهمة في GLUE (WNLI)، لكن النماذج لفترة طويلة لم تستطع تجاوز حتى مستوى العشوائية فيها[1]. فقط تقنيات خاصة، مثل إضافة بيانات خارجية بأمثلة مشابهة، رفعت جودة النماذج في WSC إلى حوالي 90% بحلول عام 2019[1]. ومع ذلك، يحل البشر مهام WSC بدون أخطاء تقريبًا (حوالي 96-100% إجابات صحيحة)[1]. يتضمن SuperGLUE النسخة الأصلية من WSC بتنسيق تصنيف ثنائي (لكل زوج "ضمير-اسم"، يجيب النموذج عما إذا كانا متطابقين في الإحالة)[1]. تظل هذه المهمة واحدة من أصعب الاختبارات التي تتطلب التفكير المنطقي القائم على الحس السليم.

تحتوي جميع اختبارات SuperGLUE على مجموعات اختبار مغلقة بإجابات غير معروفة للمطورين[1]. ترسل النماذج توقعاتها إلى خادم حيث يتم حساب النتيجة الإجمالية — وهي متوسط الدقة عبر المهام (بالنسبة للمهام ذات المقاييس المتعددة، يتم حساب متوسط المقياس الداخلي أولاً)[1]. هذه النتيجة الموحدة لـ SuperGLUE تبسط مقارنة النماذج بناءً على مستواها العام في الذكاء اللغوي.

Results and Model Progress - النتائج وتقدم النماذج

عند إطلاق SuperGLUE، قدم المؤلفون نتائج نموذج أساسي قوي (نسخة معززة من BERT) كمرجع - وكانت النتائج أقل بكثير من الأداء البشري في جميع المهام[1]. في المتوسط، حصل أفضل نموذج في ذلك الوقت على حوالي 20 نقطة أقل من الإنسان في المقياس التكاملي[1]. في بعض المهام الفردية، كانت الفجوة كبيرة بشكل خاص: على سبيل المثال، في مهمة WSC، بالكاد وصل النموذج إلى دقة 65% تقريبًا مقابل 100% للإنسان (فجوة تبلغ حوالي 35 نقطة)[1]. حتى في المهام التي تبدو "أسهل" (BoolQ، CB، RTE، WiC)، كانت الأنظمة الآلية تتخلف بحوالي 10 نقاط عن المستوى البشري[1]. أكدت هذه الاختلافات أن SuperGLUE يمثل بالفعل تحديًا كبيرًا للتقنيات الحالية ولا يمكن حله بسهولة.

ومع ذلك، بعد أشهر قليلة فقط من ظهور SuperGLUE، بدأ تقدم سريع[1]. في نهاية عام 2019، قدم باحثون من جوجل نموذج T5 (Text-To-Text Transfer Transformer) الذي يحتوي على 11 مليار معامل، والذي حقق نتيجة إجمالية قدرها 88.9، مقتربًا جدًا من المستوى البشري البالغ حوالي 89.8[2]. في الواقع، حسّن T5 الرقم القياسي السابق في SuperGLUE بمقدار 4.3 نقطة دفعة واحدة وقلل من معدل الخطأ بنحو الثلث[2]، تاركًا فجوة ضئيلة تبلغ 0.9 نقطة فقط عن أداء الإنسان[2]. أشار المطورون إلى أن مهام SuperGLUE تم اختيارها عن قصد لتكون سهلة على البشر، لذا كان وصول النموذج إلى مستوى 89% علامة فارقة مهمة[2].

أول من تمكن من تجاوز متوسط الجودة البشرية كان نموذج DeBERTa من مايكروسوفت (Decoding-enhanced BERT with disentangled attention)[3]. في يناير 2021، أفاد الباحثون أن نسخة DeBERTa التي تحتوي على 1.5 مليار معامل قد سجلت 89.9 نقطة، وهو ما يزيد قليلاً عن المرجع البشري البالغ 89.8[3]. كانت هذه هي المرة الأولى التي يتفوق فيها نموذج واحد على الإنسان في مقياس SuperGLUE[3]. بالإضافة إلى ذلك، رفع تجميع لعدة نماذج DeBERTa الرقم القياسي إلى حوالي 90.3 نقطة[3]. تفوق نموذج DeBERTa على الرائد السابق (T5 من جوجل) بحوالي 0.6% وأظهر فعالية الأفكار الجديدة في بنية Transformer (التمثيل المنفصل للمحتوى والموضع للكلمات، وآلية فك تشفير محسنة للأقنعة، وما إلى ذلك)[4].

لم يتوقف التقدم عند هذا الحد: مع نمو حجم وتعقيد نماذج اللغة، استمرت نتائج SuperGLUE في التحسن[5]. بحلول نهاية عام 2021، تصدرت لوحة الصدارة نموذج T-NLRv5 من مايكروسوفت (من عائلة Microsoft Turing NLR) - والذي وسع الفجوة بشكل أكبر فوق المستوى البشري[5]. وقد تم "حل" آخر المهام التي لم تكن محلولة للآلات في GLUE (مثل تفاصيل NLI) بواسطة هذا النموذج، مقتربًا جدًا من التكافؤ الكامل مع الإنسان حتى في أصعب المهام الفرعية[5].

خلال عامي 2022-2023، تم تجاوز عتبة المستوى البشري في SuperGLUE بثقة من قبل العديد من النماذج الكبيرة المستقلة[6]. على سبيل المثال، حقق نموذج PaLM من جوجل (540 مليار معامل) عند ضبطه الدقيق على مهام SuperGLUE حوالي 90.4 نقطة، بينما أظهر نموذج GPT-4 (الذي طورته OpenAI) نتيجة أعلى قليلاً[6]. بحلول منتصف عام 2023، تضمنت لوحة صدارة SuperGLUE العديد من النماذج التي سجلت أكثر من 90 نقطة (أي تجاوزت متوسط المستوى البشري)[6]. يمكن القول إن المعيار قد تم حله عمليًا بواسطة الأنظمة الحديثة[6]: فأداء أفضل النماذج مرتفع لدرجة أنه يتجاوز قدرات معظم الأشخاص غير الخبراء[6]. يشهد هذا النجاح على التقدم الهائل في معالجة اللغة الطبيعية في وقت قصير، ولكنه يشير في نفس الوقت إلى الحاجة إلى اختبارات جديدة أكثر صعوبة للنماذج الأحدث[6]. بدأت تظهر بالفعل معايير أداء لاحقة (مثل MMLU و BIG-Bench وغيرها) تهدف إلى اختبار النماذج على فهم أوسع ومعرفة تتجاوز مهام SuperGLUE[6].

Impact and Further Research - التأثير والأبحاث المستقبلية

بذلك، رسخ SuperGLUE مكانته كـمرحلة مهمة في تطوير منهجيات التقييم في معالجة اللغة[3]. في الأوساط العلمية والهواة، أصبحت نتائجه بمثابة "اختبار حقيقي" للبنى الجديدة لنماذج اللغة الكبيرة: يُنظر إلى تحقيق أو تجاوز المستوى البشري في SuperGLUE على أنه علامة على وجود نموذج متقدم يتمتع بفهم لغوي عميق[3]. وقد انعكس هذا على التطبيقات العملية أيضًا - فالعديد من نماذج اللغة الحديثة التي حققت نتائج عالية في SuperGLUE شكلت أساسًا لأنظمة الإجابة على الأسئلة، والوكلاء الحواريين، وأنظمة تلخيص النصوص، وغيرها[3]. لا يزال الباحثون يستخدمون SuperGLUE للضبط الدقيق ومقارنة الخوارزميات، على الرغم من أن التركيز المتقدم ينتقل تدريجيًا الآن نحو آفاق جديدة لتقييم الذكاء الاصطناعي.

Literature - مراجع للقراءة

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notes - ملاحظات

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [١]
  2. 2.0 2.1 2.2 2.3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [٢]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 3.6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [٣]
  4. «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [٤]
  5. 5.0 5.1 5.2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [٥]
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 «The Ultimate Guide to AI Benchmarks». The AI Navigator. [٦]