MMLU Benchmark — مقياس أداء MMLU
MMLU (اختصار لـ Measuring Massive Multitask Language Understanding) هو مجموعة مهام مرجعية (مقياس أداء)، مصمم لتقييم قدرات نماذج اللغة الكبيرة (LLMs) في مجموعة واسعة من المجالات المعرفية. تم تطوير المقياس في عام 2020 من قبل فريق من الباحثين بقيادة دان هندريكس (Dan Hendrycks) من جامعة كاليفورنيا في بيركلي، ونُشر في مؤتمر ICLR في عام 2021[1].
الهدف من MMLU هو اختبار مدى استيعاب النموذج للمعرفة والمهارات المتنوعة المكتسبة خلال مرحلة ما قبل التدريب، وذلك من خلال اختباره في وضعية الطلقة الصفرية أو الطلقات القليلة (zero/few-shot) دون أي ضبط إضافي. تم إنشاء MMLU كبديل أكثر صعوبة للاختبارات الموجودة سابقًا (مثل GLUE وSuperGLUE)، والتي وصلت فيها العديد من النماذج بحلول عام 2020 إلى مستوى الأداء البشري[2].
الوصف والمحتوى
يتكون MMLU من 15,908 سؤال بنظام الاختيار من متعدد، تغطي 57 تخصصًا مختلفًا. تشمل مواضيع المهام ما يلي:
- مواضيع في مجالات العلوم والتكنولوجيا والهندسة والرياضيات (STEM) (الرياضيات، الفيزياء، علم الأحياء، علوم الحاسوب).
- العلوم الإنسانية والاجتماعية (التاريخ، الأدب، القانون، الإدارة).
- المجالات التطبيقية والمهنية (الطب، القانون، إدارة الأعمال)[1].
يتراوح مستوى الصعوبة من المرحلة الابتدائية إلى المستوى المهني المتقدم. تستند الأسئلة إلى مواد امتحانية حقيقية للمدارس والجامعات والاختبارات المهنية، مثل GRE وUSMLE[1]. صيغة المهام هي أربعة خيارات للإجابة على كل سؤال، مما يعني أن الدقة عند الاختيار العشوائي تبلغ 25%. لتحقيق نتيجة عالية، يجب أن يمتلك النموذج معرفة موسوعية واسعة وقدرة على الاستدلال.
النتائج والتطور
عند إطلاق MMLU في عام 2020، أظهرت معظم نماذج اللغة الكبيرة نتائج أعلى بقليل من التخمين العشوائي. أفضل نتيجة حققها نموذج GPT-3 (175 مليار مُعلَمَة)، حيث حصل على ~43.9% من الإجابات الصحيحة. للمقارنة، بلغ متوسط أداء الخبير البشري حوالي ~90%[1]. أكدت هذه الفجوة صعوبة المقياس الجديد وارتفاع معاييره.
مع مرور الوقت، أصبح MMLU أحد أشهر الاختبارات لنماذج اللغة الكبيرة، وحصل على مكانة "المعيار الذهبي" في تقارير شركات الذكاء الاصطناعي الرائدة[3]. بحلول 2023-2024، اقتربت أحدث النماذج مثل GPT-4، وGemini Ultra من Google، وClaude 3.5 من Anthropic من المستوى البشري، محققة دقة تتراوح بين ~85-90%[2][3].
أدى التقدم السريع إلى "تشبع" المقياس تدريجيًا: حيث بدأت النماذج الرائدة في تحقيق درجات قريبة من الحد الأقصى، مما قلل من قدرة MMLU على التمييز بين قدراتها الفكرية. حفز هذا الأمر مجتمع البحث على تطوير اختبارات جديدة وأكثر صعوبة[3].
القيود والانتقادات
على الرغم من انتشاره الواسع، فإن MMLU له عدد من القيود الجوهرية.
جودة البيانات وصحتها
في يونيو 2024، أجرى باحثون تحليلًا يدويًا لعينة مكونة من 5700 سؤال من MMLU واكتشفوا عددًا كبيرًا من الأخطاء[4].
- حوالي 6.5% من جميع أسئلة MMLU تحتوي على أخطاء في التوصيف أو الصياغة.
- في فئات معينة، تكون نسبة المهام غير الصحيحة عالية جدًا. على سبيل المثال، في قسم "علم الفيروسات"، احتوت 57% من المهام على أخطاء (عدة إجابات صحيحة، صياغات غير دقيقة، أو إجابة مرجعية خاطئة).
هذا يعني أنه حتى النموذج المثالي لا يمكنه الحصول على 100% في مجموعة البيانات الأصلية، وقد يكون جزء من التحسن في المقاييس ناتجًا عن حفظ النموذج للأخطاء المنهجية في المجموعة[4].
منهجية التقييم وتسرب البيانات
- غياب معيار موحد للاختبار. قد يستخدم المطورون المختلفون موجهات وأساليب few-shot مختلفة، مما يجعل المقارنة المباشرة بين نتائج النماذج صعبة.
- تسرب البيانات (data contamination). هناك خطر من أن تتسرب الأسئلة والأجوبة من مقاييس الأداء العامة إلى مجموعات بيانات تدريب نماذج اللغة الكبيرة. في هذه الحالة، يكون النموذج "يعرف" الإجابات الصحيحة مسبقًا، مما يجعل التقييم غير عادل[3].
الإصدارات المشتقة والتوسعات
لحل مشاكل MMLU الأصلي، تم إنشاء عدة نسخ بديلة منه.
- MMLU-Redux. نسخة مصححة ومنقحة من المجموعة، قُدمت في يونيو 2024. تتضمن 3000 سؤال أعيد توصيفها من 30 فئة، وهي مصممة لتقييم النماذج بشكل أكثر موثوقية دون التشوهات الناتجة عن الأخطاء في البيانات[4].
- MMLU-Pro. نسخة موسعة وأكثر تعقيدًا من الاختبار، قُدمت في أواخر عام 2024. تحتوي على أكثر من 12,000 سؤال، لكل منها 10 خيارات للإجابة بدلاً من أربعة. هذا يقلل من احتمالية التخمين العشوائي إلى 10%. خضعت الأسئلة لمراجعة الخبراء وتتضمن مهام جديدة من مصادر أكثر صعوبة[5].
- MMMLU (Multilingual MMLU). نسخة متعددة اللغات أطلقتها OpenAI في عام 2023. تمت ترجمة مجموعة MMLU بأكملها بواسطة مترجمين محترفين إلى 14 لغة، تشمل لغات شائعة (مثل الإسبانية والصينية والروسية) ولغات منخفضة الموارد (مثل اليوروبا). يتيح ذلك تقييم ومقارنة قدرات النماذج بلغات مختلفة[6].
روابط خارجية
مراجع للقراءة
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
المراجع
- ↑ 1.0 1.1 1.2 1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [١]
- ↑ 2.0 2.1 «MMLU». In Wikipedia. [٢]
- ↑ 3.0 3.1 3.2 3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [٣]
- ↑ 4.0 4.1 4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [٤]
- ↑ «MMLU Pro». Vals.ai, 2025. [٥]
- ↑ «openai/MMMLU». Hugging Face Datasets. [٦]