Humanity's Last Exam (benchmark) — الامتحان الأخير للبشرية
Humanity's Last Exam (HLE, بالعربية: «الامتحان الأخير للبشرية») هو مجموعة اختبارات معيارية (benchmark) شاملة، مصممة لتقييم قدرات أنظمة الذكاء الاصطناعي (AI) المتقدمة في مهام تتطلب مستوى من المعرفة ومهارات الاستدلال يضاهي أفضل الخبراء من البشر. تم تطوير هذا الاختبار المعياري في الفترة 2024-2025 من قبل منظمة Center for AI Safety (CAIS) غير الربحية بالتعاون مع شركة Scale AI[1].
صُمم مشروع HLE ليكون بمثابة «الامتحان الأكاديمي الأخير» لنماذج الذكاء الاصطناعي — وهو اختبار فائق الصعوبة يهدف إلى تحديد ما إذا كانت النماذج الحالية تقترب من مستوى الخبراء، وتحديد الفجوات المتبقية في قدراتها[1]. يتضمن الاختبار المعياري 2500 سؤال شديد التعقيد، تغطي أكثر من مئة تخصص مختلف[2].
تاريخ الإنشاء
بحلول منتصف عقد 2020، أظهرت نماذج اللغة الكبيرة الرئيسية، مثل GPT-4 و Claude، أداءً عاليًا جدًا في مجموعات الاختبارات الشائعة (مثل MMLU)، لدرجة أن العديد من الاختبارات المعيارية لم تعد مقياسًا موثوقًا للتقدم. فقد تمكنت النماذج من «سحق» الاختبارات الجامعية القياسية، مما جعل التقييم الموضوعي للتحسينات المستقبلية أمرًا مستحيلًا[3].
في هذا السياق، اقترح دان هندريكس (Dan Hendrycks)، مدير CAIS وباحث بارز في مجال الذكاء الاصطناعي، مفهوم «الامتحان الأخير للبشرية» — وهو مجموعة من الأسئلة ذات الصعوبة القصوى يمكنها التمييز بين قدرات الذكاء الاصطناعي ومستوى الخبير الحقيقي. وكان الدافع وراء ذلك محادثة مع رجل الأعمال إيلون ماسك، الذي رأى أن الاختبارات الحالية أصبحت سهلة للغاية[2].
لتنفيذ الفكرة، وحدت CAIS جهودها مع Scale AI. في 15 سبتمبر 2024، أُعلن رسميًا عن دعوة عالمية لجمع أصعب الأسئلة للامتحان المستقبلي. ودعا المنظمون العلماء والمتخصصين من جميع أنحاء العالم لتقديم مسائل يمكن أن تحيّر حتى أكثر نماذج الذكاء الاصطناعي تقدمًا. ولتحفيز المشاركين، تم تخصيص صندوق جوائز بقيمة 500,000 دولار[3].
تم اختيار المهام على عدة مراحل. في البداية، تم تمرير الأسئلة المرسلة عبر مرشح يستخدم نماذج ذكاء اصطناعي متقدمة: إذا تمكنت الخوارزميات من حل المسألة بثقة، كان يتم استبعادها لعدم كونها صعبة بما فيه الكفاية. أما المهام التي فشل الذكاء الاصطناعي في حلها، فكانت تخضع لمراجعة من قبل خبراء لتقييم مدى صحتها ووجود إجابة صحيحة واحدة فقط. في النهاية، شارك في تكوين مجموعة الأسئلة ما يقرب من 1000 خبير من أكثر من 500 مؤسسة علمية وتعليمية[4].
تم تقديم النسخة النهائية من الاختبار المعياري، والتي تضم 2500 سؤال، في أوائل عام 2025. وقد تم الاحتفاظ بجزء من المهام في مجموعة احتياطية مغلقة لإجراء اختبارات مستقبلية ولمنع تكييف النماذج على مجموعة الأسئلة الثابتة[2].
هيكل ومحتوى الاختبار المعياري
تغطي مجموعة أسئلة HLE نطاقًا واسعًا جدًا من التخصصات الأكاديمية. وتتوزع المهام حسب الموضوع على النحو التالي:
- الرياضيات: ~41%
- الأحياء والطب: ~11%
- علوم الحاسوب والذكاء الاصطناعي: ~10%
- الفيزياء: ~9%
- العلوم الإنسانية والاجتماعية: ~9%
- الكيمياء: ~7%
- العلوم الهندسية: ~4%
- مجالات أخرى: ~9%
حوالي 14% من جميع المهام هي متعددة الوسائط (multimodal)، أي أن حلها يتطلب تحليل صور (رسومات، مخططات، نقوش)[2]. معظم المهام (حوالي 3/4) هي أسئلة مفتوحة ذات إجابة قصيرة، حيث يجب على النموذج إنشاء إجابة دقيقة بنفسه (رقم، مصطلح، اسم). أما البقية فهي أسئلة متعددة الخيارات.
تتميز جميع المسائل في HLE بخصائص مشتركة:
- صعوبة فائقة: تتطلب كل مشكلة مستوى من المعرفة والمهارات يضاهي مستوى متخصص مؤهل في مجالها[5].
- إجابة قابلة للتحقق: لكل سؤال إجابة صحيحة محددة ويمكن إثباتها.
- مقاومة البحث: تم اختيار المهام بحيث لا يمكن العثور على إجابتها من خلال استعلام بحث بسيط؛ فالنجاح يتطلب فهمًا عميقًا للموضوع وقدرة على الاستدلال[1].
نتائج اختبار النماذج
أكد اختبار Humanity's Last Exam على الفور سمعته كاختبار بالغ الصعوبة: لم يتمكن أي من نماذج الذكاء الاصطناعي الحديثة من تحقيق نتيجة قريبة من مستوى الإنسان. فقد أظهرت أفضل نماذج اللغة لعام 2025 دقة منخفضة للغاية.
- حققت الإصدارات المختلفة من GPT-4 من OpenAI وClaude من Anthropic نتيجة أقل من 10%[4].
- كانت أعلى نتيجة بين نماذج اللغة الكبيرة القياسية من نصيب نموذج Gemini 2.5 Pro (من Google DeepMind) بدقة بلغت حوالي 21.6%[4].
- حتى أفضل النماذج فشلت في حوالي 4/5 من أسئلة HLE، مما يؤكد حجم الفجوة بين القدرات الحالية للذكاء الاصطناعي ومستوى الخبير البشري[1].
من المثير للاهتمام بشكل خاص نتيجة الوكيل التجريبي ChatGPT Deep Research من OpenAI، الذي سُمح له بتنفيذ استعلامات بحث تلقائيًا. من خلال محاكاة عمل الباحث، تمكن هذا الوكيل من حل 26.6% من المهام بشكل صحيح — وهي نتيجة أعلى بأكثر من ضعفي نتيجة أي نموذج بدون هذه الأدوات، لكنها لا تزال بعيدة جدًا عن درجة النجاح[6].
الأهمية والآفاق المستقبلية
شكل ظهور HLE حدثًا مهمًا في مجتمع الذكاء الاصطناعي، حيث لبى الاختبار المعياري حاجة ملحة لمقياس جديد وأكثر صعوبة للتقدم.
- نقطة مرجعية مشتركة. يقدم HLE للباحثين وصناع السياسات أداة موضوعية لتقييم قدرات الذكاء الاصطناعي، مما يسمح بتتبع ديناميكيات التحسين وفهم مدى اقتراب الآلات من المستوى البشري.
- أداة لتوجيه السياسات. يساهم وجود مثل هذا الاختبار المرجعي في إجراء مناقشات أكثر موضوعية حول اتجاهات تطوير الذكاء الاصطناعي، والمخاطر المحتملة، والتدابير التنظيمية اللازمة.
- الحد النهائي للاختبارات الأكاديمية. يعكس اسم «الامتحان الأخير» نفسه فكرة أن هذه المجموعة من المسائل قد تكون آخر اختبار مغلق لتقييم الذكاء الاصطناعي. فالنجاح في HLE بثقة سيعني أن الآلة قد وصلت، من حيث المعرفة الرسمية ومهارات الاستدلال التي يمكن التحقق منها بدقة، إلى مستوى أفضل الخبراء البشريين[4].
من المهم ملاحظة أن اجتياز HLE بالكامل لن يعني الوصول إلى الذكاء الاصطناعي العام (AGI)، لأن الاختبار لا يقيس القدرات الإبداعية أو المبادرة أو القدرة على طرح أسئلة علمية جديدة[4].
مع الأخذ في الاعتبار التقدم السريع، يتوقع الباحثون أن النماذج قد تتجاوز دقة 50% في HLE بحلول نهاية عام 2025. وهذا سيعني أن الآلات قد اقتربت بشكل كبير من المستوى البشري وفقًا لمقياس ضيق ولكنه مهم للمعرفة الأكاديمية[4].
روابط خارجية
الأدبيات
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
المراجع
- ↑ 1.0 1.1 1.2 1.3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [١]
- ↑ 2.0 2.1 2.2 2.3 «Humanity's Last Exam». In Wikipedia. [٢]
- ↑ 3.0 3.1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [٣]
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 «Humanity's Last Exam». Center for AI Safety. [٤]
- ↑ «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [٥]
- ↑ «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [٦]