Le Dernier Examen de l'Humanité
Humanity's Last Exam (HLE, en français « Le Dernier Examen de l'Humanité ») est un benchmark complet conçu pour évaluer les capacités des systèmes d'intelligence artificielle (IA) avancés sur des tâches qui exigent un niveau de connaissance et de capacités de raisonnement comparable à celui des meilleurs experts humains. Le benchmark a été développé en 2024-2025 par l'organisation à but non lucratif Center for AI Safety (CAIS) en collaboration avec la société Scale AI[1].
Le projet HLE est conçu comme le « dernier examen académique » pour les modèles d'IA — une épreuve d'une difficulté extrême qui permettra de déterminer si les modèles actuels approchent du niveau expert et où subsistent des lacunes dans leurs capacités[1]. Le benchmark comprend 2 500 questions extraordinairement complexes, couvrant plus d'une centaine de disciplines différentes[2].
Historique de la création
Au milieu des années 2020, les grands modèles de langage, tels que GPT-4 et Claude, ont démontré des performances si élevées sur les jeux de tests populaires (comme MMLU) que de nombreux benchmarks ne constituaient plus une mesure fiable du progrès. Les examens standards de niveau licence ont été pratiquement « pulvérisés » par les modèles, ce qui a rendu impossible une évaluation objective des améliorations futures[3].
Dans ce contexte, Dan Hendrycks, directeur du CAIS et chercheur renommé en IA, a proposé le concept du « Dernier Examen de l'Humanité » — un ensemble de questions de difficulté maximale capable de distinguer les capacités de l'IA du niveau d'un véritable expert. L'impulsion est venue d'une conversation avec l'entrepreneur Elon Musk, qui a exprimé l'avis que les tests existants étaient devenus trop faciles[2].
Pour concrétiser cette idée, le CAIS a uni ses forces à celles de Scale AI. Le 15 septembre 2024, un appel mondial a été officiellement lancé pour collecter les questions les plus difficiles en vue du futur examen. Les organisateurs ont invité les scientifiques et les spécialistes du monde entier à soumettre des problèmes capables de dérouter même les modèles d'IA les plus avancés. Pour motiver les participants, un fonds de prix de 500 000 $ a été créé[3].
La sélection des problèmes s'est déroulée en plusieurs étapes. D'abord, les questions soumises étaient filtrées à l'aide de modèles d'IA de pointe : si les algorithmes résolvaient un problème avec assurance, il était écarté car jugé pas assez difficile. Les problèmes que l'IA ne parvenait pas à résoudre passaient ensuite par un examen par des experts pour évaluer leur exactitude et s'assurer qu'ils avaient une seule réponse correcte. Au final, près de 1 000 experts de plus de 500 institutions académiques et de recherche ont participé à la constitution de l'ensemble de questions[4].
La version finale du benchmark, comprenant 2 500 questions, a été présentée au début de l'année 2025. Une partie des questions est gardée dans une réserve privée pour les tests de contrôle et pour empêcher que les modèles soient entraînés spécifiquement pour cet ensemble de questions[2].
Structure et contenu du benchmark
L'ensemble de questions du HLE couvre un très large éventail de disciplines académiques. Les problèmes sont répartis par sujet comme suit :
- Mathématiques : ~41 %
- Biologie et médecine : ~11 %
- Informatique et IA : ~10 %
- Physique : ~9 %
- Sciences humaines et sociales : ~9 %
- Chimie : ~7 %
- Sciences de l'ingénieur : ~4 %
- Autres domaines : ~9 %
Environ 14 % de tous les problèmes sont multimodaux, c'est-à-dire que leur résolution nécessite l'analyse d'images (dessins, diagrammes, inscriptions)[2]. La majorité (environ les 3/4) des problèmes sont des questions ouvertes à réponse courte, où le modèle doit générer de manière autonome une réponse précise (un nombre, un terme, un nom). Le reste sont des questions à choix multiples.
Tous les problèmes du HLE partagent des caractéristiques communes :
- Difficulté extrêmement élevée : Chaque problème exige un niveau de connaissance et de compétence comparable à celui d'un spécialiste qualifié dans le domaine concerné[5].
- Réponse vérifiable : Chaque question a une réponse correcte, définie et démontrable.
- Résistance à la recherche : Les problèmes sont conçus de manière à ce que la réponse ne puisse pas être trouvée par une simple requête de recherche ; le succès exige une compréhension approfondie du sujet et un raisonnement[1].
Résultats de l'évaluation des modèles
Humanity's Last Exam a immédiatement confirmé sa réputation d'épreuve extrêmement difficile : aucun des modèles d'IA actuels n'a réussi à obtenir un score proche de celui d'un humain. Les meilleurs modèles de langage de 2025 ont affiché une très faible exactitude.
- Diverses versions de GPT-4 d'OpenAI et de Claude d'Anthropic ont obtenu un score inférieur à 10 %[4].
- Le score le plus élevé parmi les LLM standards a été atteint par le modèle Gemini 2.5 Pro (Google DeepMind), avec une exactitude d'environ 21,6 %[4].
- Même les meilleurs modèles ont échoué sur environ 4/5 des questions du HLE, ce qui souligne l'ampleur de l'écart entre les capacités actuelles de l'IA et le niveau d'un expert humain[1].
Le résultat de l'agent expérimental ChatGPT Deep Research d'OpenAI est particulièrement intéressant, car il était autorisé à effectuer automatiquement des requêtes de recherche. En simulant le travail d'un chercheur, cet agent a réussi à résoudre correctement 26,6 % des problèmes — un score plus de deux fois supérieur à celui de n'importe quel modèle dépourvu de tels outils, mais encore très loin d'un score de réussite[6].
Importance et perspectives
L'arrivée du HLE a marqué un événement important dans la communauté de l'IA, car ce benchmark a comblé un besoin urgent d'une nouvelle mesure de progrès, plus exigeante.
- Un point de référence commun. Le HLE offre aux chercheurs et aux décideurs politiques un outil objectif pour évaluer les capacités de l'IA, permettant de suivre la dynamique des améliorations et de comprendre à quel point les machines se rapprochent du niveau humain.
- Un outil pour éclairer les politiques publiques. L'existence d'un tel test de référence favorise des discussions plus concrètes sur les orientations du développement de l'IA, les risques potentiels et les mesures de régulation nécessaires.
- La dernière frontière des tests académiques. Le nom même de « Dernier Examen » reflète l'idée que cet ensemble de problèmes pourrait devenir l'ultime examen à livre fermé pour évaluer l'IA. Une réussite convaincante au HLE signifierait qu'en termes de connaissances formelles et de compétences de raisonnement rigoureusement vérifiables, la machine a atteint le niveau des meilleurs experts humains[4].
Il est important de noter que même une réussite complète au HLE ne signifierait pas l'atteinte d'une intelligence artificielle générale (AGI), car le test n'évalue pas les capacités créatives, l'initiative ou l'aptitude à poser de nouvelles questions scientifiques[4].
Compte tenu des progrès rapides, les chercheurs estiment que les modèles pourraient dépasser 50 % d'exactitude au HLE d'ici la fin de l'année 2025. Cela signifierait que les machines se seraient considérablement rapprochées du niveau humain sur le critère, certes restreint mais important, des connaissances académiques[4].
Liens
Bibliographie
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notes et références
- ↑ 1.0 1.1 1.2 1.3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
- ↑ 2.0 2.1 2.2 2.3 «Humanity's Last Exam». In Wikipedia. [2]
- ↑ 3.0 3.1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 «Humanity's Last Exam». Center for AI Safety. [4]
- ↑ «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
- ↑ «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]