Humanity's Last Exam (benchmark) (ES)

From Systems analysis wiki
Jump to navigation Jump to search

Humanity's Last Exam (HLE, en español «El último examen de la humanidad») es un benchmark integral diseñado para evaluar las capacidades de los sistemas avanzados de inteligencia artificial (IA) en tareas que requieren un nivel de conocimiento y habilidades de razonamiento comparable al de los mejores expertos humanos. El benchmark fue desarrollado en 2024-2025 por la organización sin fines de lucro Center for AI Safety (CAIS) en colaboración con la empresa Scale AI[1].

El proyecto HLE está concebido como el «último examen académico» para los modelos de IA, una prueba extremadamente difícil que permite determinar si los modelos actuales se están acercando al nivel de un experto y dónde persiste la brecha en sus capacidades[1]. El benchmark incluye 2500 preguntas extremadamente complejas que abarcan más de cien disciplinas diferentes[2].

Historia de su creación

A mediados de la década de 2020, los grandes modelos de lenguaje, como GPT-4 y Claude, demostraron resultados tan altos en los conjuntos de pruebas populares (como MMLU) que muchos benchmarks dejaron de ser una medida fiable del progreso. Los exámenes estándar de nivel de licenciatura fueron prácticamente «aplastados» por los modelos, lo que imposibilitó una evaluación objetiva de las mejoras posteriores[3].

En esta situación, Dan Hendrycks, director del CAIS y un reconocido investigador de IA, propuso el concepto del «Último examen de la humanidad», un conjunto de preguntas de máxima complejidad que podría distinguir las capacidades de la IA del nivel de un verdadero experto. El impulso provino de una conversación con el empresario Elon Musk, quien expresó la opinión de que las pruebas existentes se habían vuelto demasiado fáciles[2].

Para llevar a cabo la idea, el CAIS unió fuerzas con Scale AI. El 15 de septiembre de 2024, se anunció oficialmente una convocatoria mundial para recopilar las preguntas más difíciles para el futuro examen. Los organizadores hicieron un llamado a científicos y especialistas de todo el mundo para que enviaran problemas capaces de desconcertar incluso a los modelos de IA más avanzados. Para motivar a los participantes, se estableció un fondo de premios de 500 000 dólares[3].

La selección de los problemas se llevó a cabo en varias etapas. Primero, las preguntas enviadas se pasaron por un filtro utilizando modelos de IA de vanguardia: si los algoritmos resolvían un problema con confianza, este era descartado por no ser lo suficientemente difícil. Las tareas que la IA no podía resolver pasaban por una revisión de expertos para evaluar su corrección y la existencia de una única respuesta correcta. Como resultado, en la creación del conjunto participaron casi 1000 expertos de más de 500 instituciones científicas y educativas[4].

La versión final del benchmark, que incluye 2500 preguntas, se presentó a principios de 2025. Una parte de las preguntas se mantiene en una reserva privada para pruebas de control y para prevenir el sobreajuste de los modelos a este conjunto fijo[2].

Estructura y contenido del benchmark

El conjunto de preguntas del HLE abarca un espectro muy amplio de disciplinas del conocimiento académico. Las tareas se distribuyen por temática de la siguiente manera:

  • Matemáticas: ~41%
  • Biología y medicina: ~11%
  • Ciencias de la computación e IA: ~10%
  • Física: ~9%
  • Humanidades y ciencias sociales: ~9%
  • Química: ~7%
  • Ingeniería: ~4%
  • Otras áreas: ~9%

Alrededor del 14% de todas las tareas son multimodales, es decir, su solución requiere el análisis de imágenes (dibujos, diagramas, inscripciones)[2]. La mayoría (aproximadamente 3/4) de las tareas son preguntas abiertas de respuesta corta, donde el modelo debe generar de forma independiente una respuesta precisa (un número, un término, un nombre). El resto son preguntas de opción múltiple.

Todos los problemas en el HLE comparten propiedades comunes:

  • Complejidad extremadamente alta: Cada problema requiere un nivel de conocimiento y habilidad comparable al de un especialista cualificado en el campo correspondiente[5].
  • Respuesta verificable: Cada pregunta tiene una respuesta correcta definida y demostrable.
  • Resistencia a la búsqueda: Las tareas están diseñadas de tal manera que la respuesta no se puede encontrar con una simple consulta de búsqueda; el éxito requiere una comprensión profunda del tema y un razonamiento elaborado[1].

Resultados de la evaluación de modelos

Humanity's Last Exam confirmó inmediatamente su reputación como una prueba extremadamente difícil: ninguno de los modelos de IA modernos logró obtener un resultado cercano al humano. Los mejores modelos de lenguaje de 2025 mostraron una precisión muy baja.

  • Varias versiones de GPT-4 de OpenAI y Claude de Anthropic obtuvieron un resultado inferior al 10%[4].
  • El resultado más alto entre los LLM estándar fue el del modelo Gemini 2.5 Pro (Google DeepMind), con una precisión de alrededor del 21,6%[4].
  • Incluso los mejores modelos fallaron en aproximadamente 4/5 de las preguntas del HLE, lo que subraya la magnitud de la brecha entre las capacidades actuales de la IA y el nivel de un experto humano[1].

De especial interés es el resultado del agente experimental ChatGPT Deep Research de OpenAI, al que se le permitió realizar consultas de búsqueda automáticamente. Imitando el trabajo de un investigador, este agente logró resolver correctamente el 26,6% de las tareas, un resultado más del doble que el de cualquier modelo sin estas herramientas, pero aún muy lejos de una puntuación de aprobado[6].

Importancia y perspectivas

La aparición del HLE fue un evento significativo en la comunidad de IA, ya que el benchmark cubrió una necesidad apremiante de una nueva y más compleja medida de progreso.

  • Punto de referencia común. El HLE ofrece a los investigadores y legisladores una herramienta objetiva para evaluar las capacidades de la IA, permitiendo seguir la dinámica de las mejoras y comprender cuán cerca están las máquinas de alcanzar el nivel humano.
  • Herramienta para informar políticas. La existencia de una prueba de referencia de este tipo fomenta debates más sustanciales sobre las direcciones del desarrollo de la IA, los riesgos potenciales y las medidas de regulación necesarias.
  • La frontera final de las pruebas académicas. El propio nombre «El último examen» refleja la idea de que este conjunto de problemas podría convertirse en el último examen cerrado para evaluar la IA. Superar con solvencia el HLE significará que, en términos de conocimiento formal y habilidades de razonamiento estrictamente verificables, una máquina ha alcanzado el nivel de los mejores expertos humanos[4].

Es importante señalar que incluso superar por completo el HLE no significará la consecución de una inteligencia artificial general (IAG), ya que la prueba no evalúa la creatividad, la iniciativa o la capacidad de plantear nuevas preguntas científicas[4].

Dado el rápido progreso, los investigadores predicen que los modelos podrían superar el 50% de precisión en el HLE para finales de 2025. Esto significaría que las máquinas se han acercado mucho al nivel humano en la métrica específica pero importante del conocimiento académico[4].

Enlaces

Bibliografía

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Referencias

  1. 1.0 1.1 1.2 1.3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
  2. 2.0 2.1 2.2 2.3 «Humanity's Last Exam». In Wikipedia. [2]
  3. 3.0 3.1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 «Humanity's Last Exam». Center for AI Safety. [4]
  5. «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
  6. «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]