Humanity's Last Exam

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Humanity's Last Exam (HLE, рус. «Последний экзамен человечества») — это комплексный тест-бенчмарк, предназначенный для оценки возможностей передовых систем искусственного интеллекта (ИИ) на задачах, требующих уровня знаний и навыков рассуждения, сопоставимого с лучшими экспертами-человеками. Бенчмарк был разработан в 2024–2025 годах некоммерческой организацией Center for AI Safety (CAIS) совместно с компанией Scale AI[1].

Проект HLE задуман как «последний академический экзамен» для моделей ИИ — предельно трудное испытание, которое позволит определить, приближаются ли современные модели к экспертному уровню и где остаётся разрыв в их способностях[1]. Бенчмарк включает 2500 чрезвычайно сложных вопросов, охватывающих более ста различных дисциплин[2].

История создания

К середине 2020-х годов крупные языковые модели, такие как GPT-4 и Claude, продемонстрировали настолько высокие результаты в популярных тестовых наборах (например, MMLU), что многие бенчмарки перестали служить надёжной мерой прогресса. Стандартные экзамены уровня бакалавриата были практически «разгромлены» моделями, что сделало невозможным объективную оценку дальнейших улучшений[3].

В этой ситуации Дэн Хендрикс (Dan Hendrycks), директор CAIS и известный исследователь ИИ, предложил концепцию «Последнего экзамена человечества» — набора вопросов максимальной сложности, который смог бы отличить возможности ИИ от уровня настоящего эксперта. Толчком послужила беседа с предпринимателем Илоном Маском, который выразил мнение, что существующие тесты стали слишком лёгкими[2].

Для реализации идеи CAIS объединил усилия со Scale AI. 15 сентября 2024 года был официально объявлен глобальный сбор наиболее трудных вопросов для будущего экзамена. Организаторы обратились к учёным и специалистам по всему миру с приглашением прислать задачи, способные поставить в тупик даже самые продвинутые модели ИИ. Для мотивирования участников был учреждён призовой фонд в $500 000[3].

Отбор задач происходил в несколько этапов. Сначала присланные вопросы пропускались через фильтр с помощью передовых моделей ИИ: если алгоритмы уверенно решали задачу, она отбраковывалась как недостаточно трудная. Задания, с которыми ИИ не справлялся, проходили экспертную проверку для оценки корректности и наличия единственного верного ответа. В итоге в формировании набора приняли участие почти 1000 экспертов из более чем 500 научно-образовательных учреждений[4].

Финальная версия бенчмарка, включающая 2500 вопросов, была представлена в начале 2025 года. Часть заданий оставлена в закрытом резерве для контрольного тестирования и предотвращения подгонки моделей под фиксированный набор[2].

Структура и содержание бенчмарка

Набор вопросов HLE охватывает широчайший спектр дисциплин академического знания. Задания распределены по тематике следующим образом:

  • Математика: ~41%
  • Биология и медицина: ~11%
  • Информатика и ИИ: ~10%
  • Физика: ~9%
  • Гуманитарные и социальные науки: ~9%
  • Химия: ~7%
  • Инженерные науки: ~4%
  • Прочие области: ~9%

Около 14% всех заданий являются мультимодальными, то есть для их решения требуется анализ изображений (рисунков, диаграмм, надписей)[2]. Большинство (примерно 3/4) заданий — это открытые вопросы с коротким ответом, где модель должна самостоятельно сгенерировать точный ответ (число, термин, имя). Остальные — вопросы с множественным выбором.

Все задачи в HLE обладают общими свойствами:

  • Крайне высокая сложность: Каждая проблема требует уровня знаний и умений, сопоставимого с квалифицированным специалистом в данной области[5].
  • Проверяемый ответ: Каждый вопрос имеет определённый и доказуемый правильный ответ.
  • Устойчивость к поиску: Задания подобраны так, чтобы ответ нельзя было найти простым поисковым запросом; для успеха требуется глубокое понимание предмета и рассуждение[1].

Результаты проверки моделей

Humanity's Last Exam сразу подтвердил репутацию крайне сложного испытания: ни одна из современных моделей ИИ не смогла показать на нём результат, близкий к человеческому. Лучшие на 2025 год языковые модели продемонстрировали очень низкую точность.

  • Различные версии GPT-4 от OpenAI и Claude от Anthropic показали результат менее 10%[4].
  • Самым высоким результатом среди стандартных LLM стала модель Gemini 2.5 Pro (Google DeepMind) с точностью около 21,6%[4].
  • Даже лучшие модели провалили около 4/5 вопросов HLE, что подчёркивает масштаб разрыва между текущими возможностями ИИ и уровнем человеческого эксперта[1].

Особый интерес представляет результат экспериментального агента ChatGPT Deep Research от OpenAI, которому разрешалось автоматически выполнять поисковые запросы. Имитируя работу исследователя, этот агент сумел правильно решить 26,6% заданий — результат более чем в 2 раза выше, чем у любой модели без таких инструментов, но всё ещё очень далёкий от проходного балла[6].

Значение и перспективы

Появление HLE стало значимым событием в сообществе ИИ, поскольку бенчмарк заполнил насущную потребность в новой, более сложной мере прогресса.

  • Общая точка отсчёта. HLE предлагает исследователям и политикам объективный инструмент для оценки возможностей ИИ, позволяя отслеживать динамику улучшений и понимать, насколько машины приближаются к человеческому уровню.
  • Инструмент для информирования политики. Наличие такого эталонного теста способствует более предметным дискуссиям о направлениях развития ИИ, потенциальных рисках и необходимых мерах регулирования.
  • Финальный рубеж академических испытаний. Само название «Последний экзамен» отражает идею, что этот набор задач может стать последним закрытым экзаменом для оценки ИИ. Уверенное прохождение HLE будет означать, что в плане формальных знаний и строго проверяемых навыков рассуждения машина достигла уровня лучших человеческих экспертов[4].

Важно отметить, что даже полное прохождение HLE не будет означать достижение общего искусственного интеллекта (AGI), так как тест не проверяет творческие способности, инициативность или умение ставить новые научные вопросы[4].

С учётом быстрого прогресса, исследователи предполагают, что модели могут превысить 50% точности на HLE к концу 2025 года. Это будет означать, что машины вплотную приблизились к человеческому уровню по узкой, но важной метрике академических знаний[4].

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. 1,0 1,1 1,2 1,3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
  2. 2,0 2,1 2,2 2,3 «Humanity's Last Exam». In Wikipedia. [2]
  3. 3,0 3,1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
  4. 4,0 4,1 4,2 4,3 4,4 4,5 «Humanity's Last Exam». Center for AI Safety. [4]
  5. «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
  6. «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]