Humanity's Last Exam

Humanity's Last Exam (HLE, рус. «Последний экзамен человечества») — это комплексный тест-бенчмарк, предназначенный для оценки возможностей передовых систем искусственного интеллекта (ИИ) на задачах, требующих уровня знаний и навыков рассуждения, сопоставимого с лучшими экспертами-человеками. Бенчмарк был разработан в 2024–2025 годах некоммерческой организацией Center for AI Safety (CAIS) совместно с компанией Scale AI^[1].

Проект HLE задуман как «последний академический экзамен» для моделей ИИ — предельно трудное испытание, которое позволит определить, приближаются ли современные модели к экспертному уровню и где остаётся разрыв в их способностях^[1]. Бенчмарк включает 2500 чрезвычайно сложных вопросов, охватывающих более ста различных дисциплин^[2].

История создания

К середине 2020-х годов крупные языковые модели, такие как GPT-4 и Claude, продемонстрировали настолько высокие результаты в популярных тестовых наборах (например, MMLU), что многие бенчмарки перестали служить надёжной мерой прогресса. Стандартные экзамены уровня бакалавриата были практически «разгромлены» моделями, что сделало невозможным объективную оценку дальнейших улучшений^[3].

В этой ситуации Дэн Хендрикс (Dan Hendrycks), директор CAIS и известный исследователь ИИ, предложил концепцию «Последнего экзамена человечества» — набора вопросов максимальной сложности, который смог бы отличить возможности ИИ от уровня настоящего эксперта. Толчком послужила беседа с предпринимателем Илоном Маском, который выразил мнение, что существующие тесты стали слишком лёгкими^[2].

Для реализации идеи CAIS объединил усилия со Scale AI. 15 сентября 2024 года был официально объявлен глобальный сбор наиболее трудных вопросов для будущего экзамена. Организаторы обратились к учёным и специалистам по всему миру с приглашением прислать задачи, способные поставить в тупик даже самые продвинутые модели ИИ. Для мотивирования участников был учреждён призовой фонд в $500 000^[3].

Отбор задач происходил в несколько этапов. Сначала присланные вопросы пропускались через фильтр с помощью передовых моделей ИИ: если алгоритмы уверенно решали задачу, она отбраковывалась как недостаточно трудная. Задания, с которыми ИИ не справлялся, проходили экспертную проверку для оценки корректности и наличия единственного верного ответа. В итоге в формировании набора приняли участие почти 1000 экспертов из более чем 500 научно-образовательных учреждений^[4].

Финальная версия бенчмарка, включающая 2500 вопросов, была представлена в начале 2025 года. Часть заданий оставлена в закрытом резерве для контрольного тестирования и предотвращения подгонки моделей под фиксированный набор^[2].

Структура и содержание бенчмарка

Набор вопросов HLE охватывает широчайший спектр дисциплин академического знания. Задания распределены по тематике следующим образом:

Математика: ~41%
Биология и медицина: ~11%
Информатика и ИИ: ~10%
Физика: ~9%
Гуманитарные и социальные науки: ~9%
Химия: ~7%
Инженерные науки: ~4%
Прочие области: ~9%

Около 14% всех заданий являются мультимодальными, то есть для их решения требуется анализ изображений (рисунков, диаграмм, надписей)^[2]. Большинство (примерно 3/4) заданий — это открытые вопросы с коротким ответом, где модель должна самостоятельно сгенерировать точный ответ (число, термин, имя). Остальные — вопросы с множественным выбором.

Все задачи в HLE обладают общими свойствами:

Крайне высокая сложность: Каждая проблема требует уровня знаний и умений, сопоставимого с квалифицированным специалистом в данной области^[5].
Проверяемый ответ: Каждый вопрос имеет определённый и доказуемый правильный ответ.
Устойчивость к поиску: Задания подобраны так, чтобы ответ нельзя было найти простым поисковым запросом; для успеха требуется глубокое понимание предмета и рассуждение^[1].

Результаты проверки моделей

Humanity's Last Exam сразу подтвердил репутацию крайне сложного испытания: ни одна из современных моделей ИИ не смогла показать на нём результат, близкий к человеческому. Лучшие на 2025 год языковые модели продемонстрировали очень низкую точность.

Различные версии GPT-4 от OpenAI и Claude от Anthropic показали результат менее 10%^[4].
Самым высоким результатом среди стандартных LLM стала модель Gemini 2.5 Pro (Google DeepMind) с точностью около 21,6%^[4].
Даже лучшие модели провалили около 4/5 вопросов HLE, что подчёркивает масштаб разрыва между текущими возможностями ИИ и уровнем человеческого эксперта^[1].

Особый интерес представляет результат экспериментального агента ChatGPT Deep Research от OpenAI, которому разрешалось автоматически выполнять поисковые запросы. Имитируя работу исследователя, этот агент сумел правильно решить 26,6% заданий — результат более чем в 2 раза выше, чем у любой модели без таких инструментов, но всё ещё очень далёкий от проходного балла^[6].

Значение и перспективы

Появление HLE стало значимым событием в сообществе ИИ, поскольку бенчмарк заполнил насущную потребность в новой, более сложной мере прогресса.

Общая точка отсчёта. HLE предлагает исследователям и политикам объективный инструмент для оценки возможностей ИИ, позволяя отслеживать динамику улучшений и понимать, насколько машины приближаются к человеческому уровню.
Инструмент для информирования политики. Наличие такого эталонного теста способствует более предметным дискуссиям о направлениях развития ИИ, потенциальных рисках и необходимых мерах регулирования.
Финальный рубеж академических испытаний. Само название «Последний экзамен» отражает идею, что этот набор задач может стать последним закрытым экзаменом для оценки ИИ. Уверенное прохождение HLE будет означать, что в плане формальных знаний и строго проверяемых навыков рассуждения машина достигла уровня лучших человеческих экспертов^[4].

Важно отметить, что даже полное прохождение HLE не будет означать достижение общего искусственного интеллекта (AGI), так как тест не проверяет творческие способности, инициативность или умение ставить новые научные вопросы^[4].

С учётом быстрого прогресса, исследователи предполагают, что модели могут превысить 50% точности на HLE к концу 2025 года. Это будет означать, что машины вплотную приблизились к человеческому уровню по узкой, но важной метрике академических знаний^[4].

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,0 ^1,1 ^1,2 ^1,3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
↑ ^2,0 ^2,1 ^2,2 ^2,3 «Humanity's Last Exam». In Wikipedia. [2]
↑ ^3,0 ^3,1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 «Humanity's Last Exam». Center for AI Safety. [4]
↑ «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
↑ «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]

[hle_paper-1] 1,0 ^1,1 ^1,2 ^1,3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]

[wiki_hle-2] 2,0 ^2,1 ^2,2 ^2,3 «Humanity's Last Exam». In Wikipedia. [2]

[reuters_stump-3] 3,0 ^3,1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]

[hle_site-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 «Humanity's Last Exam». Center for AI Safety. [4]

[techradar_pass-5] «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]

[hindustan_times_26-6] «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]

[1]

[2]

[3]

[4]

[5]

[6]

Humanity's Last Exam

Содержание

История создания

Структура и содержание бенчмарка

Результаты проверки моделей

Значение и перспективы

Ссылки

Литература

Примечания

Навигация

Humanity's Last Exam

История создания

Структура и содержание бенчмарка

Результаты проверки моделей

Значение и перспективы

Ссылки

Литература

Примечания

Навигация

Поиск