Humanity's Last Exam
Humanity's Last Exam (HLE, рус. «Последний экзамен человечества») — это комплексный тест-бенчмарк, предназначенный для оценки возможностей передовых систем искусственного интеллекта (ИИ) на задачах, требующих уровня знаний и навыков рассуждения, сопоставимого с лучшими экспертами-человеками. Бенчмарк был разработан в 2024–2025 годах некоммерческой организацией Center for AI Safety (CAIS) совместно с компанией Scale AI[1].
Проект HLE задуман как «последний академический экзамен» для моделей ИИ — предельно трудное испытание, которое позволит определить, приближаются ли современные модели к экспертному уровню и где остаётся разрыв в их способностях[1]. Бенчмарк включает 2500 чрезвычайно сложных вопросов, охватывающих более ста различных дисциплин[2].
История создания
К середине 2020-х годов крупные языковые модели, такие как GPT-4 и Claude, продемонстрировали настолько высокие результаты в популярных тестовых наборах (например, MMLU), что многие бенчмарки перестали служить надёжной мерой прогресса. Стандартные экзамены уровня бакалавриата были практически «разгромлены» моделями, что сделало невозможным объективную оценку дальнейших улучшений[3].
В этой ситуации Дэн Хендрикс (Dan Hendrycks), директор CAIS и известный исследователь ИИ, предложил концепцию «Последнего экзамена человечества» — набора вопросов максимальной сложности, который смог бы отличить возможности ИИ от уровня настоящего эксперта. Толчком послужила беседа с предпринимателем Илоном Маском, который выразил мнение, что существующие тесты стали слишком лёгкими[2].
Для реализации идеи CAIS объединил усилия со Scale AI. 15 сентября 2024 года был официально объявлен глобальный сбор наиболее трудных вопросов для будущего экзамена. Организаторы обратились к учёным и специалистам по всему миру с приглашением прислать задачи, способные поставить в тупик даже самые продвинутые модели ИИ. Для мотивирования участников был учреждён призовой фонд в $500 000[3].
Отбор задач происходил в несколько этапов. Сначала присланные вопросы пропускались через фильтр с помощью передовых моделей ИИ: если алгоритмы уверенно решали задачу, она отбраковывалась как недостаточно трудная. Задания, с которыми ИИ не справлялся, проходили экспертную проверку для оценки корректности и наличия единственного верного ответа. В итоге в формировании набора приняли участие почти 1000 экспертов из более чем 500 научно-образовательных учреждений[4].
Финальная версия бенчмарка, включающая 2500 вопросов, была представлена в начале 2025 года. Часть заданий оставлена в закрытом резерве для контрольного тестирования и предотвращения подгонки моделей под фиксированный набор[2].
Структура и содержание бенчмарка
Набор вопросов HLE охватывает широчайший спектр дисциплин академического знания. Задания распределены по тематике следующим образом:
- Математика: ~41%
- Биология и медицина: ~11%
- Информатика и ИИ: ~10%
- Физика: ~9%
- Гуманитарные и социальные науки: ~9%
- Химия: ~7%
- Инженерные науки: ~4%
- Прочие области: ~9%
Около 14% всех заданий являются мультимодальными, то есть для их решения требуется анализ изображений (рисунков, диаграмм, надписей)[2]. Большинство (примерно 3/4) заданий — это открытые вопросы с коротким ответом, где модель должна самостоятельно сгенерировать точный ответ (число, термин, имя). Остальные — вопросы с множественным выбором.
Все задачи в HLE обладают общими свойствами:
- Крайне высокая сложность: Каждая проблема требует уровня знаний и умений, сопоставимого с квалифицированным специалистом в данной области[5].
- Проверяемый ответ: Каждый вопрос имеет определённый и доказуемый правильный ответ.
- Устойчивость к поиску: Задания подобраны так, чтобы ответ нельзя было найти простым поисковым запросом; для успеха требуется глубокое понимание предмета и рассуждение[1].
Результаты проверки моделей
Humanity's Last Exam сразу подтвердил репутацию крайне сложного испытания: ни одна из современных моделей ИИ не смогла показать на нём результат, близкий к человеческому. Лучшие на 2025 год языковые модели продемонстрировали очень низкую точность.
- Различные версии GPT-4 от OpenAI и Claude от Anthropic показали результат менее 10%[4].
- Самым высоким результатом среди стандартных LLM стала модель Gemini 2.5 Pro (Google DeepMind) с точностью около 21,6%[4].
- Даже лучшие модели провалили около 4/5 вопросов HLE, что подчёркивает масштаб разрыва между текущими возможностями ИИ и уровнем человеческого эксперта[1].
Особый интерес представляет результат экспериментального агента ChatGPT Deep Research от OpenAI, которому разрешалось автоматически выполнять поисковые запросы. Имитируя работу исследователя, этот агент сумел правильно решить 26,6% заданий — результат более чем в 2 раза выше, чем у любой модели без таких инструментов, но всё ещё очень далёкий от проходного балла[6].
Значение и перспективы
Появление HLE стало значимым событием в сообществе ИИ, поскольку бенчмарк заполнил насущную потребность в новой, более сложной мере прогресса.
- Общая точка отсчёта. HLE предлагает исследователям и политикам объективный инструмент для оценки возможностей ИИ, позволяя отслеживать динамику улучшений и понимать, насколько машины приближаются к человеческому уровню.
- Инструмент для информирования политики. Наличие такого эталонного теста способствует более предметным дискуссиям о направлениях развития ИИ, потенциальных рисках и необходимых мерах регулирования.
- Финальный рубеж академических испытаний. Само название «Последний экзамен» отражает идею, что этот набор задач может стать последним закрытым экзаменом для оценки ИИ. Уверенное прохождение HLE будет означать, что в плане формальных знаний и строго проверяемых навыков рассуждения машина достигла уровня лучших человеческих экспертов[4].
Важно отметить, что даже полное прохождение HLE не будет означать достижение общего искусственного интеллекта (AGI), так как тест не проверяет творческие способности, инициативность или умение ставить новые научные вопросы[4].
С учётом быстрого прогресса, исследователи предполагают, что модели могут превысить 50% точности на HLE к концу 2025 года. Это будет означать, что машины вплотную приблизились к человеческому уровню по узкой, но важной метрике академических знаний[4].
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 1,2 1,3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
- ↑ 2,0 2,1 2,2 2,3 «Humanity's Last Exam». In Wikipedia. [2]
- ↑ 3,0 3,1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
- ↑ 4,0 4,1 4,2 4,3 4,4 4,5 «Humanity's Last Exam». Center for AI Safety. [4]
- ↑ «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
- ↑ «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]