Humanity's Last Exam (benchmark) — 人类的最后考试

From Systems analysis wiki
Jump to navigation Jump to search

Humanity's Last Exam (HLE, 意为“人类的最后考试”) 是一个综合性测试基准,旨在评估先进人工智能 (AI) 系统在需要与顶尖人类专家相媲美的知识水平和推理技能的任务上的能力。该基准由非营利组织 Center for AI Safety (CAIS) 与 Scale AI 公司于 2024–2025 年间联合开发[1]

HLE 项目被构想为 AI 模型的“最后一次学术考试”——一项极其困难的测试,旨在确定现代模型是否正在接近专家水平,以及它们的能力差距在哪里[1]。该基准测试包含 2500 个极具挑战性的问题,涵盖了一百多个不同学科[2]

创建历史

到 2020 年代中期,像 GPT-4 和 Claude 这样的大型语言模型在流行的测试集(如 MMLU)上表现出色,以至于许多基准测试已不再是衡量进展的可靠标准。标准的本科水平考试几乎被这些模型“攻克”,使得客观评估其后续改进变得不可能[3]

在此背景下,CAIS 主任、著名 AI 研究员 丹·亨德里克斯 (Dan Hendrycks) 提出了“人类的最后考试”这一概念——一个旨在区分 AI 能力与真正专家水平的、难度极高的问题集。这一想法的催化剂是与企业家埃隆·马斯克的对话,马斯克认为现有的测试已经变得过于简单[2]

为实现这一构想,CAIS 与 Scale AI 展开合作。2024 年 9 月 15 日,他们正式宣布面向全球征集用于该考试的最难题。组织者向世界各地的科学家和专家发出邀请,征集那些即使是最先进的 AI 模型也难以解决的问题。为激励参与者,设立了 50 万美元的奖金池[3]

问题的筛选过程分为几个阶段。首先,提交的问题会通过先进 AI 模型进行过滤:如果算法能轻松解决某个问题,该问题就会因不够困难而被淘汰。AI 无法解决的问题则会进入专家评审阶段,以评估其正确性和答案的唯一性。最终,来自 500 多个科研和教育机构的近 1000 名专家参与了该问题集的构建[4]

包含 2500 个问题 的基准测试最终版本于 2025 年初发布。部分问题被保留在非公开题库中,用于控制测试并防止模型针对固定题集进行过拟合[2]

基准的结构与内容

HLE 问题集涵盖了广泛的学术知识领域。题目按主题分布如下:

  • 数学: ~41%
  • 生物学与医学: ~11%
  • 计算机科学与 AI: ~10%
  • 物理学: ~9%
  • 人文与社会科学: ~9%
  • 化学: ~7%
  • 工程学: ~4%
  • 其他领域: ~9%

所有题目中约有 14%多模态 问题,即需要分析图像(如图纸、图表、文字)才能解答[2]。大部分(约 3/4)题目是 开放式简答题,模型需要自行生成精确答案(如数字、术语、名称)。其余为多项选择题。

HLE 中的所有问题都具有以下共同特点:

  • 极高的难度:每个问题都要求具备与该领域合格专家相当的知识和技能水平[5]
  • 可验证的答案:每个问题都有一个明确且可证明的正确答案。
  • 抗搜索性:问题的设计使得答案无法通过简单的搜索引擎查询找到;成功解答需要对主题有深刻的理解和推理能力[1]

模型评估结果

Humanity's Last Exam 立即证明了其作为一项极难测试的声誉:没有任何一个现代 AI 模型能在其上取得接近人类水平的成绩。截至 2025 年,最顶尖的语言模型表现出的准确率非常低。

  • OpenAI 的不同版本 GPT-4 和 Anthropic 的 Claude 取得的成绩 低于 10%[4]
  • 在标准 LLM 中,成绩最高的是谷歌 DeepMind 的 Gemini 2.5 Pro 模型,准确率约为 21.6%[4]
  • 即使是表现最好的模型也答错了 HLE 中约 4/5 的问题,这突显了当前 AI 能力与人类专家水平之间的巨大差距[1]

一个特别值得关注的结果来自 OpenAI 的实验性智能体 ChatGPT Deep Research,它被允许自动执行搜索查询。通过模拟研究人员的工作方式,该智能体成功解答了 26.6% 的问题——这一成绩是未使用此类工具的模型的两倍多,但距离及格线仍相去甚远[6]

意义与前景

HLE 的出现是 AI 领域的一个重要事件,因为它满足了对一种全新、更具挑战性的进展衡量标准的迫切需求。

  • 共同的参考基准。HLE 为研究人员和政策制定者提供了一个评估 AI能力的客观工具,使他们能够追踪技术改进的动态,并了解机器在多大程度上接近人类水平。
  • 为政策提供信息。这样一个标准测试的存在,有助于就 AI 的发展方向、潜在风险以及必要的监管措施展开更具实质性的讨论。
  • 学术测试的最后前沿。“最后考试”这个名称本身就反映了这样一种理念:该问题集可能成为评估 AI 的最后一道非公开考试。成功通过 HLE 将意味着,在形式化知识和可严格验证的推理技能方面,机器已达到顶尖人类专家的水平[4]

值得注意的是,即使完全通过 HLE,也并不意味着实现了通用人工智能 (AGI),因为该测试不评估创造力、主动性或提出新科学问题的能力[4]

考虑到技术的快速进步,研究人员预测,到 2025 年底,模型在 HLE 上的准确率可能超过 50%。这将标志着机器在一个狭窄但重要的学术知识指标上,已非常接近人类水平[4]

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

  1. 1.0 1.1 1.2 1.3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
  2. 2.0 2.1 2.2 2.3 «Humanity's Last Exam». In Wikipedia. [2]
  3. 3.0 3.1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 «Humanity's Last Exam». Center for AI Safety. [4]
  5. «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
  6. «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]