Humanity's Last Exam (benchmark) — 人類の最終試験

From Systems analysis wiki
Jump to navigation Jump to search

Humanity's Last Exam (HLE、日本語:「人類の最終試験」) とは、人間のトップエキスパートに匹敵する知識レベルと推論スキルを必要とするタスクにおいて、先進的な人工知能(AI)システムの能力を評価するために設計された、包括的なテストベンチマークです。このベンチマークは、2024年から2025年にかけて、非営利団体Center for AI Safety(CAIS)がScale AI社と共同で開発したものです[1]

HLEプロジェクトは、AIモデルにとっての「最後のアカデミックな試験」、すなわち現代のモデルが専門家レベルに近づいているか、そしてその能力にどのようなギャップが残っているかを判断するための極めて困難な試練として構想されました[1]。ベンチマークには、100以上の異なる分野をカバーする2500の極めて難解な問題が含まれています[2]

作成の経緯

2020年代半ばまでに、GPT-4やClaudeのような大規模言語モデルは、MMLUなどの一般的なテストスイートで非常に高いスコアを記録し、多くのベンチマークが進歩の信頼できる指標として機能しなくなりました。学士レベルの標準的な試験はモデルによって事実上「壊滅」させられ、さらなる改善を客観的に評価することが不可能になりました[3]

このような状況の中、CAISのディレクターであり著名なAI研究者でもあるダン・ヘンドリックスDan Hendrycks)は、「人類の最終試験」というコンセプトを提案しました。これは、AIの能力を真の専門家のレベルと区別できる、最大限の難易度を持つ問題セットです。きっかけとなったのは、起業家イーロン・マスクとの会話で、彼は既存のテストが簡単すぎるとの意見を述べました[2]

このアイデアを実現するため、CAISはScale AIと協力しました。2024年9月15日、将来の試験のための最も難解な問題を世界中から募集することが正式に発表されました。主催者は世界中の科学者や専門家に対し、最先端のAIモデルでさえも困惑させるような課題を提出するよう呼びかけました。参加者の意欲を高めるため、50万ドルの賞金プールが設立されました[3]

問題の選定は複数の段階を経て行われました。まず、提出された問題は最先端のAIモデルによるフィルターにかけられました。アルゴリズムが自信を持って問題を解決した場合、その問題は十分に難しくないと判断され、除外されました。AIが対応できなかった課題は、専門家によるレビューを受け、正当性と唯一の正解が存在するかどうかが評価されました。最終的に、500以上の学術・教育機関から約1000人の専門家が問題セットの作成に参加しました[4]

2500問を含むベンチマークの最終版は2025年初頭に公開されました。一部の問題は、対照テストや、モデルが固定セットに過剰適合するのを防ぐため、非公開のリザーブとして保持されています[2]

ベンチマークの構造と内容

HLEの問題セットは、学術知識の非常に広範な分野をカバーしています。問題のテーマ別分布は以下の通りです:

  • 数学: ~41%
  • 生物学・医学: ~11%
  • コンピュータ科学・AI: ~10%
  • 物理学: ~9%
  • 人文科学・社会科学: ~9%
  • 化学: ~7%
  • 工学: ~4%
  • その他の分野: ~9%

全問題の約14%マルチモーダルであり、解答には画像(図、ダイアグラム、碑文など)の分析が必要です[2]。大部分(約4分の3)の問題は、モデルが正確な答え(数字、用語、名前など)を自ら生成する必要がある短答式の自由回答問題です。残りは多肢選択問題です。

HLEのすべての問題には、共通の特性があります:

  • 極めて高い難易度: 各問題は、その分野の有資格専門家に匹敵する知識とスキルレベルを要求します[5]
  • 検証可能な答え: 各問題には、明確で証明可能な正解があります。
  • 検索耐性: 問題は、単純な検索クエリでは答えが見つからないように選ばれており、成功するには主題の深い理解と推論が必要です[1]

モデルの検証結果

Humanity's Last Examは、極めて困難な試練であるとの評判をすぐに確立しました:現行のどのAIモデルも、人間レベルに近いスコアを達成することはできませんでした。2025年時点で最高の言語モデルも、非常に低い正解率しか示しませんでした。

  • OpenAIの様々なバージョンのGPT-4とAnthropicのClaudeは、10%未満のスコアでした[4]
  • 標準的なLLMの中で最高の結果を出したのは、Google DeepMindのGemini 2.5 Proモデルで、正解率は約21.6%でした[4]
  • 最高のモデルでさえHLEの問題の約5分の4に失敗しており、これは現在のAIの能力と人間の専門家レベルとの間のギャップの大きさを示しています[1]

特に興味深いのは、OpenAIの実験的エージェントChatGPT Deep Researchの結果です。このエージェントは自動的に検索クエリを実行することが許可されていました。研究者の作業を模倣することで、このエージェントは問題の26.6%を正しく解くことができました。これは、そのようなツールを持たないどのモデルよりも2倍以上高い結果ですが、合格点にはまだほど遠いものです[6]

意義と展望

HLEの登場は、AIコミュニティにとって重要な出来事となりました。なぜなら、このベンチマークは、進歩を測るためのより困難な新しい指標という、差し迫ったニーズを満たしたからです。

  • 共通の基準点。HLEは、研究者や政策立案者に対して、AIの能力を客観的に評価するためのツールを提供し、改善の動向を追跡し、機械が人間レベルにどれだけ近づいているかを理解することを可能にします。
  • 政策決定に情報を提供するためのツール。このような基準テストの存在は、AIの発展方向、潜在的なリスク、および必要な規制措置に関する、より具体的な議論を促進します。
  • アカデミックな試練の最終フロンティア。「最後の試験」という名称自体が、この問題セットがAIを評価するための最後のクローズドブック試験になり得るという考えを反映しています。HLEを確実にクリアすることは、形式知と厳密に検証可能な推論スキルにおいて、機械が人間のトップエキスパートのレベルに達したことを意味します[4]

HLEを完全にクリアしたとしても、それは汎用人工知能(AGI)の達成を意味するわけではないことに注意することが重要です。なぜなら、このテストは創造性、自発性、あるいは新しい科学的問いを立てる能力を検証するものではないからです[4]

急速な進歩を考慮すると、研究者たちは、2025年末までにモデルがHLEで50%以上の正解率を超える可能性があると予測しています。これは、学術知識という狭いながらも重要な指標において、機械が人間レベルに非常に近づいたことを意味します[4]

外部リンク

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

脚注

  1. 1.0 1.1 1.2 1.3 Fan, L. et al. «Humanity's Last Exam: A New Benchmark for AI Alignment». arXiv:2501.14249, 2025. [1]
  2. 2.0 2.1 2.2 2.3 «Humanity's Last Exam». In Wikipedia. [2]
  3. 3.0 3.1 Dastin, J. & Paul, K. «AI experts ready 'Humanity's Last Exam' to stump powerful tech». Reuters, 2024. [3]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 «Humanity's Last Exam». Center for AI Safety. [4]
  5. «Could you pass 'Humanity's Last Exam'? Probably not, but neither can AI». TechRadar. [5]
  6. «OpenAI's deep research can complete 26% of 'Humanity's Last Exam': What is it and what does it mean?». Hindustan Times. [6]

Category:AI tools