LLM benchmarks — LLM 评测基准

大型语言模型基准是一套标准化的测试集，旨在衡量、比较和评估大型语言模型 (LLM)的质量与能力^[1]。通常，每个基准都包含一组固定的任务（例如问题、文本或指令），这些任务有预先确定的正确答案或评估标准。这种方法确保了不同模型在同等条件下的客观比较，从而能够追踪该领域的进展，并识别出模型的优缺点^[2]。

基准的常规使用在 LLM 的发展中扮演着关键角色，它激励开发者改进模型，并确保了科学界研究成果的透明度和可比性。基准的演变反映了 LLM 自身的发展：从简单的语言理解任务，到检验多步推理、常识、伦理和安全的复杂测试^[3]。

主要类别与示例

LLM 基准涵盖了各种技能和应用领域。下文将探讨各主要类别及其最著名的任务集。

通用语言理解

该类别评估模型理解和解释自然语言的基本能力。

GLUE (General Language Understanding Evaluation, 2019) — 首批综合性基准之一，包含一系列不同类型的任务：从情感分析到文本逻辑连贯性评估。所有任务的结果会汇总成一个单一分数，这使得研究人员可以根据早期模型的综合性能进行比较^[4]。
SuperGLUE (2019) — GLUE 的“增强版”继承者，是在模型于 GLUE 上的表现迅速达到接近人类水平后开发的。SuperGLUE 包含更具挑战性的任务，需要更深层次的上下文理解和推理能力^[5]。
WinoGrande (2019) — Winograd Schema Challenge 的扩展版本。它包含 44,000 个任务，要求解决句子中模棱两可的代词指代问题，这需要常识来选择正确的解释^[6]。

多任务与综合基准

这些测试集旨在评估模型在广泛知识和技能上的表现，超越了纯粹的语言学任务。

MMLU (Massive Multitask Language Understanding, 2020) — 一个问答形式的任务集合，涵盖 57 个学科领域，从学校科目到高度专业化的知识（如法律、医学）。MMLU 用于衡量模型的知识广度^[7]。
BIG-bench (Beyond the Imitation Game Benchmark, 2022) — 发布时规模最大的协作式基准，由超过 400 位作者共同开发。它包含 200 多个任务，主题涵盖语言学到物理学等多个领域，旨在测试模型在常规模式匹配之外的能力，并探究其在非标准情况下的极限^[8]。

常识与真实性

这些基准评估模型对日常情境进行逻辑推理以及避免传播虚假信息的能力。

HellaSwag (2019) — 通过选择情景描述最合理的结尾来测试模型的常识。该基准的特点是设有“陷阱”：错误答案是自动生成的，看起来非常可信，这要求模型对上下文有深刻的理解^[9]。
TruthfulQA (2021) — 用于衡量模型传播流行迷思和错误信息的倾向。它包含一些问题，这些问题的网络常见答案是错误的（例如，“疫苗会导致自闭症吗？”）。该基准要求模型不被错误的刻板印象所误导，并给出事实正确的答案^[10]。

数学任务

GSM8K (2021) — 包含数千个小学水平的数学应用题。每个问题都需要 2 到 8 个算术步骤才能得出答案，这考验了模型进行多步推理的能力^[11]。
MATH (2021) — 一个更具挑战性的数据集，由数学竞赛和奥林匹克竞赛的题目组成。它涵盖代数、几何和数论等领域，要求模型掌握非常规的解题方法^[12]。

代码生成

HumanEval (2021) — 评估 LLM 编写代码能力的标准测试。它包含 164 个编程问题，模型需要根据给定的描述生成正确的 Python 代码。代码的正确性通过单元测试进行评估^[13]。
SWE-bench (2023) — 一个更贴近现实的基准，收集了来自 GitHub 的真实问题（issues）描述。模型需要生成一个修复问题的补丁（代码片段）。这需要理解大量他人编写的代码并进行复杂的逐步推理^[14]。

对话模型评估

Chatbot Arena (2024) — 一个开放的在线平台，在该平台上，两个匿名模型与用户进行配对对话。对话结束后，用户投票选出更好的回答。基于成千上万次这样的“对决”，系统会根据用户偏好生成一个 Elo 评级，该评级反映了模型在实时交流中的质量^[15]。
MT-Bench (2023) — 一个用于对话能力压力测试的自动化基准。它包含 80 对问题，模拟多轮对话。模型的回答由另一个更强大的 LLM（即“作为裁判的 LLM”，例如 GPT-4）根据预设的评分标准进行评估^[16]。

安全性与可靠性

AgentHarm (2024) — 一个评估 LLM 智能体执行危险指令倾向的基准。它包含 110 个代表恶意任务的场景（从欺诈到网络犯罪）。一个好的模型应该拒绝执行此类请求^[17]。
SafetyBench (2023) — 一个包含超过 11,000 个问题的广泛数据集，用于测试模型在多大程度上能够持续避免生成不当内容和有害建议，包括在面对挑衅性请求时^[18]。

局限性与当前问题

数据污染：评估可靠性的主要威胁是测试数据泄露到训练集中。模型可能只是记住了答案，从而人为地夸大了其性能^[2]。
基准饱和：随着模型的发展，它们在旧基准（如 GLUE）上的表现达到了上限，使得这些测试在区分更新、更强大的模型方面失去了作用。这要求不断开发更具挑战性的标准^[2]。
与现实脱节：在基准测试中取得高分并不能保证模型在真实、非结构化的场景中也能可靠地工作。真实环境通常比任何固定的任务集都更加丰富和不可预测^[1]。

外部链接

Open LLM Leaderboard — Hugging Face 社区的开放模型排行榜
Chatbot Arena Leaderboard — 基于人类偏好的聊天机器人排行榜

注释

↑ ^1.0 ^1.1 “What Are LLM Benchmarks?”. IBM. [1]
↑ ^2.0 ^2.1 ^2.2 “20 LLM evaluation benchmarks and how they work”. Evidently AI. [2]
↑ “Самые популярные LLM бенчмарки”. Хабр. [3]
↑ Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”. arXiv. [4]
↑ Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. “SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems”. arXiv. [5]
↑ Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. “WinoGrande: An Adversarial Winograd Schema Challenge at Scale”. arXiv. [6]
↑ Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. “Measuring Massive Multitask Language Understanding”. arXiv. [7]
↑ Srivastava, Aarohi; et al. “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models”. arXiv. [8]
↑ Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. “HellaSwag: Can a Machine Really Finish Your Sentence?”. arXiv. [9]
↑ Lin, Stephanie; Hilton, Jacob; Evans, Owain. “TruthfulQA: Measuring How Models Mimic Human Falsehoods”. arXiv. [10]
↑ Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. “Training Verifiers to Solve Math Word Problems”. arXiv. [11]
↑ Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. “Measuring Mathematical Problem Solving With the MATH Dataset”. arXiv. [12]
↑ Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. “Evaluating Large Language Models Trained on Code”. arXiv. [13]
↑ Jimenez, Carlos E.; et al. “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”. arXiv. [14]
↑ Chiang, Wei-Lin; et al. “Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences”. lmsys.org. [15]
↑ Zheng, Lianmin; et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”. arXiv. [16]
↑ Andriushchenko, Maksym; et al. “AgentHarm: A Benchmark for Asessing Agentic AI Harm”. arXiv. [17]
↑ Zhang, Zhexin; et al. “SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models”. arXiv. [18]

[ibm-benchmarks-1] 1.0 ^1.1 “What Are LLM Benchmarks?”. IBM. [1]

[evidently-guide-2] 2.0 ^2.1 ^2.2 “20 LLM evaluation benchmarks and how they work”. Evidently AI. [2]

[habr-popular-llm-3] “Самые популярные LLM бенчмарки”. Хабр. [3]

[wang2019glue-4] Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”. arXiv. [4]

[wang2019superglue-5] Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. “SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems”. arXiv. [5]

[sakaguchi2019-6] Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. “WinoGrande: An Adversarial Winograd Schema Challenge at Scale”. arXiv. [6]

[hendrycks2020mmlu-7] Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. “Measuring Massive Multitask Language Understanding”. arXiv. [7]

[srivastava2022bigbench-8] Srivastava, Aarohi; et al. “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models”. arXiv. [8]

[zellers2019hellaswag-9] Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. “HellaSwag: Can a Machine Really Finish Your Sentence?”. arXiv. [9]

[lin2021truthfulqa-10] Lin, Stephanie; Hilton, Jacob; Evans, Owain. “TruthfulQA: Measuring How Models Mimic Human Falsehoods”. arXiv. [10]

[cobbe2021gsm8k-11] Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. “Training Verifiers to Solve Math Word Problems”. arXiv. [11]

[hendrycks2021math-12] Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. “Measuring Mathematical Problem Solving With the MATH Dataset”. arXiv. [12]

[chen2021humaneval-13] Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. “Evaluating Large Language Models Trained on Code”. arXiv. [13]

[jimenez2023swebench-14] Jimenez, Carlos E.; et al. “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”. arXiv. [14]

[chiang2024chatbot-15] Chiang, Wei-Lin; et al. “Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences”. lmsys.org. [15]

[zheng2023mtbench-16] Zheng, Lianmin; et al. “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”. arXiv. [16]

[andriushchenko2024agentharm-17] Andriushchenko, Maksym; et al. “AgentHarm: A Benchmark for Asessing Agentic AI Harm”. arXiv. [17]

[zhang2023safetybench-18] Zhang, Zhexin; et al. “SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models”. arXiv. [18]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

LLM benchmarks — LLM 评测基准

Contents

主要类别与示例

通用语言理解

多任务与综合基准

常识与真实性

数学任务

代码生成

对话模型评估

安全性与可靠性

局限性与当前问题

外部链接

注释

Navigation menu

LLM benchmarks — LLM 评测基准

主要类别与示例

通用语言理解

多任务与综合基准

常识与真实性

数学任务

代码生成

对话模型评估

安全性与可靠性

局限性与当前问题

外部链接

注释

Navigation menu

Search