LLM evaluation — LLM 评估

大型语言模型（LLM）评估是人工智能领域的一门学科，旨在提供标准化的方法来衡量语言模型的能力、局限性和风险^[1]。随着LLM被集成到医疗保健和金融等关键领域，对其进行客观评估对于确保安全性、可靠性和公平性变得至关重要^[2]。

LLM 评估具有几个基本功能：

衡量能力：在标准化任务上客观比较不同模型的性能。
跟踪进展：记录成果并识别需要进一步改进的领域。
最小化风险：识别潜在的有害输出，如偏见、幻觉和安全问题。
为开发者和用户提供信息：提供透明的信息，以帮助选择最适合特定应用的模型。

主要方法与方法论

现代 LLM 评估始于综合性基准测试的出现，例如GLUE（通用语言理解评估），它为评估通用语言理解能力设定了标准^[3]。随着模型在 GLUE 上的表现开始超越人类水平，更复杂的后续基准被开发出来，如SuperGLUE^[4]。

随着MMLU和BIG-bench等多任务基准的引入，评估领域发生了根本性的转变。这些基准测试模型在广泛的知识和推理能力方面的表现，超越了纯粹的语言任务^[1]。

关键指标与基准测试

自动化指标

困惑度 (Perplexity)：一项基础指标，用于衡量模型预测文本的优劣。困惑度越低，表示模型对其预测的置信度越高。
BLEU 和 ROUGE：基于 n-gram 的指标，用于衡量生成文本与参考文本之间的词汇重叠度。BLEU 侧重于准确率，而 ROUGE 侧重于召回率^[2]。
BERTScore：一种语义指标，利用 BERT 的嵌入来计算语义相似度。它能够捕捉同义和释义，使其比基于 n-gram 的指标更为准确^[5]。

专业化基准测试

为评估特定能力，已开发出有针对性的基准测试：

代码生成：HumanEval 评估模型根据文本描述生成正确代码的能力，通过单元测试来验证其功能性^[6]。
常识推理：HellaSwag 通过预测日常情景最有可能的结局，来测试模型对物理世界和因果关系的理解^[7]。
学术知识：MMLU（大规模多任务语言理解）涵盖了从初等数学到法律和医学的57个科目，用以检验模型的知识广度^[8]。
能力边界：BIG-bench（超越模仿游戏）是一个协作项目，汇集了204项任务，旨在揭示模型的涌现能力——即当模型达到关键规模时突然出现的技能^[9]。

安全性与伦理评估

偏见：为评估社会和人口偏见，使用诸如 BBQ（问答偏见基准）和 BOLD（开放式语言生成偏见数据集）等数据集。
毒性：像 RealToxicityPrompts 这样的基准测试提供可能引发模型生成有毒内容的提示，以评估其鲁棒性。
鲁棒性：通过对抗性攻击进行评估。PromptRobust 框架提供了一套全面的提示，用于在字符、单词和句子层面测试模型的鲁棒性。

现代标准与框架

HELM (Holistic Evaluation of Language Models)：斯坦福大学的一项倡议，提出了一种“整体”评估方法。HELM 从多个维度评估模型：准确性、鲁棒性、公平性、偏见、毒性和效率^[10]。
ISO/IEC 42001:2023：首个关于人工智能管理体系的国际标准，为 AI 的全生命周期管理设定了要求。
欧盟法规 2024/1689 (EU AI Act)：首个全面的人工智能法规，要求对具有系统性风险的通用模型进行标准化评估。
NIST AI 风险管理框架 1.0：由美国国家标准与技术研究院制定的自愿性框架，旨在帮助开发和部署可信赖的人工智能。

现有方法的挑战与局限

基准饱和：许多模型在流行的基准测试上达到了近乎完美的表现，这导致了“刷榜”现象，即模型被优化以适应特定测试，而非提升通用能力。
数据污染：一个关键问题，指基准测试的测试数据被无意中包含在训练集中，导致评估结果虚高且不公平。
与人类判断的相关性低：自动化指标（如 BLEU 和 ROUGE）通常与人类对质量的判断相关性较差，尤其是在创造性和开放式任务中。

当前研究与趋势

LLM-as-a-Judge 范式：使用强大的 LLM（如 GPT-4）作为“裁判”来评估其他模型的回答。这种方法为昂贵的人工评估提供了一种可扩展的替代方案。
动态与自适应评估：诸如 LMArena 之类的平台引入了基于 Elo 评级的众包系统，通过与用户的实时互动来对模型进行真实评估。
混合方法：将自动化指标、人类判断和 LLM 评估相结合，以获得对模型性能更全面、更可靠的评估。

LLM 评估领域在不断发展，致力于创建多维度、标准化和可复现的框架，这些框架不仅考虑准确性，还涵盖了 AI 技术应用的社会和伦理方面^[1]。

链接

Stanford HELM — Holistic Evaluation of Language Models 项目官网。
Chatbot Arena — 一个基于人类偏好对聊天机器人进行比较评估的平台。

参考文献

Wang, A. et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv:1804.07461.
Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
Wang, A. et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. arXiv:1905.00537.
Zellers, R. et al. (2019). HellaSwag: Can a Machine Really Finish Your Sentence?. arXiv:1905.07830.
Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
Gehman, S. et al. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. arXiv:2009.11462.
Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
Bommasani, R. et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Zhuang, Y. et al. (2023). Through the Lens of Core Competency: Survey on Evaluation of Large Language Models. ACL Anthology:2023.ccl-2.8.
Zhu, K. et al. (2023). PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts. arXiv:2306.04528.

注释

↑ ^1.0 ^1.1 ^1.2 Chang, Y., et al. (2023). «A Survey on Evaluation of Large Language Models». arXiv. [1]
↑ ^2.0 ^2.1 Zhuang, Y., et al. (2023). «Through the Lens of Core Competency: Survey on Evaluation of Large Language Models». ACL Anthology. [2]
↑ Wang, A., et al. (2018). «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv.[3]
↑ Kumar, Pradosh. «Understanding Benchmarking in NLP: GLUE, SuperGLUE, HELM, MMLU, and BIG-Bench». Medium.
↑ Zhang, T., et al. (2019). «BERTScore: Evaluating Text Generation with BERT». arXiv.
↑ Chen, M., et al. (2021). «Evaluating Large Language Models Trained on Code». arXiv.
↑ Zellers, R., et al. (2019). «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv.
↑ Hendrycks, D., et al. (2020). «Measuring Massive Multitask Language Understanding». arXiv.
↑ Srivastava, A., et al. (2022). «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv.
↑ Bommasani, R., et al. (2022). «Holistic Evaluation of Language Models». arXiv. [4]

[chang2023-1] 1.0 ^1.1 ^1.2 Chang, Y., et al. (2023). «A Survey on Evaluation of Large Language Models». arXiv. [1]

[ccl-survey-2] 2.0 ^2.1 Zhuang, Y., et al. (2023). «Through the Lens of Core Competency: Survey on Evaluation of Large Language Models». ACL Anthology. [2]

[wang2018-3] Wang, A., et al. (2018). «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv.[3]

[understanding-benchmarks-4] Kumar, Pradosh. «Understanding Benchmarking in NLP: GLUE, SuperGLUE, HELM, MMLU, and BIG-Bench». Medium.

[zhang2019-bertscore-5] Zhang, T., et al. (2019). «BERTScore: Evaluating Text Generation with BERT». arXiv.

[chen2021-humaneval-6] Chen, M., et al. (2021). «Evaluating Large Language Models Trained on Code». arXiv.

[zellers2019-hellaswag-7] Zellers, R., et al. (2019). «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv.

[hendrycks2020-mmlu-8] Hendrycks, D., et al. (2020). «Measuring Massive Multitask Language Understanding». arXiv.

[srivastava2022-bigbench-9] Srivastava, A., et al. (2022). «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv.

[bommasani2022-helm-10] Bommasani, R., et al. (2022). «Holistic Evaluation of Language Models». arXiv. [4]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

LLM evaluation — LLM 评估

Contents

主要方法与方法论

关键指标与基准测试

自动化指标

专业化基准测试

安全性与伦理评估

现代标准与框架

现有方法的挑战与局限

当前研究与趋势

链接

参考文献

注释

Navigation menu

LLM evaluation — LLM 评估

主要方法与方法论

关键指标与基准测试

自动化指标

专业化基准测试

安全性与伦理评估

现代标准与框架

现有方法的挑战与局限

当前研究与趋势

链接

参考文献

注释

Navigation menu

Search