LLM evaluation — LLM 评估

From Systems analysis wiki
Jump to navigation Jump to search

大型语言模型(LLM)评估是人工智能领域的一门学科,旨在提供标准化的方法来衡量语言模型的能力、局限性和风险[1]。随着LLM被集成到医疗保健和金融等关键领域,对其进行客观评估对于确保安全性、可靠性和公平性变得至关重要[2]

LLM 评估具有几个基本功能:

  • 衡量能力:在标准化任务上客观比较不同模型的性能。
  • 跟踪进展:记录成果并识别需要进一步改进的领域。
  • 最小化风险:识别潜在的有害输出,如偏见、幻觉和安全问题。
  • 为开发者和用户提供信息:提供透明的信息,以帮助选择最适合特定应用的模型。


主要方法与方法论

现代 LLM 评估始于综合性基准测试的出现,例如GLUE(通用语言理解评估),它为评估通用语言理解能力设定了标准[3]。随着模型在 GLUE 上的表现开始超越人类水平,更复杂的后续基准被开发出来,如SuperGLUE[4]

随着MMLUBIG-bench等多任务基准的引入,评估领域发生了根本性的转变。这些基准测试模型在广泛的知识和推理能力方面的表现,超越了纯粹的语言任务[1]

关键指标与基准测试

自动化指标

  • 困惑度 (Perplexity):一项基础指标,用于衡量模型预测文本的优劣。困惑度越低,表示模型对其预测的置信度越高。
  • BLEUROUGE:基于 n-gram 的指标,用于衡量生成文本与参考文本之间的词汇重叠度。BLEU 侧重于准确率,而 ROUGE 侧重于召回率[2]
  • BERTScore:一种语义指标,利用 BERT 的嵌入来计算语义相似度。它能够捕捉同义和释义,使其比基于 n-gram 的指标更为准确[5]

专业化基准测试

为评估特定能力,已开发出有针对性的基准测试:

  • 代码生成HumanEval 评估模型根据文本描述生成正确代码的能力,通过单元测试来验证其功能性[6]
  • 常识推理HellaSwag 通过预测日常情景最有可能的结局,来测试模型对物理世界和因果关系的理解[7]
  • 学术知识MMLU(大规模多任务语言理解)涵盖了从初等数学到法律和医学的57个科目,用以检验模型的知识广度[8]
  • 能力边界BIG-bench(超越模仿游戏)是一个协作项目,汇集了204项任务,旨在揭示模型的涌现能力——即当模型达到关键规模时突然出现的技能[9]

安全性与伦理评估

  • 偏见:为评估社会和人口偏见,使用诸如 BBQ(问答偏见基准)和 BOLD(开放式语言生成偏见数据集)等数据集。
  • 毒性:像 RealToxicityPrompts 这样的基准测试提供可能引发模型生成有毒内容的提示,以评估其鲁棒性。
  • 鲁棒性:通过对抗性攻击进行评估。PromptRobust 框架提供了一套全面的提示,用于在字符、单词和句子层面测试模型的鲁棒性。

现代标准与框架

  • HELM (Holistic Evaluation of Language Models):斯坦福大学的一项倡议,提出了一种“整体”评估方法。HELM 从多个维度评估模型:准确性、鲁棒性、公平性、偏见、毒性和效率[10]
  • ISO/IEC 42001:2023:首个关于人工智能管理体系的国际标准,为 AI 的全生命周期管理设定了要求。
  • 欧盟法规 2024/1689 (EU AI Act):首个全面的人工智能法规,要求对具有系统性风险的通用模型进行标准化评估。
  • NIST AI 风险管理框架 1.0:由美国国家标准与技术研究院制定的自愿性框架,旨在帮助开发和部署可信赖的人工智能。

现有方法的挑战与局限

  • 基准饱和:许多模型在流行的基准测试上达到了近乎完美的表现,这导致了“刷榜”现象,即模型被优化以适应特定测试,而非提升通用能力。
  • 数据污染:一个关键问题,指基准测试的测试数据被无意中包含在训练集中,导致评估结果虚高且不公平。
  • 与人类判断的相关性低:自动化指标(如 BLEU 和 ROUGE)通常与人类对质量的判断相关性较差,尤其是在创造性和开放式任务中。

当前研究与趋势

  • LLM-as-a-Judge 范式:使用强大的 LLM(如 GPT-4)作为“裁判”来评估其他模型的回答。这种方法为昂贵的人工评估提供了一种可扩展的替代方案。
  • 动态与自适应评估:诸如 LMArena 之类的平台引入了基于 Elo 评级的众包系统,通过与用户的实时互动来对模型进行真实评估。
  • 混合方法:将自动化指标、人类判断和 LLM 评估相结合,以获得对模型性能更全面、更可靠的评估。

LLM 评估领域在不断发展,致力于创建多维度、标准化和可复现的框架,这些框架不仅考虑准确性,还涵盖了 AI 技术应用的社会和伦理方面[1]

链接

  • Stanford HELM — Holistic Evaluation of Language Models 项目官网。
  • Chatbot Arena — 一个基于人类偏好对聊天机器人进行比较评估的平台。

参考文献

  • Wang, A. et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv:1804.07461.
  • Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
  • Wang, A. et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. arXiv:1905.00537.
  • Zellers, R. et al. (2019). HellaSwag: Can a Machine Really Finish Your Sentence?. arXiv:1905.07830.
  • Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
  • Gehman, S. et al. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. arXiv:2009.11462.
  • Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
  • Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
  • Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
  • Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
  • Bommasani, R. et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Zhuang, Y. et al. (2023). Through the Lens of Core Competency: Survey on Evaluation of Large Language Models. ACL Anthology:2023.ccl-2.8.
  • Zhu, K. et al. (2023). PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts. arXiv:2306.04528.

注释

  1. 1.0 1.1 1.2 Chang, Y., et al. (2023). «A Survey on Evaluation of Large Language Models». arXiv. [1]
  2. 2.0 2.1 Zhuang, Y., et al. (2023). «Through the Lens of Core Competency: Survey on Evaluation of Large Language Models». ACL Anthology. [2]
  3. Wang, A., et al. (2018). «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv.[3]
  4. Kumar, Pradosh. «Understanding Benchmarking in NLP: GLUE, SuperGLUE, HELM, MMLU, and BIG-Bench». Medium.
  5. Zhang, T., et al. (2019). «BERTScore: Evaluating Text Generation with BERT». arXiv.
  6. Chen, M., et al. (2021). «Evaluating Large Language Models Trained on Code». arXiv.
  7. Zellers, R., et al. (2019). «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv.
  8. Hendrycks, D., et al. (2020). «Measuring Massive Multitask Language Understanding». arXiv.
  9. Srivastava, A., et al. (2022). «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv.
  10. Bommasani, R., et al. (2022). «Holistic Evaluation of Language Models». arXiv. [4]