LLM quality metrics — LLM 质量指标

大语言模型 (LLM) 质量指标 — 是一种系统性的方法和一套标准化工具，用于衡量语言模型在准确性、安全性、公平性和可靠性等多个方面的性能^[1]。随着LLM在医疗保健、金融和教育等关键领域的应用越来越广泛，对其进行全面而客观的评估变得至关重要^[2]。

指标和基准测试具有几个关键功能：它们能够客观地比较不同模型，跟踪其发展进程，识别薄弱环节，并为研究人员和实践者提供透明的结果^[1]。

指标类别

用于评估 LLM 的指标可分为几个主要类别：自动化指标、人工评估以及用于评估安全性和可靠性的专门指标。

自动化指标

这些指标可以在没有人工干预的情况下进行快速、可扩展的评估。

基于 n-gram 的指标

衡量生成文本与参考文本之间词汇重合度的传统指标。

BLEU (Bilingual Evaluation Understudy): 最初为评估机器翻译质量而设计。它衡量 n-gram（由 n 个词组成的序列）的匹配精确度，并对过短的生成文本施加惩罚^[3]。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 侧重于召回率，衡量参考文本中的 n-gram 在生成文本中的覆盖程度。在评估摘要任务时尤其有效^[3]。
METEOR: 扩展了 BLEU 的功能，考虑了同义词、词干相同的词和词形变体，从而能更好地与人类评估结果相关联^[3]。

语义指标

这些指标使用上下文嵌入（contextual embedding）来评估语义相似度，而不仅仅是词汇的重合度。

BERTScore: 使用 BERT 模型的嵌入来计算生成文本和参考文本中词元（token）之间的语义相似度。这使得即使表述不同，也能识别语义上的等价性^[4]。
MAUVE: 衡量机器生成文本和人类文本在嵌入空间中的分布差异。在评估开放式生成任务时尤其有效，因为这类任务没有固定的参考文本^[5]。

内部语言建模指标

困惑度 (Perplexity): 一项基本指标，用于衡量语言模型预测文本序列的好坏程度。它反映了模型在预测下一个词元时的不确定性。困惑度值越低，表示性能越好^[6]。
准确率与 F1-score: 广泛应用于分类任务和问答系统。F1-score 是精确率（precision）和召回率（recall）的调和平均数，提供了一个平衡的评估^[6]。

人工评估

人工评估仍然是“黄金标准”，因为自动化指标通常无法捕捉到质量的细微方面，如连贯性、创造性和相关性^[7]。

直接评估: 由专家或众包人员根据给定标准（如流畅性和连贯性）按预设等级（例如 1 到 5 分）对生成内容的质量进行评分。
比较评估: 评估者被要求比较两个或多个模型的输出，并选出最佳者（成对比较）或将其从优到劣进行排序。

人工评估的缺点是成本高、难以规模化且具有主观性^[7]。

LLM-as-a-Judge - 使用 LLM 作为评审

这是一种新方法，即使用一个（通常更强大的）语言模型来评估另一个模型的回答。例如，GPT-4 可以根据给定标准对不同模型的输出进行排序。该方法为人工评估提供了一种可规模化的替代方案，但也存在自身的问题，例如对提示风格的敏感性和潜在的偏见^[8]。

专门指标与基准测试

为评估 LLM 性能和可靠性的特定方面，人们使用了专门的指标和基准测试。

事实可靠性

评估模型生成真实信息且不产生幻觉的能力。

TruthfulQA: 一个专门用于衡量模型产生基于常见迷思和误解的答案倾向的基准测试。它要求模型提供事实正确而非仅仅是流传广泛的答案^[9]。

安全性与伦理

毒性评估: 衡量文本中是否存在攻击性或有害内容。这需要使用专门的分类器和 API，例如 Perspective API^[9]。
偏见与公平性评估: 评估模型是否对不同的人口群体表现出歧视性行为。研究表明，LLM 可能会保留并放大训练数据中的社会刻板印象^[10]。
SafetyBench: 一个用于评估安全性的综合基准测试，包括对抗性攻击的鲁棒性测试以及避免生成有害内容的能力^[11]。

综合基准测试

MMLU (Massive Multitask Language Understanding): 最广泛使用的基准测试之一，包含 57 个学科的多项选择题，涵盖从初等数学到国际法的广泛领域。它评估模型的知识广度和深度^[12]。
BIG-bench (Beyond the Imitation Game): 包含超过 204 个任务，旨在评估超出标准语言模型能力范围的能力，包括下棋和猜表情符号等任务^[12]。

挑战与局限性

相关性问题: 传统的自动化指标（如 BLEU 和 ROUGE）通常与人类评估结果的相关性较差，尤其是在创造性任务中^[13]。
数据污染 (Data Contamination): 存在基准测试数据被包含在模型训练集中的风险，这会导致评估结果虚高且不可靠^[14]。
多语言评估: 现有的多数指标和基准测试主要集中于英语，这限制了它们在评估 LLM 多语言能力时的适用性^[15]。

链接

What Are LLM Benchmarks? — IBM 的概述文章
20 LLM evaluation benchmarks and how they work — Evidently AI 的基准测试指南

参考文献

Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.

注释

↑ ^1.0 ^1.1 “LLM 质量指标”。Perplexity AI。
↑ “专门安全指标”。Perplexity AI。
↑ ^3.0 ^3.1 ^3.2 “传统文本评估指标”。Perplexity AI。
↑ “语义指标”。Perplexity AI。
↑ “基于分布的指标”。Perplexity AI。
↑ ^6.0 ^6.1 “内部指标”。Perplexity AI。
↑ ^7.0 ^7.1 “人工评估”。Perplexity AI。
↑ “LLM-as-a-Judge”。Perplexity AI。
↑ ^9.0 ^9.1 “专门安全指标”。Perplexity AI。
↑ “偏见与公平性”。Perplexity AI。
↑ “安全基准测试”。Perplexity AI。
↑ ^12.0 ^12.1 “综合评估”。Perplexity AI。
↑ “相关性问题”。Perplexity AI。
↑ “数据污染”。Perplexity AI。
↑ “多语言评估”。Perplexity AI。

[perplexity-overview-1] 1.0 ^1.1 “LLM 质量指标”。Perplexity AI。

[perplexity-security-2] “专门安全指标”。Perplexity AI。

[ngram-metrics-3] 3.0 ^3.1 ^3.2 “传统文本评估指标”。Perplexity AI。

[semantic-metrics-4] “语义指标”。Perplexity AI。

[distribution-metrics-5] “基于分布的指标”。Perplexity AI。

[intrinsic-metrics-6] 6.0 ^6.1 “内部指标”。Perplexity AI。

[human-eval-7] 7.0 ^7.1 “人工评估”。Perplexity AI。

[llm-as-judge-8] “LLM-as-a-Judge”。Perplexity AI。

[security-metrics-9] 9.0 ^9.1 “专门安全指标”。Perplexity AI。

[bias-metrics-10] “偏见与公平性”。Perplexity AI。

[safety-bench-11] “安全基准测试”。Perplexity AI。

[comprehensive-benchmarks-12] 12.0 ^12.1 “综合评估”。Perplexity AI。

[challenges-correlation-13] “相关性问题”。Perplexity AI。

[challenges-contamination-14] “数据污染”。Perplexity AI。

[challenges-multilingual-15] “多语言评估”。Perplexity AI。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

LLM quality metrics — LLM 质量指标

Contents

指标类别

自动化指标

基于 n-gram 的指标

语义指标

内部语言建模指标

人工评估

LLM-as-a-Judge - 使用 LLM 作为评审

专门指标与基准测试

事实可靠性

安全性与伦理

综合基准测试

挑战与局限性

链接

参考文献

注释

Navigation menu

LLM quality metrics — LLM 质量指标

指标类别

自动化指标

基于 n-gram 的指标

语义指标

内部语言建模指标

人工评估

LLM-as-a-Judge - 使用 LLM 作为评审

专门指标与基准测试

事实可靠性

安全性与伦理

综合基准测试

挑战与局限性

链接

参考文献

注释

Navigation menu

Search