BERTScore (metric) — BERT评分

BERTScore 是一种用于评估生成文本质量的自动度量标准，它基于使用 BERT 等预训练语言模型的上下文嵌入来衡量语义相似度。该指标由以 张天一（Tianyi Zhang）为首的一组研究人员于2019年在论文《BERTScore: Evaluating Text Generation with BERT》中提出^[1]。

与基于n-gram精确匹配的传统度量标准（如 BLEU 和 ROUGE）不同，BERTScore 能够识别词语和表述不同但意义等同的情况，因为它考虑了同义词和释义^[2]。

计算方法

BERTScore 的计算方法包括以下几个步骤：

获取上下文嵌入：将两个文本（参考文本和生成文本）分词，并通过预训练的Transformer模型（如BERT或RoBERTa）进行处理。为每个词元（token）提取其上下文向量表示（嵌入）。
计算余弦相似度：计算两个文本中所有词元对的余弦相似度，并形成一个词元相似度矩阵^[3]。
计算精确率、召回率和F1分数：基于相似度矩阵，为生成文本中的每个词元找到参考文本中最相似的词元，从而计算出精确率（precision）。同样，为参考文本中的每个词元找到生成文本中最接近的词元，从而得出召回率（recall）。最终的BERTScore值是结合了精确率和召回率的平衡F₁分数：

    $R_{BERT} = \frac{1}{| x |} \sum_{x_{i} \in x} \max_{y_{j} \in y} x_{i}^{T} y_{j} (Recall)$ 
    $P_{BERT} = \frac{1}{| y |} \sum_{y_{j} \in y} \max_{x_{i} \in x} x_{i}^{T} y_{j} (Precision)$ 
    $F_{BERT} = 2 \frac{P_{BERT} \cdot R_{BERT}}{P_{BERT} + R_{BERT}}$

该指标非常灵活：可以选择不同的预训练模型，使用IDF权重对词元进行加权，并对分数进行线性变换以获得更好的可解释性^[3]。

应用与效果

BERTScore 用于评估各种文本生成任务的质量：

机器翻译：即使翻译结构与参考译文不同，也能捕捉到意义的保留。
自动摘要：能够识别出不同的表述可能传达相同的关键事实，这使其比 ROUGE 更加灵活。
对话系统：通过在语义层面上将回答与参考答案进行比较，帮助衡量回答的恰当性。

作者进行的大规模评估表明，BERTScore 与人类判断的相关性系数显著高于 BLEU 和 ROUGE 等指标。此外，该指标在处理复杂的释义情况时表现出更强的鲁棒性^[1]。

优点

考虑语义：在意义层面上比较文本，考虑了同义词和释义。
与人类判断高度相关：与传统指标相比，BERTScore 的评估结果与人类对文本质量的判断更为一致。
通用性与可移植性：该指标不局限于特定语言或任务，只需选择相应的预训练模型即可。
无需训练：BERTScore 是一种无需训练的指标，与需要先在评估语料库上进行微调的更复杂指标（如BLEURT）不同。
集成先进模型：利用Transformer的强大能力来提取深层上下文特征。

局限与批评

计算成本高：基于嵌入的计算比n-gram计数需要更多资源，通常需要使用GPU^[2]。
依赖于模型：评估质量直接取决于预训练模型的质量。模型的选择以及用于提取嵌入的层都会影响结果，这可能导致可复现性问题^[4]。
不考虑事实和结构：BERTScore 专注于局部语义相似性，不保证对文本结构或事实准确性的理解。一个短语顺序颠倒或包含事实错误的文本仍可能获得高分^[3]。
可解释性差：与BLEU/ROUGE不同，BERTScore 指标不够透明，这使得错误分析变得困难。
社会偏见 (bias)：该指标继承了预训练模型中固有的刻板印象和偏见。2022年的一项研究表明，基于LLM的指标（包括BERTScore）比传统指标表现出明显更大的社会偏见^[5]。

评估中的意义与作用

BERTScore 代表了生成文本评估方法发展的重要一步，因为它能够考虑语义等效性，而不仅仅是词汇匹配。尽管没有哪个自动指标能够完美衡量文本质量，但BERTScore 已被证明是一个可靠的工具，它补充而非完全取代了经典方法（如BLEU和ROUGE）。

在实践中，BERTScore 通常与人工评估及其他指标结合使用，以更全面、深入地了解模型在生成连贯且语义相关的文本方面的表现^[2]。

链接

BERTScore 官方 GitHub 仓库

注释

↑ ^1.0 ^1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 апр. 2019 г. [1]
↑ ^2.0 ^2.1 ^2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]
↑ ^3.0 ^3.1 ^3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]
↑ Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]
↑ Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 окт. 2022 г. [5]

[bertscore_paper-1] 1.0 ^1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 апр. 2019 г. [1]

[analytics_vidhya-2] 2.0 ^2.1 ^2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]

[bertscore_explained-3] 3.0 ^3.1 ^3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]

[theseus_fi-4] Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]

[bertscore_unfair-5] Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 окт. 2022 г. [5]

[1]

[2]

[3]

[4]

[5]

BERTScore (metric) — BERT评分

Contents

计算方法

应用与效果

优点

局限与批评

评估中的意义与作用

链接

注释

Navigation menu

BERTScore (metric) — BERT评分

计算方法

应用与效果

优点

局限与批评

评估中的意义与作用

链接

注释

Navigation menu

Search