BERTScore (metric) — BERT评分

From Systems analysis wiki
Jump to navigation Jump to search

BERTScore 是一种用于评估生成文本质量的自动度量标准,它基于使用 BERT 等预训练语言模型的上下文嵌入来衡量语义相似度。该指标由以 张天一(Tianyi Zhang)为首的一组研究人员于2019年在论文《BERTScore: Evaluating Text Generation with BERT》中提出[1]

与基于n-gram精确匹配的传统度量标准(如 BLEU 和 ROUGE)不同,BERTScore 能够识别词语和表述不同但意义等同的情况,因为它考虑了同义词和释义[2]

计算方法

BERTScore 的计算方法包括以下几个步骤:

  1. 获取上下文嵌入:将两个文本(参考文本和生成文本)分词,并通过预训练的Transformer模型(如BERT或RoBERTa)进行处理。为每个词元(token)提取其上下文向量表示(嵌入)。
  2. 计算余弦相似度:计算两个文本中所有词元对的余弦相似度,并形成一个词元相似度矩阵[3]
  3. 计算精确率、召回率和F1分数:基于相似度矩阵,为生成文本中的每个词元找到参考文本中最相似的词元,从而计算出精确率precision)。同样,为参考文本中的每个词元找到生成文本中最接近的词元,从而得出召回率recall)。最终的BERTScore值是结合了精确率和召回率的平衡F₁分数:
   RBERT=1|x|xixmaxyjyxiTyj(Recall)
   PBERT=1|y|yjymaxxixxiTyj(Precision)
   FBERT=2PBERTRBERTPBERT+RBERT

该指标非常灵活:可以选择不同的预训练模型,使用IDF权重对词元进行加权,并对分数进行线性变换以获得更好的可解释性[3]

应用与效果

BERTScore 用于评估各种文本生成任务的质量:

  • 机器翻译:即使翻译结构与参考译文不同,也能捕捉到意义的保留。
  • 自动摘要:能够识别出不同的表述可能传达相同的关键事实,这使其比 ROUGE 更加灵活。
  • 对话系统:通过在语义层面上将回答与参考答案进行比较,帮助衡量回答的恰当性。

作者进行的大规模评估表明,BERTScore 与人类判断的相关性系数显著高于 BLEU 和 ROUGE 等指标。此外,该指标在处理复杂的释义情况时表现出更强的鲁棒性[1]

优点

  • 考虑语义:在意义层面上比较文本,考虑了同义词和释义。
  • 与人类判断高度相关:与传统指标相比,BERTScore 的评估结果与人类对文本质量的判断更为一致。
  • 通用性与可移植性:该指标不局限于特定语言或任务,只需选择相应的预训练模型即可。
  • 无需训练:BERTScore 是一种无需训练的指标,与需要先在评估语料库上进行微调的更复杂指标(如BLEURT)不同。
  • 集成先进模型:利用Transformer的强大能力来提取深层上下文特征。

局限与批评

  • 计算成本高:基于嵌入的计算比n-gram计数需要更多资源,通常需要使用GPU[2]
  • 依赖于模型:评估质量直接取决于预训练模型的质量。模型的选择以及用于提取嵌入的层都会影响结果,这可能导致可复现性问题[4]
  • 不考虑事实和结构:BERTScore 专注于局部语义相似性,不保证对文本结构或事实准确性的理解。一个短语顺序颠倒或包含事实错误的文本仍可能获得高分[3]
  • 可解释性差:与BLEU/ROUGE不同,BERTScore 指标不够透明,这使得错误分析变得困难。
  • 社会偏见 (bias):该指标继承了预训练模型中固有的刻板印象和偏见。2022年的一项研究表明,基于LLM的指标(包括BERTScore)比传统指标表现出明显更大的社会偏见[5]

评估中的意义与作用

BERTScore 代表了生成文本评估方法发展的重要一步,因为它能够考虑语义等效性,而不仅仅是词汇匹配。尽管没有哪个自动指标能够完美衡量文本质量,但BERTScore 已被证明是一个可靠的工具,它补充而非完全取代了经典方法(如BLEU和ROUGE)。

在实践中,BERTScore 通常与人工评估及其他指标结合使用,以更全面、深入地了解模型在生成连贯且语义相关的文本方面的表现[2]

链接

注释

  1. 1.0 1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 апр. 2019 г. [1]
  2. 2.0 2.1 2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]
  3. 3.0 3.1 3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]
  4. Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]
  5. Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 окт. 2022 г. [5]