BERTScore (metric) — BERT评分
Jump to navigation
Jump to search
BERTScore 是一种用于评估生成文本质量的自动度量标准,它基于使用 BERT 等预训练语言模型的上下文嵌入来衡量语义相似度。该指标由以 张天一(Tianyi Zhang)为首的一组研究人员于2019年在论文《BERTScore: Evaluating Text Generation with BERT》中提出[1]。
与基于n-gram精确匹配的传统度量标准(如 BLEU 和 ROUGE)不同,BERTScore 能够识别词语和表述不同但意义等同的情况,因为它考虑了同义词和释义[2]。
计算方法
BERTScore 的计算方法包括以下几个步骤:
- 获取上下文嵌入:将两个文本(参考文本和生成文本)分词,并通过预训练的Transformer模型(如BERT或RoBERTa)进行处理。为每个词元(token)提取其上下文向量表示(嵌入)。
- 计算余弦相似度:计算两个文本中所有词元对的余弦相似度,并形成一个词元相似度矩阵[3]。
- 计算精确率、召回率和F1分数:基于相似度矩阵,为生成文本中的每个词元找到参考文本中最相似的词元,从而计算出精确率(precision)。同样,为参考文本中的每个词元找到生成文本中最接近的词元,从而得出召回率(recall)。最终的BERTScore值是结合了精确率和召回率的平衡F₁分数:
该指标非常灵活:可以选择不同的预训练模型,使用IDF权重对词元进行加权,并对分数进行线性变换以获得更好的可解释性[3]。
应用与效果
BERTScore 用于评估各种文本生成任务的质量:
- 机器翻译:即使翻译结构与参考译文不同,也能捕捉到意义的保留。
- 自动摘要:能够识别出不同的表述可能传达相同的关键事实,这使其比 ROUGE 更加灵活。
- 对话系统:通过在语义层面上将回答与参考答案进行比较,帮助衡量回答的恰当性。
作者进行的大规模评估表明,BERTScore 与人类判断的相关性系数显著高于 BLEU 和 ROUGE 等指标。此外,该指标在处理复杂的释义情况时表现出更强的鲁棒性[1]。
优点
- 考虑语义:在意义层面上比较文本,考虑了同义词和释义。
- 与人类判断高度相关:与传统指标相比,BERTScore 的评估结果与人类对文本质量的判断更为一致。
- 通用性与可移植性:该指标不局限于特定语言或任务,只需选择相应的预训练模型即可。
- 无需训练:BERTScore 是一种无需训练的指标,与需要先在评估语料库上进行微调的更复杂指标(如BLEURT)不同。
- 集成先进模型:利用Transformer的强大能力来提取深层上下文特征。
局限与批评
- 计算成本高:基于嵌入的计算比n-gram计数需要更多资源,通常需要使用GPU[2]。
- 依赖于模型:评估质量直接取决于预训练模型的质量。模型的选择以及用于提取嵌入的层都会影响结果,这可能导致可复现性问题[4]。
- 不考虑事实和结构:BERTScore 专注于局部语义相似性,不保证对文本结构或事实准确性的理解。一个短语顺序颠倒或包含事实错误的文本仍可能获得高分[3]。
- 可解释性差:与BLEU/ROUGE不同,BERTScore 指标不够透明,这使得错误分析变得困难。
- 社会偏见 (bias):该指标继承了预训练模型中固有的刻板印象和偏见。2022年的一项研究表明,基于LLM的指标(包括BERTScore)比传统指标表现出明显更大的社会偏见[5]。
评估中的意义与作用
BERTScore 代表了生成文本评估方法发展的重要一步,因为它能够考虑语义等效性,而不仅仅是词汇匹配。尽管没有哪个自动指标能够完美衡量文本质量,但BERTScore 已被证明是一个可靠的工具,它补充而非完全取代了经典方法(如BLEU和ROUGE)。
在实践中,BERTScore 通常与人工评估及其他指标结合使用,以更全面、深入地了解模型在生成连贯且语义相关的文本方面的表现[2]。
链接
注释
- ↑ 1.0 1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 апр. 2019 г. [1]
- ↑ 2.0 2.1 2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]
- ↑ 3.0 3.1 3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]
- ↑ Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]
- ↑ Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 окт. 2022 г. [5]