BLEU (Bilingual Evaluation Understudy) — 双语评估替补
BLEU (源自英语 Bilingual Evaluation Understudy,意为“双语评估替补”) 是一种用于自动评估机器翻译文本质量的算法。评估通过将候选翻译与一个或多个参考(专业)人工翻译进行比较来进行[1]。质量由机器翻译与专业人工翻译的词汇相似度决定。正如其作者所指出的:“机器翻译越接近专业人工翻译,质量就越好”[2]。
该方法由 IBM 的一个研究团队于2002年提出,由 基肖尔·帕皮内尼 (Kishore Papineni) 领导,并成为首批与翻译专家评估结果高度相关的指标之一。BLEU 因其计算简单、语言无关性以及在语料库层面上与人类评估结果的良好一致性而迅速普及[1]。
BLEU 计算方法
BLEU 通过计算候选翻译与参考翻译之间 n-gram(由 n 个词组成的序列)的匹配数量来评估翻译。
1. 改进的 n-gram 精度
首先,计算不同长度(通常为1到4)的 n-gram 的精度 () — 即候选翻译中出现在参考翻译中的 n-gram 所占的比例[3]。为避免因重复使用同一词语而夸大分数,每个 n-gram 的匹配次数被限制为其在任何单个参考文本中出现的最大次数。
2. 聚合与几何平均值
为了得到一个单一的分数,1-gram、2-gram、3-gram 和 4-gram 的精度通过几何平均值进行聚合。这样做是为了确保单一类型 n-gram(例如 4-gram)的低精度会显著影响最终得分,从而反映长短语的翻译质量不佳。
3. 简短惩罚 (Brevity Penalty)
为了防止过短但精确的翻译获得过高的分数,BLEU 引入了简短惩罚(Brevity Penalty, BP)。如果候选翻译的长度 (c) 显著小于参考翻译的长度 (r),最终的 BLEU 分数将会降低。惩罚按以下公式计算:
4. 最终 BLEU 公式
最终的 BLEU 分数是简短惩罚与 n-gram 精度几何平均值的乘积[4]: 其中 N 为 n-gram 的最大长度(通常为4),而 为权重(通常为 )。
BLEU 的值在 0 到 1 的范围内(通常乘以 100 以百分比表示)。结果越接近 1(100%),翻译被认为越“接近人类水平”。
应用与意义
自发布以来,BLEU 指标已成为评估机器翻译(MT)系统的行业标准。它帮助克服了 MT 系统发展中的一个“瓶颈”——手动评估的耗时与昂贵。开发人员因此能够快速衡量模型变更的效果,并迅速淘汰不成功的方案[2]。
BLEU 在整个语料库层面上与人类评估结果有很好的相关性,但对于评估单个句子并不可靠[3]。因此,该指标被广泛用于标准化的 MT 竞赛(如 NIST 和 WMT)中,以比较不同系统的性能。
局限与批评
尽管 BLEU 被广泛使用,但它存在一些显著的局限性:
- 缺乏语义评估:BLEU 仅衡量表面的词汇重叠,无法评估原文的含义是否被准确传达。一个翻译可能得分很高,但语法错误或歪曲了原意[5]。
- 忽略同义词和释义:该算法会惩罚使用同义词或与参考译文不同表述的翻译,即使这些翻译完全正确。使用多个参考译文可以缓解但不能完全解决这个问题。
- 对分词的敏感性:BLEU 的结果在很大程度上取决于文本如何被分割成词元(token)。不同的分词器实现可能导致不同的分数值,使得模型之间的比较不准确。为了解决这个问题,提出了一个统一该指标计算的标准——SacreBLEU[1]。
- 对某些语言应用的复杂性:对于没有明确单词分隔符的语言(如中文或日文),BLEU 在未经预先分词的情况下表现不佳。
替代方案与现代方法
随着时间的推移,为了克服 BLEU 的缺点,人们提出了新的自动评估指标:
- METEOR:考虑了同义词匹配、词干提取和词序。
- ROUGE:用于评估文本摘要,侧重于召回率(recall)而非精确率。
- 可学习指标 (Learned Metrics):采用机器学习模型来考虑语义相似性的现代方法。诸如 BLEURT 和 COMET 等指标显示出与人类评估结果的相关性远高于传统的 BLEU[6]。
到 2020 年代,BLEU 已不再是绝对的标准,其地位已被更精确的方法所取代[7]。然而,它仍然是评估 MT 历史上的一个重要里程碑,并继续作为衡量进展的基准点。
链接
注释
- ↑ 1.0 1.1 1.2 《BLEU》。Wikipedia。 [1]
- ↑ 2.0 2.1 Papineni, Kishore, et al. 《Bleu: a Method for Automatic Evaluation of Machine Translation》。Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
- ↑ 3.0 3.1 《BLEU》。MT Companion 4.0 documentation。 [3]
- ↑ Callison-Burch, Chris, et al. 《BLEU: a Method for Automatic Evaluation of Machine Translation》。Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
- ↑ Cardete, Jorge. 《Beyond BLEU Score. When it comes to the nuanced world of...》。The Deep Hub | Medium。 [5]
- ↑ 《BLEURT:用于评估文本生成模型的指标》。Neurohive。 [6]
- ↑ 《Chief Digital and Artificial Intelligence Office > Lexicon》。ai.mil。 [7]