BLEU (Bilingual Evaluation Understudy) — ブルー
BLEU(英語の Bilingual Evaluation Understudy、「バイリンガル評価補佐」の略)は、機械によって翻訳されたテキストの品質を自動で評価するためのアルゴリズムです。評価は、候補となる翻訳を一つまたは複数の参照(リファレンス)となる人間による翻訳と比較することによって行われます[1]。品質は、機械翻訳がプロの翻訳にどれだけ語彙的に近いかによって決定されます。著者らが述べたように、「機械翻訳がプロの人間の翻訳に近ければ近いほど、その品質は高い」とされています[2]。
この手法は2002年にキショール・パピネニ(Kishore Papineni)が率いるIBMの研究者グループによって提案され、専門の翻訳者による評価と高い相関を示した最初の評価指標の一つとなりました。BLEUは、計算の単純さ、言語への非依存性、そしてコーパスレベルでの人間による評価との良好な一致により、急速に普及しました[1]。
BLEUの計算方法
BLEUは、候補翻訳と参照翻訳との間でn-gram(n個の単語からなる連続したシーケンス)の一致を数えることによって翻訳を評価します。
1. 修正n-gram適合率
まず、様々な長さのn-gram(通常1から4まで)について、その適合率()、つまり候補翻訳に含まれるn-gramが参照翻訳にも出現する割合が計算されます[3]。この際、同じ単語の繰り返しによるスコアの過大評価を避けるため、各n-gramの一致数は、いずれかの参照翻訳におけるそのn-gramの最大出現回数に制限されます。
2. 集計と幾何平均
単一のスコアを得るために、1-gram、2-gram、3-gram、4-gramの適合率が幾何平均を用いて集計されます。これは、あるn-gramタイプ(例えば4-gram)の適合率が低い場合に最終スコアに大きな影響を与え、長いフレーズの品質の低さを反映させるためです。
3. 短さに対するペナルティ (Brevity Penalty)
BLEUは、短すぎるが正確な翻訳が高いスコアを得ることを防ぐため、短さに対するペナルティ(Brevity Penalty, BP)を導入しています。候補翻訳の長さ(c)が参照翻訳の長さ(r)よりも著しく短い場合、最終的なBLEUスコアは減少します。ペナルティは次の式で計算されます:
4. 最終的なBLEUの計算式
最終的なBLEUスコアは、短さに対するペナルティとn-gram適合率の幾何平均の積として計算されます[4]: ここで、Nはn-gramの最大長(通常は4)、は重み(通常は)です。
BLEUの値は0から1の範囲にあり(しばしば100を掛けてパーセンテージで表されます)、結果が1(100%)に近づくほど、翻訳はより「人間に近い」と見なされます。
適用と意義
発表以来、BLEUスコアは機械翻訳(MT)システムの評価における事実上の標準となりました。これにより、MTシステム開発における「ボトルネック」であった、時間とコストのかかる手動評価を克服することが可能になりました。開発者はモデルの変更による効果を迅速に測定し、失敗したアプローチを素早く棄却できるようになったのです[2]。
BLEUはコーパス全体レベルでの人間による評価と高い相関がありますが、個々の文の評価には信頼性がありません[3]。そのため、この指標はMTに関する標準化されたコンペティション(例:NISTやWMT)でシステムを比較するために広く利用されてきました。
制限と批判
広く普及しているにもかかわらず、BLEUにはいくつかの重大な制限があります:
- 意味の評価の欠如: BLEUは表面的な単語の一致のみを測定し、原文の意味が正しく伝わっているかを評価できません。翻訳は高いスコアを得ても、文法的に間違っていたり、意味を歪めていたりすることがあります[5]。
- 同義語や言い換えの無視: このアルゴリズムは、完全に正しくても、参照翻訳とは異なる同義語や表現を使った翻訳を低く評価してしまいます。複数の参照翻訳を使用することでこの問題は緩和されますが、完全には解決しません。
- トークン化への感受性: BLEUの結果は、テキストをトークンに分割する方法に大きく依存します。トークナイザの実装が異なると値も異なり、モデルの比較が不正確になる可能性があります。この問題を解決するために、指標の計算を統一する標準であるSacreBLEUが提案されました[1]。
- 一部の言語への適用の難しさ: BLEUは、事前の分かち書きなしでは、単語の区切りが明確でない言語(例えば、中国語や日本語)に対してはうまく機能しません。
代替案と現代的アプローチ
時が経つにつれて、BLEUの欠点を克服するために、新しい自動評価指標が提案されました:
- METEOR: 同義語の一致、ステミング、語順を考慮します。
- ROUGE: テキスト要約の評価に用いられ、適合率よりも再現率(recall)に焦点を当てます。
- 学習ベースの評価指標 (Learned Metrics): 機械学習モデルを利用して意味的な近さを考慮する現代的なアプローチです。BLEURTやCOMETのような指標は、古典的なBLEUよりも人間による評価と著しく高い相関を示します[6]。
2020年代までに、BLEUは無条件の標準としての地位を失い、より正確な手法にその座を譲りました[7]。それでもなお、BLEUはMT評価の歴史における重要なマイルストーンであり続け、進捗を測定する際の基本的なベースラインとして利用され続けています。
外部リンク
脚注
- ↑ 1.0 1.1 1.2 “BLEU”. Wikipedia. [1]
- ↑ 2.0 2.1 Papineni, Kishore, et al. “Bleu: a Method for Automatic Evaluation of Machine Translation”. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
- ↑ 3.0 3.1 “BLEU”. MT Companion 4.0 documentation. [3]
- ↑ Callison-Burch, Chris, et al. “BLEU: a Method for Automatic Evaluation of Machine Translation”. Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
- ↑ Cardete, Jorge. “Beyond BLEU Score. When it comes to the nuanced world of...”. The Deep Hub | Medium. [5]
- ↑ “BLEURT: метрика для оценки моделей для генерации текста”. Neurohive. [6]
- ↑ “Chief Digital and Artificial Intelligence Office > Lexicon”. ai.mil. [7]