BLEU (Bilingual Evaluation Understudy) (DE)
BLEU (von engl. Bilingual Evaluation Understudy – „zweisprachiger Ersatzgutachter“) ist ein Algorithmus zur automatischen Bewertung der Qualität von maschinell übersetztem Text. Die Bewertung erfolgt durch den Vergleich einer Kandidatenübersetzung mit einer oder mehreren menschlichen Referenzübersetzungen[1]. Die Qualität wird durch den Grad der lexikalischen Ähnlichkeit der maschinellen Übersetzung mit einer professionellen Übersetzung bestimmt. Wie die Autoren feststellten, „je näher eine maschinelle Übersetzung an einer professionellen menschlichen Übersetzung ist, desto besser ist sie“[2].
Die Methode wurde 2002 von einer Forschungsgruppe bei IBM unter der Leitung von Kishore Papineni vorgeschlagen und war eine der ersten Metriken, die eine hohe Korrelation mit den Bewertungen von menschlichen Fachexperten aufwies. BLEU gewann schnell an Popularität aufgrund seiner einfachen Berechnung, seiner sprachlichen Unabhängigkeit und der guten Übereinstimmung mit menschlichen Bewertungen auf Korpusebene[1].
Berechnungsmethode von BLEU
BLEU bewertet eine Übersetzung durch das Zählen von übereinstimmenden N-Grammen (Sequenzen von n Wörtern) zwischen der Kandidatenübersetzung und den Referenzübersetzungen.
1. Modifizierte N-Gramm-Präzision
Zunächst wird für N-Gramme unterschiedlicher Länge (üblicherweise von 1 bis 4) ihre Präzision () berechnet – der Anteil der N-Gramme aus der Kandidatenübersetzung, die in den Referenzübersetzungen vorkommen[3]. Dabei wird die Anzahl der Übereinstimmungen für jedes N-Gramm auf die maximale Anzahl seines Vorkommens in einem der Referenztexte begrenzt, um eine überhöhte Bewertung durch die Wiederholung desselben Wortes zu vermeiden.
2. Aggregation und geometrisches Mittel
Um eine einzige Bewertung zu erhalten, werden die Präzisionswerte für 1-, 2-, 3- und 4-Gramme mithilfe des geometrischen Mittels aggregiert. Dies geschieht, damit eine niedrige Präzision für einen N-Gramm-Typ (z. B. 4-Gramme) das Endergebnis stark beeinflusst und so die schlechte Qualität längerer Phrasen widerspiegelt.
3. Kürzungsstrafe (Brevity Penalty)
Um zu verhindern, dass zu kurze, aber präzise Übersetzungen überbewertet werden, führt BLEU eine Kürzungsstrafe (Brevity Penalty, BP) ein. Wenn die Länge der Kandidatenübersetzung (c) wesentlich kürzer ist als die Länge der Referenzübersetzung (r), wird der endgültige BLEU-Score reduziert. Die Strafe wird nach folgender Formel berechnet:
4. Endgültige BLEU-Formel
Der endgültige BLEU-Score wird als Produkt der Kürzungsstrafe und des geometrischen Mittels der N-Gramm-Präzisionen berechnet[4]: wobei N die maximale Länge der N-Gramme (üblicherweise 4) ist und die Gewichte (üblicherweise ) sind.
Der BLEU-Wert liegt im Bereich von 0 bis 1 (oft wird er mit 100 multipliziert und in Prozent ausgedrückt). Je näher das Ergebnis an 1 (100 %) liegt, desto „menschenähnlicher“ wird die Übersetzung angesehen.
Anwendung und Bedeutung
Seit ihrer Veröffentlichung ist die BLEU-Metrik zum De-facto-Standard für die Bewertung von Systemen der maschinellen Übersetzung (MÜ) geworden. Sie ermöglichte es, den „Flaschenhals“ bei der Entwicklung von MÜ-Systemen – die langwierige und teure manuelle Bewertung – zu überwinden. Entwickler erhielten die Möglichkeit, die Auswirkungen von Änderungen in den Modellen schnell zu messen und erfolglose Ansätze zeitnah zu verwerfen[2].
BLEU korreliert gut mit menschlichen Bewertungen auf der Ebene des gesamten Korpus von Texten, ist aber unzuverlässig für die Bewertung einzelner Sätze[3]. Daher wurde die Metrik in standardisierten Wettbewerben zur maschinellen Übersetzung (z. B. NIST und WMT) zum Vergleich von Systemen häufig eingesetzt.
Einschränkungen und Kritik
Trotz seiner weiten Verbreitung weist BLEU eine Reihe wesentlicher Einschränkungen auf:
- Fehlende semantische Bewertung: BLEU misst nur die oberflächliche Übereinstimmung von Wörtern und kann nicht beurteilen, ob die Bedeutung des Ausgangstextes korrekt wiedergegeben wird. Eine Übersetzung kann einen hohen Score erzielen, aber grammatikalisch falsch sein oder die Bedeutung verfälschen[5].
- Ignorieren von Synonymen und Paraphrasen: Der Algorithmus bestraft Übersetzungen, die Synonyme oder andere Formulierungen als in der Referenz verwenden, selbst wenn sie vollkommen korrekt sind. Die Verwendung mehrerer Referenzen mildert dieses Problem, löst es aber nicht vollständig.
- Sensitivität gegenüber Tokenisierung: Die BLEU-Ergebnisse hängen stark von der Art und Weise ab, wie der Text in Token zerlegt wird. Unterschiedliche Implementierungen von Tokenizern können zu unterschiedlichen Werten führen, was den Vergleich von Modellen unzuverlässig macht. Um dieses Problem zu lösen, wurde der Standard SacreBLEU vorgeschlagen, der die Berechnung der Metrik vereinheitlicht[1].
- Schwierigkeiten bei der Anwendung auf bestimmte Sprachen: BLEU funktioniert schlecht bei Sprachen ohne klare Worttrenner (z. B. Chinesisch oder Japanisch), wenn keine vorherige Segmentierung durchgeführt wird.
Alternativen und moderne Ansätze
Im Laufe der Zeit wurden neue automatische Metriken vorgeschlagen, um die Nachteile von BLEU zu überwinden:
- METEOR: Berücksichtigt Übereinstimmungen von Synonymen, Stemming und die Wortreihenfolge.
- ROUGE: Wird zur Bewertung von Textzusammenfassungen verwendet und konzentriert sich auf den Recall (Vollständigkeit) statt auf die Präzision.
- Lernbasierte Metriken (Learned Metrics): Moderne Ansätze, die Modelle des maschinellen Lernens verwenden, um semantische Ähnlichkeit zu berücksichtigen. Metriken wie BLEURT und COMET zeigen eine deutlich höhere Korrelation mit menschlichen Bewertungen als das klassische BLEU[6].
In den 2020er Jahren hat BLEU seinen Status als unangefochtener Standard verloren und wurde durch präzisere Methoden abgelöst[7]. Dennoch bleibt er ein wichtiger Meilenstein in der Geschichte der MÜ-Bewertung und wird weiterhin als grundlegender Referenzpunkt zur Messung des Fortschritts verwendet.
Weblinks
Einzelnachweise
- ↑ 1.0 1.1 1.2 „BLEU“. Wikipedia. [1]
- ↑ 2.0 2.1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
- ↑ 3.0 3.1 „BLEU“. MT Companion 4.0 documentation. [3]
- ↑ Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
- ↑ Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]
- ↑ „BLEURT: метрика для оценки моделей для генерации текста“. Neurohive. [6]
- ↑ „Chief Digital and Artificial Intelligence Office > Lexicon“. ai.mil. [7]