BLEU

BLEU (от англ. Bilingual Evaluation Understudy — «двуязычный подменяющий оценщик») — это алгоритм для автоматической оценки качества текста, переведённого машиной. Оценка производится путём сравнения перевода-кандидата с одним или несколькими эталонными (референсными) человеческими переводами^[1]. Качество определяется степенью лексической близости машинного перевода к профессиональному. Как отмечали авторы, «чем ближе машинный перевод к переводу профессионального человека, тем он лучше»^[2].

Метод был предложен в 2002 году группой исследователей из IBM под руководством Кишора Папинени и стал одной из первых метрик, показавших высокую корреляцию с оценками экспертов-переводчиков. BLEU быстро завоевала популярность благодаря простоте расчёта, языковой независимости и хорошему совпадению с человеческой оценкой на уровне корпуса текстов^[1].

Методика расчёта BLEU

BLEU оценивает перевод путём подсчёта совпадений n-грамм (последовательностей из n слов) между переводом-кандидатом и эталонными переводами.

1. Модифицированная точность n-грамм

Сначала для n-грамм разной длины (обычно от 1 до 4) рассчитывается их точность ( $p_{n}$ ) — доля n-грамм из перевода-кандидата, которые встречаются в эталонных переводах^[3]. При этом количество совпадений для каждой n-граммы ограничивается максимальным числом её вхождений в любом из эталонных текстов, чтобы избежать завышения оценки за повторение одного и того же слова.

2. Агрегирование и геометрическое среднее

Чтобы получить единую оценку, точности для 1-, 2-, 3- и 4-грамм агрегируются с помощью среднего геометрического. Это делается для того, чтобы низкая точность для одного типа n-грамм (например, 4-грамм) сильно влияла на итоговый балл, отражая плохое качество длинных фраз. $\sqrt[4]{p_{1} \cdot p_{2} \cdot p_{3} \cdot p_{4}}$

3. Штраф за краткость (Brevity Penalty)

Чтобы предотвратить получение завышенных оценок за счёт слишком коротких, но точных переводов, BLEU вводит штраф за краткость (Brevity Penalty, BP). Если длина перевода-кандидата (c) существенно меньше длины эталонного перевода (r), итоговый балл BLEU уменьшается. Штраф рассчитывается по формуле: $BP = {\begin{cases} 1 & if c > r \\ e^{1 - r / c} & if c \leq r \end{cases}$

4. Итоговая формула BLEU

Окончательный BLEU-скор рассчитывается как произведение штрафа за краткость на среднее геометрическое точностей n-грамм^[4]: $BLEU = BP \cdot \exp (\sum_{n = 1}^{N} w_{n} \log p_{n})$ где N — максимальная длина n-грамм (обычно 4), а $w_{n}$ — веса (обычно $1 / N$ ).

Значение BLEU находится в диапазоне от 0 до 1 (часто умножается на 100 и выражается в процентах). Чем ближе результат к 1 (100%), тем более «близким к человеческому» считается перевод.

Применение и значение

С момента публикации метрика BLEU стала де-факто стандартом для оценки систем машинного перевода (МП). Она позволила преодолеть «узкое место» в развитии МП-систем — длительность и дороговизну ручной оценки. Разработчики получили возможность быстро измерять эффект от изменений в моделях и оперативно отсеивать неудачные решения^[2].

BLEU хорошо коррелирует с человеческими оценками на уровне всего корпуса текстов, но ненадёжен для оценки отдельных предложений^[3]. Поэтому метрика широко использовалась в стандартизированных соревнованиях по МП (например, NIST и WMT) для сравнения систем.

Ограничения и критика

Несмотря на широкое распространение, BLEU имеет ряд существенных ограничений:

Отсутствие семантической оценки: BLEU измеряет лишь поверхностное совпадение слов и не способен оценить, верно ли передан смысл исходного текста. Перевод может получить высокий балл, но быть грамматически неверным или искажать значение^[5].
Игнорирование синонимов и парафразов: Алгоритм наказывает переводы, использующие синонимы или иные формулировки, чем в эталоне, даже если они полностью корректны. Использование нескольких эталонов смягчает, но не решает эту проблему полностью.
Чувствительность к токенизации: Результаты BLEU сильно зависят от способа разбиения текста на токены. Разные реализации токенизаторов могут приводить к разным значениям, делая сравнение моделей некорректным. Для решения этой проблемы был предложен стандарт SacreBLEU, унифицирующий вычисление метрики^[1].
Сложность применения к некоторым языкам: BLEU плохо работает с языками, не имеющими чётких разделителей слов (например, китайским или японским), без предварительной сегментации.

Альтернативы и современные подходы

Со временем для преодоления недостатков BLEU были предложены новые автоматические метрики:

METEOR: Учитывает совпадения синонимов, стемминг и порядок слов.
ROUGE: Применяется для оценки реферирования текстов, фокусируясь на полноте (recall), а не на точности.
Обучаемые метрики (Learned Metrics): Современные подходы, использующие модели машинного обучения для учёта семантической близости. Метрики, такие как BLEURT и COMET, показывают значительно более высокую корреляцию с оценками людей, чем классический BLEU^[6].

К 2020-м годам BLEU утратил статус безусловного стандарта, уступив место более точным методам^[7]. Тем не менее, он остаётся важной вехой в истории оценки МП и продолжает использоваться как базовая точка отсчёта при измерении прогресса.

Ссылки

Что такое оценка BLEU? — Документация Microsoft Azure

Примечания

↑ ^1,0 ^1,1 ^1,2 «BLEU». Wikipedia. [1]
↑ ^2,0 ^2,1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
↑ ^3,0 ^3,1 «BLEU». MT Companion 4.0 documentation. [3]
↑ Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
↑ Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]
↑ «BLEURT: метрика для оценки моделей для генерации текста». Neurohive. [6]
↑ «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]

[wiki_bleu-1] 1,0 ^1,1 ^1,2 «BLEU». Wikipedia. [1]

[bleu_dvi-2] 2,0 ^2,1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]

[mt_companion-3] 3,0 ^3,1 «BLEU». MT Companion 4.0 documentation. [3]

[callison_burch-4] Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]

[deep_hub-5] Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]

[bleurt-6] «BLEURT: метрика для оценки моделей для генерации текста». Neurohive. [6]

[ai_mil_lexicon-7] «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

BLEU

Содержание

Методика расчёта BLEU

1. Модифицированная точность n-грамм

2. Агрегирование и геометрическое среднее

3. Штраф за краткость (Brevity Penalty)

4. Итоговая формула BLEU

Применение и значение

Ограничения и критика

Альтернативы и современные подходы

Ссылки

Примечания

Навигация

BLEU

Методика расчёта BLEU

1. Модифицированная точность n-грамм

2. Агрегирование и геометрическое среднее

3. Штраф за краткость (Brevity Penalty)

4. Итоговая формула BLEU

Применение и значение

Ограничения и критика

Альтернативы и современные подходы

Ссылки

Примечания

Навигация

Поиск