BLEU

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

BLEU (от англ. Bilingual Evaluation Understudy — «двуязычный подменяющий оценщик») — это алгоритм для автоматической оценки качества текста, переведённого машиной. Оценка производится путём сравнения перевода-кандидата с одним или несколькими эталонными (референсными) человеческими переводами[1]. Качество определяется степенью лексической близости машинного перевода к профессиональному. Как отмечали авторы, «чем ближе машинный перевод к переводу профессионального человека, тем он лучше»[2].

Метод был предложен в 2002 году группой исследователей из IBM под руководством Кишора Папинени и стал одной из первых метрик, показавших высокую корреляцию с оценками экспертов-переводчиков. BLEU быстро завоевала популярность благодаря простоте расчёта, языковой независимости и хорошему совпадению с человеческой оценкой на уровне корпуса текстов[1].

Методика расчёта BLEU

BLEU оценивает перевод путём подсчёта совпадений n-грамм (последовательностей из n слов) между переводом-кандидатом и эталонными переводами.

1. Модифицированная точность n-грамм

Сначала для n-грамм разной длины (обычно от 1 до 4) рассчитывается их точность (pn) — доля n-грамм из перевода-кандидата, которые встречаются в эталонных переводах[3]. При этом количество совпадений для каждой n-граммы ограничивается максимальным числом её вхождений в любом из эталонных текстов, чтобы избежать завышения оценки за повторение одного и того же слова.

2. Агрегирование и геометрическое среднее

Чтобы получить единую оценку, точности для 1-, 2-, 3- и 4-грамм агрегируются с помощью среднего геометрического. Это делается для того, чтобы низкая точность для одного типа n-грамм (например, 4-грамм) сильно влияла на итоговый балл, отражая плохое качество длинных фраз. p1p2p3p44

3. Штраф за краткость (Brevity Penalty)

Чтобы предотвратить получение завышенных оценок за счёт слишком коротких, но точных переводов, BLEU вводит штраф за краткость (Brevity Penalty, BP). Если длина перевода-кандидата (c) существенно меньше длины эталонного перевода (r), итоговый балл BLEU уменьшается. Штраф рассчитывается по формуле: BP={1if c>re1r/cif cr

4. Итоговая формула BLEU

Окончательный BLEU-скор рассчитывается как произведение штрафа за краткость на среднее геометрическое точностей n-грамм[4]: BLEU=BPexp(n=1Nwnlogpn) где N — максимальная длина n-грамм (обычно 4), а wn — веса (обычно 1/N).

Значение BLEU находится в диапазоне от 0 до 1 (часто умножается на 100 и выражается в процентах). Чем ближе результат к 1 (100%), тем более «близким к человеческому» считается перевод.

Применение и значение

С момента публикации метрика BLEU стала де-факто стандартом для оценки систем машинного перевода (МП). Она позволила преодолеть «узкое место» в развитии МП-систем — длительность и дороговизну ручной оценки. Разработчики получили возможность быстро измерять эффект от изменений в моделях и оперативно отсеивать неудачные решения[2].

BLEU хорошо коррелирует с человеческими оценками на уровне всего корпуса текстов, но ненадёжен для оценки отдельных предложений[3]. Поэтому метрика широко использовалась в стандартизированных соревнованиях по МП (например, NIST и WMT) для сравнения систем.

Ограничения и критика

Несмотря на широкое распространение, BLEU имеет ряд существенных ограничений:

  • Отсутствие семантической оценки: BLEU измеряет лишь поверхностное совпадение слов и не способен оценить, верно ли передан смысл исходного текста. Перевод может получить высокий балл, но быть грамматически неверным или искажать значение[5].
  • Игнорирование синонимов и парафразов: Алгоритм наказывает переводы, использующие синонимы или иные формулировки, чем в эталоне, даже если они полностью корректны. Использование нескольких эталонов смягчает, но не решает эту проблему полностью.
  • Чувствительность к токенизации: Результаты BLEU сильно зависят от способа разбиения текста на токены. Разные реализации токенизаторов могут приводить к разным значениям, делая сравнение моделей некорректным. Для решения этой проблемы был предложен стандарт SacreBLEU, унифицирующий вычисление метрики[1].
  • Сложность применения к некоторым языкам: BLEU плохо работает с языками, не имеющими чётких разделителей слов (например, китайским или японским), без предварительной сегментации.

Альтернативы и современные подходы

Со временем для преодоления недостатков BLEU были предложены новые автоматические метрики:

  • METEOR: Учитывает совпадения синонимов, стемминг и порядок слов.
  • ROUGE: Применяется для оценки реферирования текстов, фокусируясь на полноте (recall), а не на точности.
  • Обучаемые метрики (Learned Metrics): Современные подходы, использующие модели машинного обучения для учёта семантической близости. Метрики, такие как BLEURT и COMET, показывают значительно более высокую корреляцию с оценками людей, чем классический BLEU[6].

К 2020-м годам BLEU утратил статус безусловного стандарта, уступив место более точным методам[7]. Тем не менее, он остаётся важной вехой в истории оценки МП и продолжает использоваться как базовая точка отсчёта при измерении прогресса.

Ссылки

Примечания

  1. 1,0 1,1 1,2 «BLEU». Wikipedia. [1]
  2. 2,0 2,1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
  3. 3,0 3,1 «BLEU». MT Companion 4.0 documentation. [3]
  4. Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
  5. Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]
  6. «BLEURT: метрика для оценки моделей для генерации текста». Neurohive. [6]
  7. «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]