BLEU (Bilingual Evaluation Understudy) (PT)

BLEU (do inglês Bilingual Evaluation Understudy — "substituto de avaliação bilíngue") é um algoritmo para a avaliação automática da qualidade de um texto traduzido por máquina. A avaliação é realizada comparando uma tradução candidata com uma ou mais traduções humanas de referência^[1]. A qualidade é determinada pelo grau de proximidade lexical da tradução automática com a tradução profissional. Como os autores observaram, "quanto mais próxima uma tradução automática estiver de uma tradução humana profissional, melhor ela é"^[2].

O método foi proposto em 2002 por um grupo de pesquisadores da IBM liderado por Kishore Papineni e se tornou uma das primeiras métricas a demonstrar alta correlação com as avaliações de tradutores especialistas. O BLEU rapidamente ganhou popularidade devido à sua simplicidade de cálculo, independência de idioma e boa correspondência com a avaliação humana no nível do corpus de textos^[1].

Metodologia de Cálculo do BLEU

O BLEU avalia uma tradução contando as correspondências de n-gramas (sequências de n palavras) entre a tradução candidata e as traduções de referência.

1. Precisão Modificada de N-gramas

Primeiramente, para n-gramas de diferentes comprimentos (geralmente de 1 a 4), calcula-se sua precisão ( $p_{n}$ ) — a proporção de n-gramas da tradução candidata que aparecem nas traduções de referência^[3]. O número de correspondências para cada n-grama é limitado ao número máximo de suas ocorrências em qualquer um dos textos de referência, a fim de evitar a superestimação da pontuação pela repetição da mesma palavra.

2. Agregação e Média Geométrica

Para obter uma pontuação única, as precisões para 1-gramas, 2-gramas, 3-gramas e 4-gramas são agregadas usando a média geométrica. Isso é feito para que uma baixa precisão para um tipo de n-grama (por exemplo, 4-gramas) tenha um impacto significativo na pontuação final, refletindo a má qualidade de frases longas. $\sqrt[4]{p_{1} \cdot p_{2} \cdot p_{3} \cdot p_{4}}$

3. Penalidade por Brevidade (Brevity Penalty)

Para evitar pontuações infladas para traduções muito curtas, mas precisas, o BLEU introduz uma penalidade por brevidade (Brevity Penalty, BP). Se o comprimento da tradução candidata (c) for significativamente menor que o comprimento da tradução de referência (r), a pontuação final do BLEU é reduzida. A penalidade é calculada pela fórmula: $BP = {\begin{cases} 1 & if c > r \\ e^{1 - r / c} & if c \leq r \end{cases}$

4. Fórmula Final do BLEU

A pontuação final do BLEU é calculada como o produto da penalidade por brevidade pela média geométrica das precisões dos n-gramas^[4]: $BLEU = BP \cdot \exp (\sum_{n = 1}^{N} w_{n} \log p_{n})$ onde N é o comprimento máximo dos n-gramas (geralmente 4), e $w_{n}$ são os pesos (geralmente $1 / N$ ).

O valor do BLEU varia de 0 a 1 (frequentemente multiplicado por 100 e expresso em porcentagem). Quanto mais próximo o resultado estiver de 1 (100%), mais "próxima da humana" a tradução é considerada.

Aplicação e Significado

Desde sua publicação, a métrica BLEU tornou-se o padrão de fato para avaliar sistemas de tradução automática (TA). Ela permitiu superar o "gargalo" no desenvolvimento de sistemas de TA — a duração e o custo da avaliação manual. Os desenvolvedores ganharam a capacidade de medir rapidamente o efeito das mudanças nos modelos e de descartar prontamente as soluções malsucedidas^[2].

O BLEU tem uma boa correlação com as avaliações humanas no nível de corpus de textos, mas não é confiável para avaliar sentenças individuais^[3]. Por isso, a métrica foi amplamente utilizada em competições padronizadas de TA (por exemplo, NIST e WMT) para comparar sistemas.

Limitações e Críticas

Apesar de sua ampla adoção, o BLEU possui várias limitações significativas:

Falta de avaliação semântica: O BLEU mede apenas a correspondência superficial de palavras e não consegue avaliar se o significado do texto original foi transmitido corretamente. Uma tradução pode receber uma pontuação alta, mas ser gramaticalmente incorreta ou distorcer o sentido^[5].
Ignora sinônimos e paráfrases: O algoritmo penaliza traduções que usam sinônimos ou formulações diferentes das encontradas na referência, mesmo que estejam totalmente corretas. O uso de múltiplas referências ameniza, mas não resolve completamente esse problema.
Sensibilidade à tokenização: Os resultados do BLEU dependem muito da forma como o texto é dividido em tokens. Diferentes implementações de tokenizadores podem levar a valores distintos, tornando a comparação de modelos incorreta. Para resolver esse problema, foi proposto o padrão SacreBLEU, que unifica o cálculo da métrica^[1].
Dificuldade de aplicação em alguns idiomas: O BLEU não funciona bem com idiomas que não possuem delimitadores de palavras claros (como chinês ou japonês) sem uma segmentação prévia.

Alternativas e Abordagens Modernas

Com o tempo, para superar as deficiências do BLEU, foram propostas novas métricas automáticas:

METEOR: Leva em consideração correspondências de sinônimos, stemming (radicalização) e a ordem das palavras.
ROUGE: Usado para avaliar a sumarização de textos, focando na revocação (recall) em vez da precisão.
Métricas Aprendíveis (Learned Metrics): Abordagens modernas que utilizam modelos de aprendizado de máquina para considerar a proximidade semântica. Métricas como BLEURT e COMET demonstram uma correlação significativamente maior com as avaliações humanas do que o BLEU clássico^[6].

Até a década de 2020, o BLEU perdeu seu status de padrão incondicional, cedendo lugar a métodos mais precisos^[7]. No entanto, ele permanece um marco importante na história da avaliação de TA e continua a ser usado como um ponto de referência básico para medir o progresso.

Links

O que é a pontuação BLEU? — Documentação do Microsoft Azure

Notas

↑ ^1.0 ^1.1 ^1.2 «BLEU». Wikipedia. [1]
↑ ^2.0 ^2.1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
↑ ^3.0 ^3.1 «BLEU». MT Companion 4.0 documentation. [3]
↑ Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
↑ Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]
↑ «BLEURT: métrica para a avaliação de modelos de geração de texto». Neurohive. [6]
↑ «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]

[wiki_bleu-1] 1.0 ^1.1 ^1.2 «BLEU». Wikipedia. [1]

[bleu_dvi-2] 2.0 ^2.1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]

[mt_companion-3] 3.0 ^3.1 «BLEU». MT Companion 4.0 documentation. [3]

[callison_burch-4] Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]

[deep_hub-5] Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]

[bleurt-6] «BLEURT: métrica para a avaliação de modelos de geração de texto». Neurohive. [6]

[ai_mil_lexicon-7] «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

BLEU (Bilingual Evaluation Understudy) (PT)

Contents

Metodologia de Cálculo do BLEU

1. Precisão Modificada de N-gramas

2. Agregação e Média Geométrica

3. Penalidade por Brevidade (Brevity Penalty)

4. Fórmula Final do BLEU

Aplicação e Significado

Limitações e Críticas

Alternativas e Abordagens Modernas

Links

Notas

Navigation menu

BLEU (Bilingual Evaluation Understudy) (PT)

Metodologia de Cálculo do BLEU

1. Precisão Modificada de N-gramas

2. Agregação e Média Geométrica

3. Penalidade por Brevidade (Brevity Penalty)

4. Fórmula Final do BLEU

Aplicação e Significado

Limitações e Críticas

Alternativas e Abordagens Modernas

Links

Notas

Navigation menu

Search