BLEU (Bilingual Evaluation Understudy) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

BLEU (do inglês Bilingual Evaluation Understudy — "substituto de avaliação bilíngue") é um algoritmo para a avaliação automática da qualidade de um texto traduzido por máquina. A avaliação é realizada comparando uma tradução candidata com uma ou mais traduções humanas de referência[1]. A qualidade é determinada pelo grau de proximidade lexical da tradução automática com a tradução profissional. Como os autores observaram, "quanto mais próxima uma tradução automática estiver de uma tradução humana profissional, melhor ela é"[2].

O método foi proposto em 2002 por um grupo de pesquisadores da IBM liderado por Kishore Papineni e se tornou uma das primeiras métricas a demonstrar alta correlação com as avaliações de tradutores especialistas. O BLEU rapidamente ganhou popularidade devido à sua simplicidade de cálculo, independência de idioma e boa correspondência com a avaliação humana no nível do corpus de textos[1].

Metodologia de Cálculo do BLEU

O BLEU avalia uma tradução contando as correspondências de n-gramas (sequências de n palavras) entre a tradução candidata e as traduções de referência.

1. Precisão Modificada de N-gramas

Primeiramente, para n-gramas de diferentes comprimentos (geralmente de 1 a 4), calcula-se sua precisão (pn) — a proporção de n-gramas da tradução candidata que aparecem nas traduções de referência[3]. O número de correspondências para cada n-grama é limitado ao número máximo de suas ocorrências em qualquer um dos textos de referência, a fim de evitar a superestimação da pontuação pela repetição da mesma palavra.

2. Agregação e Média Geométrica

Para obter uma pontuação única, as precisões para 1-gramas, 2-gramas, 3-gramas e 4-gramas são agregadas usando a média geométrica. Isso é feito para que uma baixa precisão para um tipo de n-grama (por exemplo, 4-gramas) tenha um impacto significativo na pontuação final, refletindo a má qualidade de frases longas. p1p2p3p44

3. Penalidade por Brevidade (Brevity Penalty)

Para evitar pontuações infladas para traduções muito curtas, mas precisas, o BLEU introduz uma penalidade por brevidade (Brevity Penalty, BP). Se o comprimento da tradução candidata (c) for significativamente menor que o comprimento da tradução de referência (r), a pontuação final do BLEU é reduzida. A penalidade é calculada pela fórmula: BP={1if c>re1r/cif cr

4. Fórmula Final do BLEU

A pontuação final do BLEU é calculada como o produto da penalidade por brevidade pela média geométrica das precisões dos n-gramas[4]: BLEU=BPexp(n=1Nwnlogpn) onde N é o comprimento máximo dos n-gramas (geralmente 4), e wn são os pesos (geralmente 1/N).

O valor do BLEU varia de 0 a 1 (frequentemente multiplicado por 100 e expresso em porcentagem). Quanto mais próximo o resultado estiver de 1 (100%), mais "próxima da humana" a tradução é considerada.

Aplicação e Significado

Desde sua publicação, a métrica BLEU tornou-se o padrão de fato para avaliar sistemas de tradução automática (TA). Ela permitiu superar o "gargalo" no desenvolvimento de sistemas de TA — a duração e o custo da avaliação manual. Os desenvolvedores ganharam a capacidade de medir rapidamente o efeito das mudanças nos modelos e de descartar prontamente as soluções malsucedidas[2].

O BLEU tem uma boa correlação com as avaliações humanas no nível de corpus de textos, mas não é confiável para avaliar sentenças individuais[3]. Por isso, a métrica foi amplamente utilizada em competições padronizadas de TA (por exemplo, NIST e WMT) para comparar sistemas.

Limitações e Críticas

Apesar de sua ampla adoção, o BLEU possui várias limitações significativas:

  • Falta de avaliação semântica: O BLEU mede apenas a correspondência superficial de palavras e não consegue avaliar se o significado do texto original foi transmitido corretamente. Uma tradução pode receber uma pontuação alta, mas ser gramaticalmente incorreta ou distorcer o sentido[5].
  • Ignora sinônimos e paráfrases: O algoritmo penaliza traduções que usam sinônimos ou formulações diferentes das encontradas na referência, mesmo que estejam totalmente corretas. O uso de múltiplas referências ameniza, mas não resolve completamente esse problema.
  • Sensibilidade à tokenização: Os resultados do BLEU dependem muito da forma como o texto é dividido em tokens. Diferentes implementações de tokenizadores podem levar a valores distintos, tornando a comparação de modelos incorreta. Para resolver esse problema, foi proposto o padrão SacreBLEU, que unifica o cálculo da métrica[1].
  • Dificuldade de aplicação em alguns idiomas: O BLEU não funciona bem com idiomas que não possuem delimitadores de palavras claros (como chinês ou japonês) sem uma segmentação prévia.

Alternativas e Abordagens Modernas

Com o tempo, para superar as deficiências do BLEU, foram propostas novas métricas automáticas:

  • METEOR: Leva em consideração correspondências de sinônimos, stemming (radicalização) e a ordem das palavras.
  • ROUGE: Usado para avaliar a sumarização de textos, focando na revocação (recall) em vez da precisão.
  • Métricas Aprendíveis (Learned Metrics): Abordagens modernas que utilizam modelos de aprendizado de máquina para considerar a proximidade semântica. Métricas como BLEURT e COMET demonstram uma correlação significativamente maior com as avaliações humanas do que o BLEU clássico[6].

Até a década de 2020, o BLEU perdeu seu status de padrão incondicional, cedendo lugar a métodos mais precisos[7]. No entanto, ele permanece um marco importante na história da avaliação de TA e continua a ser usado como um ponto de referência básico para medir o progresso.

Notas

  1. 1.0 1.1 1.2 «BLEU». Wikipedia. [1]
  2. 2.0 2.1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
  3. 3.0 3.1 «BLEU». MT Companion 4.0 documentation. [3]
  4. Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
  5. Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]
  6. «BLEURT: métrica para a avaliação de modelos de geração de texto». Neurohive. [6]
  7. «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]