BLEU (Bilingual Evaluation Understudy) (PT)
BLEU (do inglês Bilingual Evaluation Understudy — "substituto de avaliação bilíngue") é um algoritmo para a avaliação automática da qualidade de um texto traduzido por máquina. A avaliação é realizada comparando uma tradução candidata com uma ou mais traduções humanas de referência[1]. A qualidade é determinada pelo grau de proximidade lexical da tradução automática com a tradução profissional. Como os autores observaram, "quanto mais próxima uma tradução automática estiver de uma tradução humana profissional, melhor ela é"[2].
O método foi proposto em 2002 por um grupo de pesquisadores da IBM liderado por Kishore Papineni e se tornou uma das primeiras métricas a demonstrar alta correlação com as avaliações de tradutores especialistas. O BLEU rapidamente ganhou popularidade devido à sua simplicidade de cálculo, independência de idioma e boa correspondência com a avaliação humana no nível do corpus de textos[1].
Metodologia de Cálculo do BLEU
O BLEU avalia uma tradução contando as correspondências de n-gramas (sequências de n palavras) entre a tradução candidata e as traduções de referência.
1. Precisão Modificada de N-gramas
Primeiramente, para n-gramas de diferentes comprimentos (geralmente de 1 a 4), calcula-se sua precisão () — a proporção de n-gramas da tradução candidata que aparecem nas traduções de referência[3]. O número de correspondências para cada n-grama é limitado ao número máximo de suas ocorrências em qualquer um dos textos de referência, a fim de evitar a superestimação da pontuação pela repetição da mesma palavra.
2. Agregação e Média Geométrica
Para obter uma pontuação única, as precisões para 1-gramas, 2-gramas, 3-gramas e 4-gramas são agregadas usando a média geométrica. Isso é feito para que uma baixa precisão para um tipo de n-grama (por exemplo, 4-gramas) tenha um impacto significativo na pontuação final, refletindo a má qualidade de frases longas.
3. Penalidade por Brevidade (Brevity Penalty)
Para evitar pontuações infladas para traduções muito curtas, mas precisas, o BLEU introduz uma penalidade por brevidade (Brevity Penalty, BP). Se o comprimento da tradução candidata (c) for significativamente menor que o comprimento da tradução de referência (r), a pontuação final do BLEU é reduzida. A penalidade é calculada pela fórmula:
4. Fórmula Final do BLEU
A pontuação final do BLEU é calculada como o produto da penalidade por brevidade pela média geométrica das precisões dos n-gramas[4]: onde N é o comprimento máximo dos n-gramas (geralmente 4), e são os pesos (geralmente ).
O valor do BLEU varia de 0 a 1 (frequentemente multiplicado por 100 e expresso em porcentagem). Quanto mais próximo o resultado estiver de 1 (100%), mais "próxima da humana" a tradução é considerada.
Aplicação e Significado
Desde sua publicação, a métrica BLEU tornou-se o padrão de fato para avaliar sistemas de tradução automática (TA). Ela permitiu superar o "gargalo" no desenvolvimento de sistemas de TA — a duração e o custo da avaliação manual. Os desenvolvedores ganharam a capacidade de medir rapidamente o efeito das mudanças nos modelos e de descartar prontamente as soluções malsucedidas[2].
O BLEU tem uma boa correlação com as avaliações humanas no nível de corpus de textos, mas não é confiável para avaliar sentenças individuais[3]. Por isso, a métrica foi amplamente utilizada em competições padronizadas de TA (por exemplo, NIST e WMT) para comparar sistemas.
Limitações e Críticas
Apesar de sua ampla adoção, o BLEU possui várias limitações significativas:
- Falta de avaliação semântica: O BLEU mede apenas a correspondência superficial de palavras e não consegue avaliar se o significado do texto original foi transmitido corretamente. Uma tradução pode receber uma pontuação alta, mas ser gramaticalmente incorreta ou distorcer o sentido[5].
- Ignora sinônimos e paráfrases: O algoritmo penaliza traduções que usam sinônimos ou formulações diferentes das encontradas na referência, mesmo que estejam totalmente corretas. O uso de múltiplas referências ameniza, mas não resolve completamente esse problema.
- Sensibilidade à tokenização: Os resultados do BLEU dependem muito da forma como o texto é dividido em tokens. Diferentes implementações de tokenizadores podem levar a valores distintos, tornando a comparação de modelos incorreta. Para resolver esse problema, foi proposto o padrão SacreBLEU, que unifica o cálculo da métrica[1].
- Dificuldade de aplicação em alguns idiomas: O BLEU não funciona bem com idiomas que não possuem delimitadores de palavras claros (como chinês ou japonês) sem uma segmentação prévia.
Alternativas e Abordagens Modernas
Com o tempo, para superar as deficiências do BLEU, foram propostas novas métricas automáticas:
- METEOR: Leva em consideração correspondências de sinônimos, stemming (radicalização) e a ordem das palavras.
- ROUGE: Usado para avaliar a sumarização de textos, focando na revocação (recall) em vez da precisão.
- Métricas Aprendíveis (Learned Metrics): Abordagens modernas que utilizam modelos de aprendizado de máquina para considerar a proximidade semântica. Métricas como BLEURT e COMET demonstram uma correlação significativamente maior com as avaliações humanas do que o BLEU clássico[6].
Até a década de 2020, o BLEU perdeu seu status de padrão incondicional, cedendo lugar a métodos mais precisos[7]. No entanto, ele permanece um marco importante na história da avaliação de TA e continua a ser usado como um ponto de referência básico para medir o progresso.
Links
Notas
- ↑ 1.0 1.1 1.2 «BLEU». Wikipedia. [1]
- ↑ 2.0 2.1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [2]
- ↑ 3.0 3.1 «BLEU». MT Companion 4.0 documentation. [3]
- ↑ Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [4]
- ↑ Cardete, Jorge. «Beyond BLEU Score. When it comes to the nuanced world of...». The Deep Hub | Medium. [5]
- ↑ «BLEURT: métrica para a avaliação de modelos de geração de texto». Neurohive. [6]
- ↑ «Chief Digital and Artificial Intelligence Office > Lexicon». ai.mil. [7]