BERTScore (metric) (PT)

BERTScore é uma métrica automática para avaliar a qualidade de texto gerado, baseada na medição da similaridade semântica por meio de embeddings contextuais de modelos de linguagem pré-treinados, como o BERT. A métrica foi proposta em 2019 por um grupo de pesquisadores liderado por Tianyi Zhang em seu trabalho "BERTScore: Evaluating Text Generation with BERT"^[1].

Diferentemente das métricas tradicionais, como BLEU e ROUGE, que se baseiam na correspondência exata de n-gramas, o BERTScore permite identificar a equivalência de significado mesmo quando há diferenças nas palavras e formulações, levando em conta sinônimos e paráfrases^[2].

Metodologia de Cálculo

O método BERTScore consiste em várias etapas:

Obtenção de embeddings contextuais: Ambos os textos (o de referência e o gerado) são divididos em tokens e processados por um modelo transformer pré-treinado (por exemplo, BERT ou RoBERTa). Para cada token, é extraída sua representação vetorial contextual (embedding).
Cálculo da similaridade de cosseno: A similaridade de cosseno é calculada para todos os pares de tokens dos dois textos, formando uma matriz de similaridade de tokens^[3].
Cálculo da precisão, recall e F1-score: Com base na matriz de similaridade, para cada token no texto gerado, o token mais semelhante no texto de referência é encontrado, o que permite calcular a precisão (precision). De forma análoga, para cada token de referência, o token mais próximo no texto gerado é encontrado, resultando no recall (recall). O valor final do BERTScore é a medida F₁ balanceada, que combina precisão e recall:

    $R_{BERT} = \frac{1}{| x |} \sum_{x_{i} \in x} \max_{y_{j} \in y} x_{i}^{T} y_{j} (Recall)$ 
    $P_{BERT} = \frac{1}{| y |} \sum_{y_{j} \in y} \max_{x_{i} \in x} x_{i}^{T} y_{j} (Precisão)$ 
    $F_{BERT} = 2 \frac{P_{BERT} \cdot R_{BERT}}{P_{BERT} + R_{BERT}}$

A métrica é flexível: é possível escolher diferentes modelos pré-treinados, ponderar tokens por sua importância (usando pesos IDF) e transformar linearmente as pontuações para melhor interpretabilidade^[3].

Aplicação e Eficácia

O BERTScore é aplicado para avaliar a qualidade em diversas tarefas de geração de texto:

Tradução automática: Captura a preservação do significado, mesmo que as construções da tradução difiram das referências.
Sumarização automática: É capaz de determinar que diferentes formulações podem transmitir os mesmos fatos-chave, o que o torna mais flexível que o ROUGE.
Sistemas de diálogo: Ajuda a medir a relevância de uma resposta, comparando-a com uma referência em nível de significado.

Uma avaliação em larga escala realizada pelos autores mostrou que o coeficiente de correlação do BERTScore com as avaliações humanas é notavelmente maior do que o de métricas como BLEU e ROUGE. Além disso, a métrica demonstrou maior robustez a casos complexos de paráfrase^[1].

Vantagens

Consideração da semântica: Compara textos em nível de significado, levando em conta sinônimos e paráfrases.
Alta correlação com avaliações humanas: As pontuações do BERTScore concordam melhor com os julgamentos humanos sobre a qualidade do texto do que as métricas tradicionais.
Universalidade e portabilidade: A métrica não está vinculada a um idioma ou tarefa específica; basta escolher o modelo pré-treinado apropriado.
Não requer treinamento: O BERTScore é uma métrica não treinável, ao contrário de métricas mais complexas (como o BLEURT), que exigem treinamento prévio em corpus de avaliações.
Integração de modelos modernos: Utiliza o poder dos transformers para extrair características contextuais profundas.

Limitações e Críticas

Alto custo computacional: O cálculo baseado em embeddings requer significativamente mais recursos do que a contagem de n-gramas e frequentemente exige o uso de GPUs^[2].
Dependência do modelo: A qualidade da avaliação está diretamente ligada à qualidade do modelo pré-treinado. A escolha do modelo e da camada para extração dos embeddings afeta o resultado, o que pode causar problemas de reprodutibilidade^[4].
Falta de consideração de fatos e estrutura: O BERTScore foca na similaridade semântica local e não garante a compreensão da estrutura do texto ou a precisão factual. Um texto com frases reordenadas ou erros factuais pode receber uma pontuação alta^[3].
Baixa interpretabilidade: Diferentemente do BLEU/ROUGE, a pontuação do BERTScore é menos transparente, o que dificulta a análise de erros.
Vieses sociais (bias): A métrica herda os estereótipos e vieses presentes nos modelos pré-treinados. Um estudo de 2022 mostrou que métricas baseadas em LLMs (incluindo o BERTScore) exibem um viés social significativamente maior do que as métricas tradicionais^[5].

Significado e Papel na Avaliação

O BERTScore representa um passo importante no desenvolvimento de métodos de avaliação de texto gerado, pois permite considerar a equivalência semântica, e não apenas correspondências lexicais. Embora nenhuma métrica automática seja capaz de medir perfeitamente a qualidade de um texto, o BERTScore se estabeleceu como uma ferramenta confiável que complementa as abordagens clássicas (como BLEU e ROUGE), em vez de substituí-las completamente.

Na prática, o BERTScore é frequentemente usado em conjunto com a avaliação manual e outras métricas para obter uma compreensão mais completa e profunda do sucesso dos modelos na geração de textos coesos e semanticamente relevantes^[2].

Links

Repositório oficial do BERTScore no GitHub

Notas

↑ ^1.0 ^1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 de abril de 2019. [1]
↑ ^2.0 ^2.1 ^2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]
↑ ^3.0 ^3.1 ^3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]
↑ Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]
↑ Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 de out. de 2022. [5]

[bertscore_paper-1] 1.0 ^1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 de abril de 2019. [1]

[analytics_vidhya-2] 2.0 ^2.1 ^2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]

[bertscore_explained-3] 3.0 ^3.1 ^3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]

[theseus_fi-4] Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]

[bertscore_unfair-5] Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 de out. de 2022. [5]

[1]

[2]

[3]

[4]

[5]

BERTScore (metric) (PT)

Contents

Metodologia de Cálculo

Aplicação e Eficácia

Vantagens

Limitações e Críticas

Significado e Papel na Avaliação

Links

Notas

Navigation menu

BERTScore (metric) (PT)

Metodologia de Cálculo

Aplicação e Eficácia

Vantagens

Limitações e Críticas

Significado e Papel na Avaliação

Links

Notas

Navigation menu

Search