BERTScore (metric) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

BERTScore é uma métrica automática para avaliar a qualidade de texto gerado, baseada na medição da similaridade semântica por meio de embeddings contextuais de modelos de linguagem pré-treinados, como o BERT. A métrica foi proposta em 2019 por um grupo de pesquisadores liderado por Tianyi Zhang em seu trabalho "BERTScore: Evaluating Text Generation with BERT"[1].

Diferentemente das métricas tradicionais, como BLEU e ROUGE, que se baseiam na correspondência exata de n-gramas, o BERTScore permite identificar a equivalência de significado mesmo quando há diferenças nas palavras e formulações, levando em conta sinônimos e paráfrases[2].

Metodologia de Cálculo

O método BERTScore consiste em várias etapas:

  1. Obtenção de embeddings contextuais: Ambos os textos (o de referência e o gerado) são divididos em tokens e processados por um modelo transformer pré-treinado (por exemplo, BERT ou RoBERTa). Para cada token, é extraída sua representação vetorial contextual (embedding).
  2. Cálculo da similaridade de cosseno: A similaridade de cosseno é calculada para todos os pares de tokens dos dois textos, formando uma matriz de similaridade de tokens[3].
  3. Cálculo da precisão, recall e F1-score: Com base na matriz de similaridade, para cada token no texto gerado, o token mais semelhante no texto de referência é encontrado, o que permite calcular a precisão (precision). De forma análoga, para cada token de referência, o token mais próximo no texto gerado é encontrado, resultando no recall (recall). O valor final do BERTScore é a medida F₁ balanceada, que combina precisão e recall:
   RBERT=1|x|xixmaxyjyxiTyj(Recall)
   PBERT=1|y|yjymaxxixxiTyj(Precisão)
   FBERT=2PBERTRBERTPBERT+RBERT

A métrica é flexível: é possível escolher diferentes modelos pré-treinados, ponderar tokens por sua importância (usando pesos IDF) e transformar linearmente as pontuações para melhor interpretabilidade[3].

Aplicação e Eficácia

O BERTScore é aplicado para avaliar a qualidade em diversas tarefas de geração de texto:

  • Tradução automática: Captura a preservação do significado, mesmo que as construções da tradução difiram das referências.
  • Sumarização automática: É capaz de determinar que diferentes formulações podem transmitir os mesmos fatos-chave, o que o torna mais flexível que o ROUGE.
  • Sistemas de diálogo: Ajuda a medir a relevância de uma resposta, comparando-a com uma referência em nível de significado.

Uma avaliação em larga escala realizada pelos autores mostrou que o coeficiente de correlação do BERTScore com as avaliações humanas é notavelmente maior do que o de métricas como BLEU e ROUGE. Além disso, a métrica demonstrou maior robustez a casos complexos de paráfrase[1].

Vantagens

  • Consideração da semântica: Compara textos em nível de significado, levando em conta sinônimos e paráfrases.
  • Alta correlação com avaliações humanas: As pontuações do BERTScore concordam melhor com os julgamentos humanos sobre a qualidade do texto do que as métricas tradicionais.
  • Universalidade e portabilidade: A métrica não está vinculada a um idioma ou tarefa específica; basta escolher o modelo pré-treinado apropriado.
  • Não requer treinamento: O BERTScore é uma métrica não treinável, ao contrário de métricas mais complexas (como o BLEURT), que exigem treinamento prévio em corpus de avaliações.
  • Integração de modelos modernos: Utiliza o poder dos transformers para extrair características contextuais profundas.

Limitações e Críticas

  • Alto custo computacional: O cálculo baseado em embeddings requer significativamente mais recursos do que a contagem de n-gramas e frequentemente exige o uso de GPUs[2].
  • Dependência do modelo: A qualidade da avaliação está diretamente ligada à qualidade do modelo pré-treinado. A escolha do modelo e da camada para extração dos embeddings afeta o resultado, o que pode causar problemas de reprodutibilidade[4].
  • Falta de consideração de fatos e estrutura: O BERTScore foca na similaridade semântica local e não garante a compreensão da estrutura do texto ou a precisão factual. Um texto com frases reordenadas ou erros factuais pode receber uma pontuação alta[3].
  • Baixa interpretabilidade: Diferentemente do BLEU/ROUGE, a pontuação do BERTScore é menos transparente, o que dificulta a análise de erros.
  • Vieses sociais (bias): A métrica herda os estereótipos e vieses presentes nos modelos pré-treinados. Um estudo de 2022 mostrou que métricas baseadas em LLMs (incluindo o BERTScore) exibem um viés social significativamente maior do que as métricas tradicionais[5].

Significado e Papel na Avaliação

O BERTScore representa um passo importante no desenvolvimento de métodos de avaliação de texto gerado, pois permite considerar a equivalência semântica, e não apenas correspondências lexicais. Embora nenhuma métrica automática seja capaz de medir perfeitamente a qualidade de um texto, o BERTScore se estabeleceu como uma ferramenta confiável que complementa as abordagens clássicas (como BLEU e ROUGE), em vez de substituí-las completamente.

Na prática, o BERTScore é frequentemente usado em conjunto com a avaliação manual e outras métricas para obter uma compreensão mais completa e profunda do sucesso dos modelos na geração de textos coesos e semanticamente relevantes[2].

Notas

  1. 1.0 1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 de abril de 2019. [1]
  2. 2.0 2.1 2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]
  3. 3.0 3.1 3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]
  4. Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]
  5. Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 de out. de 2022. [5]