BERTScore (metric) (PT)
BERTScore é uma métrica automática para avaliar a qualidade de texto gerado, baseada na medição da similaridade semântica por meio de embeddings contextuais de modelos de linguagem pré-treinados, como o BERT. A métrica foi proposta em 2019 por um grupo de pesquisadores liderado por Tianyi Zhang em seu trabalho "BERTScore: Evaluating Text Generation with BERT"[1].
Diferentemente das métricas tradicionais, como BLEU e ROUGE, que se baseiam na correspondência exata de n-gramas, o BERTScore permite identificar a equivalência de significado mesmo quando há diferenças nas palavras e formulações, levando em conta sinônimos e paráfrases[2].
Metodologia de Cálculo
O método BERTScore consiste em várias etapas:
- Obtenção de embeddings contextuais: Ambos os textos (o de referência e o gerado) são divididos em tokens e processados por um modelo transformer pré-treinado (por exemplo, BERT ou RoBERTa). Para cada token, é extraída sua representação vetorial contextual (embedding).
- Cálculo da similaridade de cosseno: A similaridade de cosseno é calculada para todos os pares de tokens dos dois textos, formando uma matriz de similaridade de tokens[3].
- Cálculo da precisão, recall e F1-score: Com base na matriz de similaridade, para cada token no texto gerado, o token mais semelhante no texto de referência é encontrado, o que permite calcular a precisão (precision). De forma análoga, para cada token de referência, o token mais próximo no texto gerado é encontrado, resultando no recall (recall). O valor final do BERTScore é a medida F₁ balanceada, que combina precisão e recall:
A métrica é flexível: é possível escolher diferentes modelos pré-treinados, ponderar tokens por sua importância (usando pesos IDF) e transformar linearmente as pontuações para melhor interpretabilidade[3].
Aplicação e Eficácia
O BERTScore é aplicado para avaliar a qualidade em diversas tarefas de geração de texto:
- Tradução automática: Captura a preservação do significado, mesmo que as construções da tradução difiram das referências.
- Sumarização automática: É capaz de determinar que diferentes formulações podem transmitir os mesmos fatos-chave, o que o torna mais flexível que o ROUGE.
- Sistemas de diálogo: Ajuda a medir a relevância de uma resposta, comparando-a com uma referência em nível de significado.
Uma avaliação em larga escala realizada pelos autores mostrou que o coeficiente de correlação do BERTScore com as avaliações humanas é notavelmente maior do que o de métricas como BLEU e ROUGE. Além disso, a métrica demonstrou maior robustez a casos complexos de paráfrase[1].
Vantagens
- Consideração da semântica: Compara textos em nível de significado, levando em conta sinônimos e paráfrases.
- Alta correlação com avaliações humanas: As pontuações do BERTScore concordam melhor com os julgamentos humanos sobre a qualidade do texto do que as métricas tradicionais.
- Universalidade e portabilidade: A métrica não está vinculada a um idioma ou tarefa específica; basta escolher o modelo pré-treinado apropriado.
- Não requer treinamento: O BERTScore é uma métrica não treinável, ao contrário de métricas mais complexas (como o BLEURT), que exigem treinamento prévio em corpus de avaliações.
- Integração de modelos modernos: Utiliza o poder dos transformers para extrair características contextuais profundas.
Limitações e Críticas
- Alto custo computacional: O cálculo baseado em embeddings requer significativamente mais recursos do que a contagem de n-gramas e frequentemente exige o uso de GPUs[2].
- Dependência do modelo: A qualidade da avaliação está diretamente ligada à qualidade do modelo pré-treinado. A escolha do modelo e da camada para extração dos embeddings afeta o resultado, o que pode causar problemas de reprodutibilidade[4].
- Falta de consideração de fatos e estrutura: O BERTScore foca na similaridade semântica local e não garante a compreensão da estrutura do texto ou a precisão factual. Um texto com frases reordenadas ou erros factuais pode receber uma pontuação alta[3].
- Baixa interpretabilidade: Diferentemente do BLEU/ROUGE, a pontuação do BERTScore é menos transparente, o que dificulta a análise de erros.
- Vieses sociais (bias): A métrica herda os estereótipos e vieses presentes nos modelos pré-treinados. Um estudo de 2022 mostrou que métricas baseadas em LLMs (incluindo o BERTScore) exibem um viés social significativamente maior do que as métricas tradicionais[5].
Significado e Papel na Avaliação
O BERTScore representa um passo importante no desenvolvimento de métodos de avaliação de texto gerado, pois permite considerar a equivalência semântica, e não apenas correspondências lexicais. Embora nenhuma métrica automática seja capaz de medir perfeitamente a qualidade de um texto, o BERTScore se estabeleceu como uma ferramenta confiável que complementa as abordagens clássicas (como BLEU e ROUGE), em vez de substituí-las completamente.
Na prática, o BERTScore é frequentemente usado em conjunto com a avaliação manual e outras métricas para obter uma compreensão mais completa e profunda do sucesso dos modelos na geração de textos coesos e semanticamente relevantes[2].
Links
Notas
- ↑ 1.0 1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 de abril de 2019. [1]
- ↑ 2.0 2.1 2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [2]
- ↑ 3.0 3.1 3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [3]
- ↑ Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [4]
- ↑ Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 de out. de 2022. [5]