BERTScore (metric) (FR)
BERTScore est une métrique automatique pour l'évaluation de la qualité du texte généré, basée sur la mesure de la similarité sémantique à l'aide d'embeddings contextuels issus de modèles de langue pré-entraînés tels que BERT. Cette métrique a été proposée en 2019 par un groupe de chercheurs dirigé par Tianyi Zhang dans l'article « BERTScore: Evaluating Text Generation with BERT »[1].
Contrairement aux métriques traditionnelles telles que BLEU et ROUGE, qui reposent sur la correspondance exacte de n-grammes, BERTScore permet de détecter une équivalence de sens même lorsque les mots et les formulations diffèrent, en tenant compte des synonymes et des paraphrases[2].
Méthode de calcul
La méthode BERTScore se décompose en plusieurs étapes :
- Obtention des embeddings contextuels : Les deux textes (de référence et généré) sont décomposés en tokens et traités par un modèle de type transformeur pré-entraîné (par exemple, BERT ou RoBERTa). Pour chaque token, sa représentation vectorielle contextuelle (embedding) est extraite.
- Calcul de la similarité cosinus : La similarité cosinus est calculée pour toutes les paires de tokens des deux textes, formant ainsi une matrice de similarité[3].
- Calcul de la précision, du rappel et de la mesure F1 : Sur la base de la matrice de similarité, pour chaque token du texte généré, on trouve le token le plus similaire dans le texte de référence, ce qui permet de calculer la précision (precision). De même, pour chaque token du texte de référence, on trouve le token le plus proche dans le texte généré, ce qui donne le rappel (recall). La valeur finale de BERTScore est la mesure F₁ équilibrée, qui combine la précision et le rappel :
La métrique est flexible : il est possible de choisir différents modèles pré-entraînés, de pondérer les tokens en fonction de leur importance (à l'aide des poids IDF) et de transformer linéairement les scores pour une meilleure interprétabilité[3].
Application et efficacité
BERTScore est utilisé pour évaluer la qualité dans diverses tâches de génération de texte :
- Traduction automatique : Il capture la préservation du sens, même si les constructions de la traduction diffèrent de celles de la référence.
- Résumé automatique : Il est capable de reconnaître que différentes formulations peuvent transmettre les mêmes faits clés, ce qui le rend plus flexible que ROUGE.
- Systèmes de dialogue : Il aide à mesurer la pertinence d'une réponse en la comparant à une référence au niveau sémantique.
Une évaluation à grande échelle menée par les auteurs a montré que le coefficient de corrélation de BERTScore avec les jugements humains est nettement plus élevé que celui des métriques comme BLEU et ROUGE. De plus, la métrique a démontré une robustesse accrue face aux cas complexes de paraphrase[1].
Avantages
- Prise en compte de la sémantique : Compare les textes au niveau du sens, en tenant compte des synonymes et des paraphrases.
- Forte corrélation avec les jugements humains : Les scores de BERTScore sont mieux corrélés avec les évaluations humaines de la qualité du texte que les métriques traditionnelles.
- Universalité et portabilité : La métrique n'est pas liée à une langue ou à une tâche spécifique ; il suffit de choisir un modèle pré-entraîné approprié.
- Aucun besoin d'entraînement : BERTScore est une métrique non entraînable, contrairement à des métriques plus complexes (comme BLEURT) qui nécessitent un entraînement préalable sur des corpus d'évaluations.
- Intégration de modèles modernes : Utilise la puissance des transformeurs pour extraire des caractéristiques contextuelles profondes.
Limites et critiques
- Coût de calcul élevé : Le calcul basé sur les embeddings nécessite beaucoup plus de ressources que le comptage de n-grammes et requiert souvent l'utilisation d'un GPU[2].
- Dépendance au modèle : La qualité de l'évaluation est directement liée à la qualité du modèle pré-entraîné. Le choix du modèle et de la couche pour l'extraction des embeddings influence le résultat, ce qui peut poser des problèmes de reproductibilité[4].
- Absence de prise en compte des faits et de la structure : BERTScore se concentre sur la similarité sémantique locale et ne garantit pas la compréhension de la structure du texte ni l'exactitude factuelle. Un texte avec des phrases réarrangées ou des erreurs factuelles peut obtenir un score élevé[3].
- Faible interprétabilité : Contrairement à BLEU/ROUGE, le score BERTScore est moins transparent, ce qui complique l'analyse des erreurs.
- Biais sociaux : La métrique hérite des stéréotypes et des biais présents dans les modèles pré-entraînés. Une étude de 2022 a montré que les métriques basées sur les LLM (y compris BERTScore) présentent des biais sociaux significativement plus importants que les métriques traditionnelles[5].
Importance et rôle dans l'évaluation
BERTScore représente une étape importante dans le développement des méthodes d'évaluation du texte généré, car il permet de prendre en compte l'équivalence sémantique et non plus seulement les correspondances lexicales. Bien qu'aucune métrique automatique ne puisse mesurer parfaitement la qualité d'un texte, BERTScore s'est imposé comme un outil fiable qui complète les approches classiques (telles que BLEU et ROUGE) plutôt que de les remplacer entièrement.
En pratique, BERTScore est souvent utilisé en combinaison avec une expertise manuelle et d'autres métriques pour obtenir une vision plus complète et approfondie de la capacité des modèles à générer des textes cohérents et sémantiquement pertinents[2].
Liens
Notes
- ↑ 1.0 1.1 Zhang, Tianyi, et al. « BERTScore: Evaluating Text Generation with BERT ». arXiv:1904.09675 [cs.CL], 22 avr. 2019. [1]
- ↑ 2.0 2.1 2.2 « BERTScore: New Metrics for Language Models ». Analytics Vidhya. [2]
- ↑ 3.0 3.1 3.2 Sojasingarayar, Abonia. « BERTScore Explained in 5 minutes ». Medium. [3]
- ↑ Alakulju, D., et al. « Reproducibility of BERTScore ». Theseus.fi. [4]
- ↑ Peyrard, M., et al. « BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation ». arXiv:2210.07626 [cs.CL], 14 oct. 2022. [5]