Métriques de qualité des LLM

From Systems analysis wiki
Jump to navigation Jump to search

Les métriques de qualité des grands modèles de langage (LLM) sont une approche systématique et un ensemble d'outils standardisés pour mesurer divers aspects de la performance des modèles de langage, y compris la précision, la sécurité, l'équité et la fiabilité[1]. À mesure que les LLM sont de plus en plus utilisés dans des domaines critiques tels que la santé, la finance et l'éducation, il devient impératif de les évaluer de manière complète et objective[2].

Les métriques et les benchmarks remplissent plusieurs fonctions clés : ils permettent de comparer objectivement différents modèles, de suivre les progrès de leur développement, d'identifier les points faibles et d'assurer la transparence des résultats pour les chercheurs et les praticiens[1].

Catégories de métriques

Les métriques d'évaluation des LLM peuvent être divisées en plusieurs catégories principales : les métriques automatiques, l'évaluation humaine et les métriques spécialisées pour évaluer la sécurité et la fiabilité.

Métriques automatiques

Ces métriques permettent une évaluation rapide et à grande échelle sans intervention humaine.

Métriques basées sur les n-grammes

Métriques traditionnelles mesurant la correspondance lexicale entre le texte généré et le texte de référence.

  • BLEU (Bilingual Evaluation Understudy) : Initialement conçue pour évaluer la qualité de la traduction automatique. Elle mesure la précision des correspondances de n-grammes (séquences de n mots) et applique une pénalité pour les textes générés trop courts[3].
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation) : Se concentre sur le rappel, en mesurant dans quelle mesure les n-grammes du texte de référence sont présents dans le texte généré. Particulièrement efficace pour évaluer les tâches de résumé[3].
  • METEOR : Étend les capacités de BLEU en tenant compte des synonymes, des mots de même racine et des variantes morphologiques, ce qui permet une meilleure corrélation avec les évaluations humaines[3].

Métriques sémantiques

Ces métriques utilisent des plongements contextuels (contextual embeddings) pour évaluer la proximité sémantique, et non seulement la correspondance lexicale.

  • BERTScore : Calcule la similarité sémantique entre les tokens des textes générés et de référence en utilisant les embeddings du modèle BERT. Cela permet de reconnaître l'équivalence sémantique même avec des formulations différentes[4].
  • MAUVE : Mesure la divergence entre les distributions de texte machine et de texte humain dans l'espace des embeddings. Particulièrement efficace pour évaluer la génération de texte ouverte, où il n'y a pas de texte de référence fixe[5].

Métriques intrinsèques de modélisation du langage

  • Perplexité (Perplexity) : Une métrique fondamentale qui mesure à quel point un modèle de langage prédit bien une séquence de texte. Elle reflète l'incertitude du modèle dans la prédiction du prochain token. Des valeurs de perplexité plus faibles indiquent une meilleure performance[6].
  • Précision et F1-score : Largement utilisées dans les tâches de classification et les systèmes de questions-réponses. Le F1-score est la moyenne harmonique de la précision et du rappel, offrant une évaluation équilibrée[6].

Évaluation humaine

L'évaluation humaine reste l'« étalon-or », car les métriques automatiques sont souvent incapables de saisir les aspects subtils de la qualité, tels que la cohérence, la créativité et la pertinence[7].

  • Évaluation directe : Des experts ou des contributeurs de crowdsourcing évaluent la qualité de la génération sur une échelle prédéfinie (par exemple, de 1 à 5) selon des critères tels que la fluidité et la cohérence.
  • Évaluation comparative : Les évaluateurs sont invités à comparer les sorties de deux ou plusieurs modèles et à choisir la meilleure (comparaison par paires) ou à les classer du meilleur au pire.

Les inconvénients de l'évaluation humaine sont son coût élevé, sa difficulté à être mise à l'échelle et sa subjectivité[7].

Évaluation par un LLM (LLM-as-a-Judge)

Une nouvelle approche où un modèle de langage (généralement plus puissant) est utilisé pour évaluer les réponses d'un autre. Par exemple, GPT-4 peut classer les sorties de modèles selon des critères donnés. Cette méthode offre une alternative évolutive à l'évaluation humaine, bien qu'elle présente ses propres défis, tels que la sensibilité au style des prompts et les biais potentiels[8].

Métriques et benchmarks spécialisés

Pour évaluer des aspects spécifiques de la performance et de la fiabilité des LLM, des métriques et des benchmarks spécialisés sont utilisés.

Fiabilité factuelle

Évalue la capacité du modèle à générer des informations véridiques et à ne pas recourir à des hallucinations.

  • TruthfulQA : Un benchmark spécifiquement conçu pour mesurer la tendance des modèles à générer des réponses basées sur des mythes et des idées fausses courants. Le modèle est tenu de fournir des réponses factuellement correctes, et non simplement populaires[9].

Sécurité et éthique

  • Évaluation de la toxicité : Mesure la présence de contenu offensant ou nuisible. Des classifieurs spécialisés et des API, comme l' API Perspective, sont utilisés à cette fin[9].
  • Évaluation des biais et de l'équité : Évalue si le modèle présente un comportement discriminatoire envers différents groupes démographiques. Des études montrent que les LLM peuvent perpétuer et amplifier les stéréotypes sociaux présents dans leurs données d'entraînement[10].
  • SafetyBench : Un benchmark complet pour l'évaluation de la sécurité, qui inclut la vérification de la robustesse aux attaques adversariales et la capacité à éviter la génération de contenu préjudiciable[11].

Benchmarks complets

  • MMLU (Massive Multitask Language Understanding) : L'un des benchmarks les plus utilisés, comprenant des questions à choix multiples sur 57 sujets, allant des mathématiques élémentaires au droit international. Il évalue l'étendue et la profondeur des connaissances du modèle[12].
  • BIG-bench (Beyond the Imitation Game) : Contient plus de 204 tâches conçues pour évaluer des capacités qui dépassent celles des modèles de langage standards, incluant des tâches allant du jeu d'échecs à la devinette d'emojis[12].

Défis et limitations

  • Problème de corrélation : Les métriques automatiques traditionnelles, telles que BLEU et ROUGE, présentent souvent une faible corrélation avec les évaluations humaines, en particulier dans les tâches créatives[13].
  • Contamination des données (Data Contamination) : Il existe un risque que les données de test d'un benchmark aient été incluses dans l'ensemble d'entraînement du modèle, ce qui conduit à des évaluations gonflées et peu fiables[14].
  • Évaluation multilingue : La plupart des métriques et benchmarks existants se concentrent sur l'anglais, ce qui limite leur applicabilité pour évaluer les capacités multilingues des LLM[15].

Liens

Bibliographie

  • Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
  • Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
  • Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
  • Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
  • Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
  • Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
  • Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
  • Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
  • Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
  • Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
  • Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
  • Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
  • Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.

Références

  1. 1.0 1.1 « Métriques de qualité des LLM ». Perplexity AI.
  2. « Métriques de sécurité spécialisées ». Perplexity AI.
  3. 3.0 3.1 3.2 « Métriques traditionnelles d'évaluation de texte ». Perplexity AI.
  4. « Métriques sémantiques ». Perplexity AI.
  5. « Métriques basées sur les distributions ». Perplexity AI.
  6. 6.0 6.1 « Métriques intrinsèques ». Perplexity AI.
  7. 7.0 7.1 « Évaluation avec participation humaine ». Perplexity AI.
  8. « LLM-as-a-Judge ». Perplexity AI.
  9. 9.0 9.1 « Métriques de sécurité spécialisées ». Perplexity AI.
  10. « Biais et équité ». Perplexity AI.
  11. « Benchmarks de sécurité ». Perplexity AI.
  12. 12.0 12.1 « Évaluation complète ». Perplexity AI.
  13. « Problèmes de corrélation ». Perplexity AI.
  14. « Contamination des données ». Perplexity AI.
  15. « Évaluation multilingue ». Perplexity AI.