Classement ELO des modèles
Le classement ELO des modèles de langue est une méthode d'évaluation et de comparaison des grands modèles de langue (LLM), basée sur une adaptation du système de classement Elo, initialement développé pour les échecs. Cette approche utilise des comparaisons par paires de modèles basées sur les préférences humaines pour créer un classement unifié qui reflète la performance relative des modèles[1].
Contrairement aux benchmarks traditionnels, qui mesurent des performances absolues sur des tâches spécifiques, les systèmes ELO déterminent les capacités relatives des modèles à partir de comparaisons directes de leurs réponses par des évaluateurs humains. Le principe fondamental est que les utilisateurs comparent les réponses de deux modèles anonymes à la même requête et choisissent la meilleure option. Sur la base de ces préférences, un classement est calculé pour chaque modèle, où un score plus élevé indique une supériorité dans les évaluations humaines[2].
Historique
Origines du système ELO
Le système de classement ELO a été développé par le physicien hungaro-américain Arpad Elo (Arpad Emrick Elo, 1903–1992) dans les années 1960 pour évaluer le niveau des joueurs d'échecs. Elo, professeur de physique, a créé ce système pour améliorer le système Harkness existant, qui présentait des lacunes importantes en matière de précision[3].
- 1960 : La Fédération américaine des échecs (USCF) adopte officiellement le système Elo.
- 1970 : La Fédération Internationale des Échecs (FIDE) commence à utiliser le système[4].
Adaptation pour les modèles de langue
L'application du classement ELO à l'évaluation des LLM a commencé avec le lancement de la plateforme LMSYS Chatbot Arena le 3 mai 2023. La plateforme a été créée par l'organisation LMSYS (Large Model Systems Organization), une collaboration de chercheurs de l'UC Berkeley SkyLab, de l'UC San Diego et de l'Université Carnegie Mellon[5].
Méthodologie
Fondements mathématiques
Formule ELO classique
La formule ELO classique pour calculer la probabilité attendue de victoire du modèle A sur le modèle B est : `P(A > B) = 1 / (1 + 10^((R_B - R_A) / 400))` où `R_A` et `R_B` sont les classements actuels des modèles.
La mise à jour du classement après une comparaison s'effectue selon la formule : `R'_A = R_A + K × (S_A - E_A)` où `K` est le coefficient de développement (facteur K), `S_A` le résultat réel (1 pour une victoire, 0,5 pour un match nul, 0 pour une défaite), et `E_A` le résultat attendu[4].
Modèle de Bradley-Terry
Les plateformes modernes, y compris LMSYS Chatbot Arena, sont passées au modèle de Bradley-Terry, qui constitue une approche statistiquement plus solide. La probabilité que le modèle `i` soit préféré au modèle `j` est calculée comme suit :
`P(i > j) = e^(β_i) / (e^(β_i) + e^(β_j))` où `β_i` et `β_j` sont les coefficients (scores) des modèles, estimés par la méthode du maximum de vraisemblance[2]. Cette méthode est plus stable et montre une meilleure concordance avec les préférences humaines[6].
Processus d'évaluation dans la Chatbot Arena
- Comparaison anonyme : Les utilisateurs interagissent simultanément avec deux modèles anonymes.
- Vote : Après avoir reçu les réponses, les utilisateurs choisissent leur option préférée.
- Révélation de l'identité : Les noms des modèles ne sont affichés qu'après le vote.
- Mise à jour du classement : Les classements sont mis à jour en fonction des résultats des votes, généralement par traitement par lots pour améliorer la stabilité[2].
Avantages et inconvénients
Avantages
- Simplicité et interprétabilité : Le système est facile à comprendre et à mettre en œuvre.
- Scalabilité : Il permet d'évaluer un grand nombre de modèles sans nécessiter de comparaisons par paires exhaustives.
- Conformité avec les préférences humaines : Le classement reflète directement les préférences réelles des utilisateurs, plutôt que des métriques abstraites.
Inconvénients et limitations
- Problèmes de fiabilité : Les calculs ELO individuels peuvent présenter une volatilité importante.
- Violations de la transitivité : Le système ne satisfait pas toujours la condition A>B et B>C → A>C, ce qui constitue une limitation fondamentale.
- Dépendance à la taille de l'échantillon : L'obtention de classements stables nécessite un grand échantillon (des centaines ou des milliers de comparaisons)[6].
- Biais d'évaluation : Les résultats peuvent être biaisés par la préférence des utilisateurs pour des réponses plus longues ou mieux formatées, ainsi que par les différences culturelles des évaluateurs.
Conclusion
Le classement ELO constitue un outil important dans l'écosystème d'évaluation des modèles de langue, offrant un moyen intuitif de les comparer sur la base des préférences humaines. Malgré le succès de plateformes comme LMSYS Chatbot Arena, la méthode présente des limitations fondamentales, notamment des problèmes de transitivité et de fiabilité. La transition du système ELO classique au modèle de Bradley-Terry représente une amélioration significative, mais l'avenir de l'évaluation des LLM résidera probablement dans la combinaison de multiples approches pour obtenir une image plus complète des capacités des modèles.
Liens externes
Bibliographie
- Elo, A. E. (1978). The Rating of Chessplayers, Past and Present. Arco Publishing. archive.org.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Daynauth, R. et al. (2025). Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat. arXiv:2411.14483.
- Liu, Y. et al. (2024). Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators. arXiv:2403.16950.
- Chatzi, I.; Straitouri, E.; Thejaswi, S.; Gomez‑Rodriguez, M. (2024). Prediction‑Powered Ranking of Large Language Models. arXiv:2402.17826.
- Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non‑Transitivity in LLM‑as‑a‑Judge. arXiv:2502.14074.
- Liu, Z. et al. (2025). am‑ELO: A Stable Framework for Arena‑based LLM Evaluation. arXiv:2505.03475.
- Tang, S.; Wang, Y.; Jin, C. (2025). Is Elo Rating Reliable? A Study Under Model Misspecification. arXiv:2502.10985.
- Nair, A. et al. (2025). Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings. arXiv:2506.00178.
- Ameli, S. et al. (2024). A Statistical Framework for Ranking LLM‑Based Chatbots. arXiv:2412.18407.
- Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top LLM Rankings. arXiv:2508.11847.
- Sun, H.; Shen, Y.; Ton, J.‑F. (2024). Rethinking Bradley‑Terry Models in Preference‑Based Reward Modeling: Foundations, Theory, and Alternatives. arXiv:2411.04991.
- Glickman, M. E. (2025). Paired Comparison Models with Strength‑Dependent Ties and Order Effects. arXiv:2505.24783.
- Glickman, M. E. (2025). Rating Competitors in Games with Strength‑Dependent Tie Probabilities. arXiv:2506.11354.
- Hua, H.-F.; Dong, J.; Liu, Z. (2023). Rating of Players by Laplace Approximation and Dynamic Bradley–Terry Model. arXiv:2310.10386.
Références
- ↑ «Elo Rating for LLMs: A Deep Dive». Medium. [1]
- ↑ 2.0 2.1 2.2 «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Org. [2]
- ↑ «Elo rating system». Dans Wikipedia, The Free Encyclopedia. [3]
- ↑ 4.0 4.1 «How Does the Elo Rating System Work?». History Hit. [4]
- ↑ «LMSYS Chatbot Arena: The Ultimate LLM Leaderboard». Originality.AI. [5]
- ↑ 6.0 6.1 Boubdir, N., et al. «Elo Uncovered: Robustness and Best Practices in Language Model Evaluation». arXiv:2310.09277. [6]