LMArena (Chatbot Arena) (FR)

From Systems analysis wiki
Jump to navigation Jump to search

LMArena (Large Model Arena, anciennement connue sous le nom de Chatbot Arena) est une plateforme web ouverte pour l'évaluation participative (crowdsourcing) et la comparaison de grands modèles de langage (LLM et modèles multimodaux) sur la base des préférences humaines, à travers des comparaisons anonymes par paires et des classements publics (leaderboards)[1][2].

La plateforme est issue d'une initiative de recherche de LMSYS (UC Berkeley/CMU/UC San Diego)[41]. En septembre 2024, elle a été lancée sur son propre site lmarena.ai[3], et en mai 2025, elle a été constituée en société et a levé 100 millions de dollars en financement d'amorçage (seed funding) (auprès d'a16z, UC Investments, etc.) pour développer son infrastructure d'évaluation ouverte[4][5].

Histoire

La plateforme a été lancée en mai 2023 sous le nom de Chatbot Arena. Au printemps 2025, elle a été officiellement renommée LMArena (Large Model Arena) et constituée en tant qu'organisation indépendante.

  • 3 mai 2023 — Lancement de Chatbot Arena, le premier classement basé sur des « batailles » (battles) anonymes[6].
  • 2023 — Publication de jeux de données : 33 000 dialogues par paires (juillet) et LMSYS-Chat-1M (septembre, 1 million de dialogues réels)[7][8].
  • 20 septembre 2024 — « Graduation » : lancement sur son propre domaine lmarena.ai[3].
  • 2024–2025 — Extension de la méthodologie et des arènes (Arena-Hard, Style/Sentiment Control, WebDev/RepoChat, etc.)[9][10][11][12].
  • 27 avril 2025 — Un total de plus de 3 millions de votes, plus de 400 modèles publics et plus de 300 aperçus privés (closed previews)[13].
  • 21 mai 2025 — LMArena annonce sa constitution en société et une levée de fonds d'amorçage de 100 millions de dollars[4][5].
  • 31 juillet 2025 — Publication d'un jeu de données ouvert de 140 000 dialogues récents de la Text Arena[14].
  • 26–27 août 2025 — Test anonyme de Gemini 2.5 Flash Image sous le nom de code « nano-banana » ; le modèle prend ensuite la tête des classements Text-to-Image/Image Edit[15][16].
  • 28 août 2025 — Ajout de Microsoft MAI-1-preview au classement de texte (voir le Changelog)[17].
  • Statut : L'onglet Text Arena indique 4 075 191 votes (mis à jour le 8 septembre 2025)[18].

Fonctionnement de l'évaluation

L'utilisateur saisit une requête et reçoit deux réponses de modèles anonymes choisis au hasard (« A » et « B »), puis vote pour la meilleure réponse (ou signale une égalité ou une réponse insatisfaisante). Le classement est basé sur le modèle statistique de Bradley-Terry (une régression logistique sur les préférences par paires), intuitivement proche du système de classement Elo[1]. La plateforme publie un Arena Score et des intervalles de confiance, et applique des corrections d'échantillonnage (re-weighting) pour maintenir l'impartialité en cas d'échantillonnage non uniforme[19].

Transparence et ouverture. Les pipelines originaux d'évaluation et de classement sont open source dans le dépôt FastChat[20] ; des parties des données brutes sont publiées périodiquement à des fins de vérification et de recherche (par ex., la publication de 140 000 dialogues en juillet 2025)[19][14]. Selon la FAQ et les avertissements sur la page d'accueil, les requêtes des utilisateurs peuvent être divulguées aux fournisseurs de modèles et partiellement publiées à des fins de recherche — il est conseillé de ne pas soumettre de données sensibles[21][22].

Règles de sélection et d'échantillonnage. Les classements incluent des modèles accessibles au public (poids ouverts/API publique/service public). Pour stabiliser une évaluation, au moins 1000 votes sont généralement requis ; au moins 20 % des batailles ont lieu uniquement entre des modèles publics ; la probabilité d'échantillonnage augmente avec le classement et l'incertitude, et la régression avec repondération garantit l'impartialité des scores finaux[19].

Métriques automatiques et contrôle du style. Pour accélérer l'évaluation et réduire les effets des préférences stylistiques, des techniques auxiliaires sont utilisées : MT-Bench (LLM-as-a-judge)[23], Arena-Hard (génération automatique de questions difficiles)[9], ainsi que le Style/Sentiment Control (modélisation et « correction » de l'effet du ton/des émotions sur les préférences)[10]. Pour Arena-Hard-Auto, une très haute concordance avec les votes humains « en direct » a été rapportée (jusqu'à ≈98,6 % dans des conditions contrôlées)[24].

Arènes et domaines d'évaluation

La plateforme a évolué pour devenir un ensemble d'« arènes » spécialisées par type de tâches :

  • Text Arena — dialogues/tâches générales, classement principal[18].
  • Vision Arena — modèles multimodaux « texte→image/vidéo/analyse d'image »[25].
  • Text-to-Image et Image Edit — génération et édition d'images (y compris le cas de nano-banana)[16][15].
  • Text-/Image-to-Video — génération de vidéos[26].
  • WebDev Arena — création d'applications web à partir de descriptions[11].
  • RepoChat Arena — tâches d'ingénierie IA sur du code/des dépôts[12].
  • Search Arena — modèles connectés à la recherche web ; lancée initialement en avril 2025 (legacy), puis intégrée au site principal, accompagnée d'un jeu de données et d'une publication[27][28][29].
  • BiomedArena.AI — évaluation spécifique au domaine pour les tâches biomédicales (en partenariat avec DataTecnica)[30].

Applications et influence

  • Vitrine pour l'industrie. Les plus grands fournisseurs (OpenAI, Anthropic, Google, etc.) testent et présentent régulièrement leurs modèles sur LMArena ; les médias spécialisés décrivent la plateforme comme une référence importante[5][31]. Dans une publication industrielle de la NAACL-2025, l'évaluation Elo de Chatbot Arena est qualifiée de « gold industry-standard »[32].
  • Tests de pré-lancement. La politique autorise les aperçus anonymes de modèles non publiés, avec notification à la communauté et publication ultérieure des évaluations publiques après le lancement ; un minimum de ≈1000 votes est requis pour la stabilisation[19].
  • Épisodes notables. Au printemps 2025, le modèle anonyme Llama-4 Maverick-03-26-Experimental a fait l'objet de discussions (incident concernant sa comparaison avec des versions publiques), attirant une large attention médiatique et entraînant des mises à jour des règles et de la communication[33][34]. En août 2025, « nano-banana » s'est révélé être Gemini 2.5 Flash Image et a pris la tête des classements visuels[15][16].

Limites et critiques

Malgré son échelle et sa popularité, l'approche présente des limites :

  • Subjectivité et effets de style. Les préférences de vote dépendent du ton et du style de la réponse ; l'équipe met en œuvre le Style/Sentiment Control pour découpler le « style » du « contenu »[10].
  • Non-représentativité de l'audience. Le noyau actif est composé de passionnés de technologie et de développeurs ; pour les scénarios spécifiques à un domaine, des arènes spécialisées sont créées (Search, WebDev, Biomed, etc.)[35].
  • Vulnérabilité aux manipulations et aux biais. Des recherches de 2025 montrent que, en l'absence de protections strictes, des stratégies de « gonflement des votes » avec des centaines ou des milliers de votes sont possibles ; cependant, la collaboration entre les chercheurs et LMArena a conduit à la mise en place de mesures de protection (CAPTCHA/connexion/protection anti-bot/détection d'anomalies) et à l'augmentation du « coût de l'attaque »[36][37][38].
  • Critiques méthodologiques. L'étude The Leaderboard Illusion (avril 2025) souligne des facteurs systémiques et institutionnels susceptibles de fausser la compétition ; LMArena a publié une réponse détaillée et maintient un changelog public de sa méthodologie[39][40][17].

Liens externes

Bibliographie

  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv:2306.05685.
  • Li, T. et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline. arXiv:2406.11939.
  • Ameli, S.; Zhuang, S.; Stoica, I.; Mahoney, M. W. (2024). A Statistical Framework for Ranking LLM-Based Chatbots. arXiv:2412.18407.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, J. Y.; Shen, Y.; Wei, D.; Broderick, T. (2025). Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings. arXiv:2508.11847.
  • Xu, Y.; Ruis, L.; Rocktäschel, T.; Kirk, R. (2025). Investigating Non-Transitivity in LLM-as-a-Judge. arXiv:2502.14074.
  • Li, H. et al. (2024). LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods. arXiv:2412.05579.
  • Zheng, L. et al. (2024). LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset. arXiv:2309.11998.
  • Dubois, Y. et al. (2024). Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv:2404.04475.
  • Singh, S. et al. (2025). The Leaderboard Illusion. arXiv:2504.20879.
  • Min, R.; Pang, T.; Du, C.; Liu, Q.; Cheng, M.; Lin, M. (2025). Improving Your Model Ranking on Chatbot Arena by Vote Rigging. arXiv:2501.17858.


Notes et références

  1. 1.0 1.1 Chiang, W.-L. et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference». arXiv:2403.04132, 2024. arXiv
  2. «Hello from LMArena: The Community Platform for Exploring Frontier AI». LMArena Blog, 23 juin 2025. [1]
  3. 3.0 3.1 «Announcing a New Site for Chatbot Arena». LMSYS Blog, 20 septembre 2024. [2]
  4. 4.0 4.1 «LMArena Secures $100M in Seed Funding…». PR Newswire, 21 mai 2025. [3]
  5. 5.0 5.1 5.2 Wiggers, K. «LM Arena… lands $100M». TechCrunch, 21 mai 2025. [4]
  6. «Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings». LMSYS Blog, 3 mai 2023. [5]
  7. «Chatbot Arena Conversation Dataset Release». LMSYS Blog, 20 juillet 2023. [6]
  8. Zheng, L. et al. «LMSYS‑Chat‑1M». arXiv:2309.11998, 2023. [7]
  9. 9.0 9.1 Li, T. et al. «From Crowdsourced Data to High‑Quality Benchmarks: Arena‑Hard and BenchBuilder Pipeline». arXiv:2406.11939, 2024. [8]
  10. 10.0 10.1 10.2 «Does Sentiment Matter Too? Introducing Sentiment Control». LMArena Blog, 22 avril 2025. [9]
  11. 11.0 11.1 «WebDev Arena: A Live LLM Leaderboard for Web App Development». LMArena Blog, 10 mars 2025. [10]
  12. 12.0 12.1 «RepoChat Arena: A Live Benchmark for AI Software Engineers». LMArena Blog, 9 avril 2025. [11]
  13. «Celebrating Community Impact: 3M+ votes, 400+ models…». LMArena Blog, 27 avril 2025. [12]
  14. 14.0 14.1 Y. Song. «A Deep Dive into Recent Arena Data». LMArena Blog, 31 juillet 2025. [13]
  15. 15.0 15.1 15.2 «Nano Banana (Gemini 2.5 Flash Image): Try it on LMArena». LMArena Blog, 27 août 2025. [14]
  16. 16.0 16.1 16.2 Text‑to‑Image Arena. LMArena, mis à jour le 25 août 2025. [15]
  17. 17.0 17.1 Leaderboard Changelog. LMArena Blog, entrées d'août 2025. [16]
  18. 18.0 18.1 Text Arena (English). LMArena. [17]
  19. 19.0 19.1 19.2 19.3 LMArena Leaderboard Policy. LMArena Blog, éd. 8 septembre 2025. [18]
  20. lm‑sys/FastChat (GitHub). [19]
  21. FAQ. LMArena. [20]
  22. Page d'accueil de LMArena (avertissement sur la publication possible des données et leur transmission aux fournisseurs). [21]
  23. Zheng, L. et al. «Judging LLM‑as‑a‑Judge with MT‑Bench and Chatbot Arena». arXiv:2306.05685, 2023. [22]
  24. Li, T. et al. «From Crowdsourced Data…» arXiv:2406.11939 (tableaux de concordance). [23]
  25. Vision Arena. LMArena, mis à jour le 2 septembre 2025. [24]
  26. Text‑to‑Video et Image‑to‑Video Leaderboards. LMArena, août 2025. [25] [26]
  27. «Introducing the Search Arena». LMArena Blog, 14 avril 2025. [27]
  28. «Search Arena & What We’re Learning About Human Preference». LMArena Blog, 23 juillet 2025. [28]
  29. Frick, E. et al. «Search Arena: Analyzing Search‑Augmented LLMs». arXiv:2506.05334, 2025. [29]
  30. «Introducing BiomedArena.AI». LMArena Blog, 19 août 2025. [30]
  31. Google. «Gemma 3…», 12 mars 2025 (lien vers les résultats de LMArena). [31]
  32. Spangher, L. et al. «Chatbot Arena Estimate…». NAACL Industry, 2025. [32]
  33. «Meta’s experimental Llama 4 model briefly topped AI leaderboard…». The Register, 7 avril 2025. [33]
  34. Clarifications/posts officiels de LMArena sur X concernant l'incident (avril 2025). [34]
  35. «Search Arena & What We’re Learning…». LMArena Blog, 23 juillet 2025. [35]
  36. Min, R. et al. «Improving Your Model Ranking on Chatbot Arena by Vote Rigging». arXiv:2501.17858, 2025. [36]
  37. Huang, Y. et al. «Exploring and Mitigating Adversarial Manipulation of Voting‑Based Leaderboards». arXiv:2501.07493, 2025. [37]
  38. «Hundreds of rigged votes can skew…». Fast Company, 6 février 2025. [38]
  39. Singh, S. et al. «The Leaderboard Illusion». arXiv:2504.20879, 2025. [39]
  40. «Our Response to ‘The Leaderboard Illusion’». LMArena Blog, 9 mai 2025. [40]