MT-Bench (benchmark) (FR)
MT-Bench (abréviation de l'anglais Multi-Turn Benchmark, « benchmark multi-tours ») est un ensemble de tâches de test de référence (benchmark) pour évaluer les grands modèles de langage (LLM) dans des conditions de dialogue multi-tours. Le benchmark a été proposé en 2023 par une équipe de chercheurs de LMSYS (dirigée par Lianmin Zheng) dans le cadre de la méthode LLM-as-a-Judge (« LLM en tant que juge ») pour la comparaison objective de la qualité des chatbots[1].
Contrairement aux tests traditionnels à un seul tour (tels que le MMLU), MT-Bench évalue la capacité des modèles à maintenir un dialogue en plusieurs étapes, à comprendre de nouvelles informations de manière séquentielle et à suivre précisément les instructions de l'utilisateur. L'objectif est d'obtenir une évaluation plus réaliste des performances des chatbots dans des scénarios complexes, axée sur la conformité avec les préférences humaines et les exigences pratiques des systèmes conversationnels[2].
Contexte de création
Le développement de modèles LLM conversationnels, tels que ChatGPT, GPT-4 et Vicuna, a révélé un décalage entre les métriques de qualité traditionnelles et la perception réelle des réponses par les utilisateurs. Il s'est avéré que l'amélioration d'un modèle en termes de conformité avec les instructions humaines (via le RLHF) n'améliore pas toujours les résultats sur les anciens benchmarks à un seul tour. Des tests comme MMLU ou HELM ne parviennent souvent pas à distinguer les chatbots améliorés (« alignés ») de leurs modèles de base. Cela met en évidence les limites des méthodologies précédentes, qui ne reflètent pas la qualité de l'interaction multi-tours ni la capacité à suivre des instructions ouvertes.
MT-Bench a été créé en réponse à ce problème, en proposant un ensemble de questions ouvertes sous forme de dialogue qui se concentre sur deux aspects :
- La capacité du modèle à maintenir une conversation cohérente sur plusieurs tours (turns).
- Le suivi précis d'instructions complexes de l'utilisateur[1].
Structure et contenu du benchmark
MT-Bench se compose de 80 scénarios de dialogue multi-tours soigneusement sélectionnés, couvrant différents types de tâches. Chaque scénario comprend une série de plusieurs échanges entre l'utilisateur et le modèle, testant la capacité du modèle à maintenir le contexte et à s'adapter à de nouvelles informations. Les dialogues sont regroupés en 8 catégories de tâches :
- Writing (écriture de texte) — évaluation des compétences créatives (par exemple, rédiger un article de blog).
- Roleplay (jeu de rôle) — simulation de dialogues dans des rôles spécifiques.
- Extraction (extraction d'informations) — capacité à extraire des faits d'un contexte fourni.
- Reasoning (raisonnement logique) — résolution de problèmes de pensée logique.
- Math (mathématiques) — résolution de problèmes mathématiques.
- Coding (programmation) — écriture ou débogage de code.
- STEM (sciences et techniques) — questions issues des domaines des sciences, de la technologie, de l'ingénierie et des mathématiques.
- Humanities (sciences humaines) — questions sur l'histoire, la littérature, les sciences sociales.
Chaque catégorie contient 10 tâches de dialogue. Les tâches incluent délibérément des suites complexes (par exemple, des questions de clarification soudaines) pour tester le modèle dans une conversation quasi « réelle »[3].
Méthodologie d'évaluation : LLM-as-a-Judge
La principale caractéristique de MT-Bench est l'utilisation d'un modèle de langage puissant en tant que juge pour l'évaluation automatisée des réponses (LLM-as-a-Judge). Dans l'article original, le modèle GPT-4 a été utilisé dans ce rôle[1].
La procédure d'évaluation se déroule comme suit :
- Pour chaque scénario de dialogue, plusieurs modèles participants génèrent des réponses.
- Le modèle-juge (GPT-4) compare ces réponses (sous forme de comparaison par paires ou d'évaluation sur une échelle de points) et rend un verdict sur la réponse à privilégier.
Ce jugement automatisé remplace l'annotation manuelle, qui est laborieuse. Les chercheurs ont montré que les évaluations de GPT-4 en tant que juge présentent une concordance de plus de 80 % avec les résultats des experts humains, ce qui est comparable à la cohérence observée entre les humains eux-mêmes. Cela témoigne de la fiabilité de la méthode et de la possibilité d'étendre les évaluations sans intervention humaine directe. Pour améliorer l'objectivité, les biais potentiels du modèle-juge ont été pris en compte et atténués, tels que le biais de position (préférence pour la première réponse), le biais de verbosité (préférence pour une réponse plus longue) et le biais d'auto-promotion (loyauté envers les réponses dans son propre style)[1].
Résultats et applications
MT-Bench a permis de révéler des différences notables dans les performances des modèles modernes. Dans les catégories du raisonnement logique, des mathématiques et de la programmation, GPT-4 a largement surpassé les versions précédentes (comme GPT-3.5). Cela a confirmé que les modèles plus grands sont plus performants pour maintenir le contexte sur plusieurs tours de dialogue.
Pour l'utilisation pratique des résultats, l'équipe de LMSYS a lancé un classement public (leaderboard), où les modèles sont classés selon leur score moyen sur MT-Bench et leur classement Elo issu de la Chatbot Arena. Ce classement est régulièrement mis à jour, reflétant les progrès du secteur. Le jeu de données lui-même et le code pour l'exécuter ont été publiés en open source, permettant aux développeurs indépendants de tester leurs propres modèles[2].
Limites et critiques
Malgré son succès, MT-Bench et l'approche LLM-as-a-Judge présentent plusieurs limites :
- Imperfectibilité du juge. Le modèle-juge (par exemple, GPT-4) n'est pas infaillible : il ne détecte pas toujours les erreurs factuelles ou les hallucinations dans les réponses des modèles évalués.
- Difficultés à évaluer la logique et les mathématiques. Un juge LLM peut ne pas être en mesure de suivre entièrement un raisonnement complexe ou de vérifier une preuve, ce qui peut entraîner des erreurs d'évaluation.
- Biais (Biases). Malgré les mesures d'atténuation, le modèle-juge peut conserver un parti pris pour un certain style ou format de réponse.
Ces aspects signifient que pour les applications critiques, une supervision humaine ou des méthodes d'évaluation combinées restent souhaitables.
Développements et extensions
Le succès de MT-Bench a encouragé la création de versions étendues. En 2024, la méthodologie MT-Bench-101 a été proposée, visant une analyse encore plus détaillée des capacités des modèles en dialogue. Les auteurs ont développé une taxonomie des compétences à trois niveaux et ont rassemblé un jeu de données beaucoup plus important, ce qui a permis de mettre en évidence des différences subtiles dans le comportement des modèles à différentes étapes du dialogue[4].
Liens
Bibliographie
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notes et références
- ↑ 1.0 1.1 1.2 1.3 Zheng, L. et al. « Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena ». arXiv:2306.05685, 2023. [1]
- ↑ 2.0 2.1 « MT-Bench (Multi-turn Benchmark) ». Klu.ai Glossary. [2]
- ↑ « MT-Bench - GM-RKB ». GaborMelli.com. [3]
- ↑ Bai, G. et al. « MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues ». arXiv:2402.14762, 2024. [4]