MT-Bench (benchmark) (PT)
MT-Bench (abreviação do inglês Multi-Turn Benchmark, ou "benchmark de múltiplos turnos") — é um conjunto de tarefas de teste de referência (benchmark) para avaliar modelos de linguagem grandes (LLMs) em cenários de diálogo de múltiplos turnos. O benchmark foi proposto em 2023 por uma equipe de pesquisadores do LMSYS (liderada por Lianmin Zheng) como parte do método LLM-as-a-Judge ("LLM como um juiz") para a comparação objetiva da qualidade de chatbots[1].
Diferente dos testes tradicionais de um único turno (como o MMLU), o MT-Bench avalia a capacidade dos modelos de conduzir um diálogo de múltiplos estágios, processar novas informações de forma sequencial e seguir com precisão as instruções do usuário. O objetivo é fornecer uma avaliação mais realista do desempenho de chatbots em cenários complexos, focada na correspondência com as preferências humanas e os requisitos práticos de sistemas conversacionais[2].
Contexto da Criação
O desenvolvimento de modelos de LLM de diálogo, como ChatGPT, GPT-4 e Vicuna, revelou uma lacuna entre as métricas de qualidade tradicionais e a percepção real dos usuários sobre as respostas. Verificou-se que a melhoria do modelo em termos de alinhamento com as instruções humanas (através de RLHF) nem sempre melhora os resultados em benchmarks mais antigos e de um único turno. Testes como MMLU ou HELM muitas vezes não conseguem distinguir entre chatbots aprimorados ("alinhados") e seus modelos base. Isso indica a limitação das metodologias anteriores, que não refletem a qualidade da interação de múltiplos turnos e das instruções de formato aberto.
O MT-Bench surgiu como uma resposta a esse problema, oferecendo um conjunto de perguntas de formato aberto em um formato de diálogo, que se concentra em dois aspectos:
- A capacidade do modelo de manter uma conversa coerente ao longo de vários passos (turns).
- O seguimento preciso de instruções complexas do usuário[1].
Estrutura e Conteúdo do Benchmark
O MT-Bench consiste em 80 cenários de diálogo de múltiplos turnos cuidadosamente selecionados, cobrindo diversos tipos de tarefas. Cada cenário inclui uma série de trocas entre o usuário e o modelo, testando a capacidade do modelo de manter o contexto e se adaptar a novas informações. Os diálogos são agrupados em 8 categorias de tarefas:
- Writing (escrita) — avaliação de habilidades criativas (por exemplo, escrever uma postagem de blog).
- Roleplay (interpretação de papéis) — simulação de diálogos em papéis específicos.
- Extraction (extração de informação) — capacidade de extrair fatos de um contexto fornecido.
- Reasoning (raciocínio lógico) — resolução de problemas que exigem pensamento lógico.
- Math (matemática) — resolução de problemas matemáticos.
- Coding (programação) — escrita ou depuração de código.
- STEM (ciências e tecnologia) — perguntas de áreas de ciências naturais e tecnologia.
- Humanities (humanidades) — perguntas sobre história, literatura e ciências sociais.
Cada categoria contém 10 tarefas de diálogo. As tarefas incluem intencionalmente continuações complicadas (por exemplo, perguntas de esclarecimento súbitas) para testar o modelo em uma conversa que simula a realidade[3].
Metodologia de Avaliação: LLM-as-a-Judge
A principal característica do MT-Bench é o uso de um modelo de linguagem forte no papel de juiz para a avaliação automatizada de respostas (LLM-as-a-Judge). No trabalho original, o modelo GPT-4 desempenhou esse papel[1].
A procedura de avaliação é a seguinte:
- Para cada cenário de diálogo, vários modelos participantes geram respostas.
- O modelo-juiz (GPT-4) compara essas respostas (em formato de comparação par a par ou avaliação em escala de pontos) e emite um veredito sobre qual é a preferível.
O julgamento automatizado substitui a trabalhosa rotulagem manual. Os pesquisadores demonstraram que as avaliações do GPT-4 como juiz têm mais de 80% de concordância com os resultados de especialistas humanos, o que é comparável à consistência entre os próprios humanos. Isso comprova a confiabilidade do método e a possibilidade de escalar as avaliações sem a participação humana direta. Para aumentar a objetividade, foram considerados e mitigados os potenciais vieses do modelo-juiz, como o viés de posição (preferência pela primeira resposta), o viés de verbosidade (preferência por respostas mais longas) e o viés de autoafirmação (lealdade a respostas em seu próprio estilo)[1].
Resultados e Aplicação
O MT-Bench permitiu identificar diferenças notáveis na qualidade dos modelos contemporâneos. Nas categorias de raciocínio lógico, matemática e programação, o GPT-4 superou significativamente as versões anteriores (como o GPT-3.5). Isso confirmou que modelos maiores são mais eficazes em manter o contexto ao longo de múltiplos turnos de diálogo.
Para a aplicação prática dos resultados, a equipe do LMSYS lançou um leaderboard público, onde os modelos são classificados pela pontuação média no MT-Bench e pela classificação Elo da Chatbot Arena. Essa classificação é atualizada regularmente, refletindo o progresso no setor. O próprio dataset e o código para sua execução foram disponibilizados em acesso aberto, permitindo que desenvolvedores independentes testem seus modelos[2].
Limitações e Críticas
Apesar de sua aplicação bem-sucedida, o MT-Bench e a abordagem LLM-as-a-Judge possuem algumas limitações:
- Imperfeição do juiz. O modelo-juiz (por exemplo, GPT-4) não é infalível: ele nem sempre reconhece erros factuais ou alucinações nas respostas dos modelos avaliados.
- Dificuldades na avaliação de lógica e matemática. O LLM-juiz pode não conseguir acompanhar completamente um raciocínio complexo ou verificar uma prova, o que pode levar a erros na avaliação.
- Vieses (Biases). Apesar das medidas para mitigá-los, o modelo-juiz pode manter um viés em relação a um determinado estilo ou formato de resposta.
Esses aspectos significam que, em aplicações críticas, a supervisão humana ou métodos de avaliação combinados ainda são desejáveis.
Desenvolvimento e Extensões
O sucesso do MT-Bench estimulou o surgimento de versões estendidas. Em 2024, foi proposta a metodologia MT-Bench-101, visando uma análise ainda mais detalhada das capacidades dos modelos em diálogo. Os autores desenvolveram uma taxonomia de habilidades em três níveis e coletaram um dataset significativamente maior, o que permitiu identificar diferenças sutis no comportamento dos modelos em diferentes estágios do diálogo[4].
Links
Literatura
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notas
- ↑ 1.0 1.1 1.2 1.3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]
- ↑ 2.0 2.1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]
- ↑ «MT-Bench - GM-RKB». GaborMelli.com. [3]
- ↑ Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]