MT-Bench (benchmark) (PT)

MT-Bench (abreviação do inglês Multi-Turn Benchmark, ou "benchmark de múltiplos turnos") — é um conjunto de tarefas de teste de referência (benchmark) para avaliar modelos de linguagem grandes (LLMs) em cenários de diálogo de múltiplos turnos. O benchmark foi proposto em 2023 por uma equipe de pesquisadores do LMSYS (liderada por Lianmin Zheng) como parte do método LLM-as-a-Judge ("LLM como um juiz") para a comparação objetiva da qualidade de chatbots^[1].

Diferente dos testes tradicionais de um único turno (como o MMLU), o MT-Bench avalia a capacidade dos modelos de conduzir um diálogo de múltiplos estágios, processar novas informações de forma sequencial e seguir com precisão as instruções do usuário. O objetivo é fornecer uma avaliação mais realista do desempenho de chatbots em cenários complexos, focada na correspondência com as preferências humanas e os requisitos práticos de sistemas conversacionais^[2].

Contexto da Criação

O desenvolvimento de modelos de LLM de diálogo, como ChatGPT, GPT-4 e Vicuna, revelou uma lacuna entre as métricas de qualidade tradicionais e a percepção real dos usuários sobre as respostas. Verificou-se que a melhoria do modelo em termos de alinhamento com as instruções humanas (através de RLHF) nem sempre melhora os resultados em benchmarks mais antigos e de um único turno. Testes como MMLU ou HELM muitas vezes não conseguem distinguir entre chatbots aprimorados ("alinhados") e seus modelos base. Isso indica a limitação das metodologias anteriores, que não refletem a qualidade da interação de múltiplos turnos e das instruções de formato aberto.

O MT-Bench surgiu como uma resposta a esse problema, oferecendo um conjunto de perguntas de formato aberto em um formato de diálogo, que se concentra em dois aspectos:

A capacidade do modelo de manter uma conversa coerente ao longo de vários passos (turns).
O seguimento preciso de instruções complexas do usuário^[1].

Estrutura e Conteúdo do Benchmark

O MT-Bench consiste em 80 cenários de diálogo de múltiplos turnos cuidadosamente selecionados, cobrindo diversos tipos de tarefas. Cada cenário inclui uma série de trocas entre o usuário e o modelo, testando a capacidade do modelo de manter o contexto e se adaptar a novas informações. Os diálogos são agrupados em 8 categorias de tarefas:

Writing (escrita) — avaliação de habilidades criativas (por exemplo, escrever uma postagem de blog).
Roleplay (interpretação de papéis) — simulação de diálogos em papéis específicos.
Extraction (extração de informação) — capacidade de extrair fatos de um contexto fornecido.
Reasoning (raciocínio lógico) — resolução de problemas que exigem pensamento lógico.
Math (matemática) — resolução de problemas matemáticos.
Coding (programação) — escrita ou depuração de código.
STEM (ciências e tecnologia) — perguntas de áreas de ciências naturais e tecnologia.
Humanities (humanidades) — perguntas sobre história, literatura e ciências sociais.

Cada categoria contém 10 tarefas de diálogo. As tarefas incluem intencionalmente continuações complicadas (por exemplo, perguntas de esclarecimento súbitas) para testar o modelo em uma conversa que simula a realidade^[3].

Metodologia de Avaliação: LLM-as-a-Judge

A principal característica do MT-Bench é o uso de um modelo de linguagem forte no papel de juiz para a avaliação automatizada de respostas (LLM-as-a-Judge). No trabalho original, o modelo GPT-4 desempenhou esse papel^[1].

A procedura de avaliação é a seguinte:

Para cada cenário de diálogo, vários modelos participantes geram respostas.
O modelo-juiz (GPT-4) compara essas respostas (em formato de comparação par a par ou avaliação em escala de pontos) e emite um veredito sobre qual é a preferível.

O julgamento automatizado substitui a trabalhosa rotulagem manual. Os pesquisadores demonstraram que as avaliações do GPT-4 como juiz têm mais de 80% de concordância com os resultados de especialistas humanos, o que é comparável à consistência entre os próprios humanos. Isso comprova a confiabilidade do método e a possibilidade de escalar as avaliações sem a participação humana direta. Para aumentar a objetividade, foram considerados e mitigados os potenciais vieses do modelo-juiz, como o viés de posição (preferência pela primeira resposta), o viés de verbosidade (preferência por respostas mais longas) e o viés de autoafirmação (lealdade a respostas em seu próprio estilo)^[1].

Resultados e Aplicação

O MT-Bench permitiu identificar diferenças notáveis na qualidade dos modelos contemporâneos. Nas categorias de raciocínio lógico, matemática e programação, o GPT-4 superou significativamente as versões anteriores (como o GPT-3.5). Isso confirmou que modelos maiores são mais eficazes em manter o contexto ao longo de múltiplos turnos de diálogo.

Para a aplicação prática dos resultados, a equipe do LMSYS lançou um leaderboard público, onde os modelos são classificados pela pontuação média no MT-Bench e pela classificação Elo da Chatbot Arena. Essa classificação é atualizada regularmente, refletindo o progresso no setor. O próprio dataset e o código para sua execução foram disponibilizados em acesso aberto, permitindo que desenvolvedores independentes testem seus modelos^[2].

Limitações e Críticas

Apesar de sua aplicação bem-sucedida, o MT-Bench e a abordagem LLM-as-a-Judge possuem algumas limitações:

Imperfeição do juiz. O modelo-juiz (por exemplo, GPT-4) não é infalível: ele nem sempre reconhece erros factuais ou alucinações nas respostas dos modelos avaliados.
Dificuldades na avaliação de lógica e matemática. O LLM-juiz pode não conseguir acompanhar completamente um raciocínio complexo ou verificar uma prova, o que pode levar a erros na avaliação.
Vieses (Biases). Apesar das medidas para mitigá-los, o modelo-juiz pode manter um viés em relação a um determinado estilo ou formato de resposta.

Esses aspectos significam que, em aplicações críticas, a supervisão humana ou métodos de avaliação combinados ainda são desejáveis.

Desenvolvimento e Extensões

O sucesso do MT-Bench estimulou o surgimento de versões estendidas. Em 2024, foi proposta a metodologia MT-Bench-101, visando uma análise ainda mais detalhada das capacidades dos modelos em diálogo. Os autores desenvolveram uma taxonomia de habilidades em três níveis e coletaram um dataset significativamente maior, o que permitiu identificar diferenças sutis no comportamento dos modelos em diferentes estágios do diálogo^[4].

Links

Repositório oficial com os dados do MT-Bench no GitHub

Literatura

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]
↑ ^2.0 ^2.1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]
↑ «MT-Bench - GM-RKB». GaborMelli.com. [3]
↑ Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]

[mt_bench_paper-1] 1.0 ^1.1 ^1.2 ^1.3 Zheng, L. et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv:2306.05685, 2023. [1]

[klu_glossary-2] 2.0 ^2.1 «MT-Bench (Multi-turn Benchmark)». Klu.ai Glossary. [2]

[gabor_melli_rkb-3] «MT-Bench - GM-RKB». GaborMelli.com. [3]

[mt_bench_101_paper-4] Bai, G. et al. «MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues». arXiv:2402.14762, 2024. [4]

[1]

[2]

[3]

[4]

MT-Bench (benchmark) (PT)

Contents

Contexto da Criação

Estrutura e Conteúdo do Benchmark

Metodologia de Avaliação: LLM-as-a-Judge

Resultados e Aplicação

Limitações e Críticas

Desenvolvimento e Extensões

Links

Literatura

Notas

Navigation menu

MT-Bench (benchmark) (PT)

Contexto da Criação

Estrutura e Conteúdo do Benchmark

Metodologia de Avaliação: LLM-as-a-Judge

Resultados e Aplicação

Limitações e Críticas

Desenvolvimento e Extensões

Links

Literatura

Notas

Navigation menu

Search