MMLU Benchmark (PT)
MMLU (abreviação de Measuring Massive Multitask Language Understanding) é um conjunto de tarefas de referência (benchmark) projetado para avaliar as capacidades de grandes modelos de linguagem (LLMs) em uma ampla gama de áreas de conhecimento. O benchmark foi desenvolvido em 2020 por uma equipe de pesquisadores liderada por Dan Hendrycks da UC Berkeley e publicado na conferência ICLR em 2021[1].
O objetivo do MMLU é verificar o quão bem um modelo assimila conhecimentos e habilidades diversas adquiridas durante a fase de pré-treinamento, por meio de testes no modo zero-shot ou few-shot (com zero ou poucos exemplos), sem ajuste fino adicional. O MMLU foi criado como uma alternativa mais desafiadora aos testes existentes anteriormente (como GLUE e SuperGLUE), nos quais muitos modelos já haviam alcançado o desempenho de nível humano até 2020[2].
Descrição e conteúdo
O MMLU consiste em 15.908 perguntas de múltipla escolha, cobrindo 57 disciplinas diferentes. Os temas das tarefas incluem:
- Disciplinas da área STEM (matemática, física, biologia, ciência da computação).
- Ciências humanas e sociais (história, literatura, direito, gestão).
- Áreas aplicadas e profissionais (medicina, jurisprudência, negócios)[1].
O nível de dificuldade varia do ensino fundamental ao profissional avançado. As perguntas são baseadas em materiais de exames reais para escolas, universidades e testes profissionais, como o GRE e o USMLE[1]. O formato das tarefas é de quatro opções de resposta para cada pergunta, o que significa que a precisão por adivinhação aleatória é de 25%. Para alcançar um resultado alto, o modelo deve possuir vasto conhecimento enciclopédico e capacidade de raciocínio.
Resultados e desenvolvimento
Quando o MMLU foi lançado em 2020, a maioria dos LLMs apresentava resultados apenas ligeiramente acima da adivinhação aleatória. O melhor resultado foi demonstrado pelo modelo GPT-3 (175 bilhões de parâmetros), que alcançou ~43,9% de respostas corretas. Em comparação, um especialista humano atingia, em média, ~90%[1]. Essa diferença confirmou a complexidade e o alto padrão do novo benchmark.
Com o tempo, o MMLU tornou-se um dos testes mais populares para LLMs, alcançando o status de "padrão ouro" nos relatórios das principais empresas de IA[3]. Entre 2023 e 2024, os modelos mais recentes, como o GPT-4, o Gemini Ultra do Google e o Claude 3.5 da Anthropic, aproximaram-se do nível humano, atingindo uma precisão de ~85-90%[2][3].
O rápido progresso levou a uma "saturação" gradual do benchmark: os principais modelos começaram a atingir pontuações próximas do máximo, o que reduziu a capacidade do MMLU de diferenciar suas capacidades intelectuais. Isso estimulou a comunidade a desenvolver novos testes mais difíceis[3].
Limitações e críticas
Apesar de sua ampla adoção, o MMLU possui várias limitações significativas.
Qualidade e correção dos dados
Em junho de 2024, pesquisadores realizaram uma análise manual de uma amostra de 5.700 perguntas do MMLU e encontraram um número significativo de erros[4].
- Cerca de 6,5% de todas as perguntas do MMLU contêm erros na rotulagem ou na formulação.
- Em algumas categorias, a proporção de tarefas incorretas é muito alta. Por exemplo, na seção "Virologia", 57% das tarefas continham erros (múltiplas respostas corretas, formulações incorretas ou uma resposta de referência indicada erroneamente).
Isso significa que mesmo um modelo ideal não pode atingir 100% no dataset original, e parte das melhorias nas métricas pode estar relacionada à memorização dos erros sistemáticos do conjunto de dados pelo modelo[4].
Metodologia de avaliação e vazamento de dados
- Falta de um padrão de teste. Diferentes desenvolvedores podem usar prompts e modos few-shot distintos, o que dificulta a comparação direta dos resultados dos modelos.
- Vazamento de dados (data contamination). Existe o risco de que perguntas e respostas de benchmarks públicos sejam incluídas nos conjuntos de dados de treinamento dos LLMs. Nesse caso, o modelo efetivamente "sabe" as respostas corretas, tornando a avaliação injusta[3].
Versões derivadas e extensões
Para resolver os problemas do MMLU original, várias de suas variantes foram criadas.
- MMLU-Redux. Uma versão corrigida e refinada do conjunto de dados, apresentada em junho de 2024. Inclui 3.000 perguntas rerrotuladas de 30 categorias e destina-se a uma avaliação mais confiável dos modelos, sem as distorções causadas por erros nos dados[4].
- MMLU-Pro. Uma versão expandida e mais difícil do teste, apresentada no final de 2024. Contém mais de 12.000 perguntas, cada uma com 10 opções de resposta em vez de quatro. Isso reduz a probabilidade de acerto aleatório para 10%. As perguntas foram revisadas por especialistas e incluem novas tarefas de fontes mais complexas[5].
- MMMLU (Multilingual MMLU). Uma versão multilíngue lançada pela OpenAI em 2023. Todo o conjunto de dados do MMLU foi traduzido por tradutores profissionais para 14 idiomas, incluindo idiomas comuns (espanhol, chinês, russo) e de baixos recursos (como iorubá). Isso permite avaliar e comparar as capacidades dos modelos em diferentes idiomas[6].
Links
Literatura
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notas
- ↑ 1.0 1.1 1.2 1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
- ↑ 2.0 2.1 «MMLU». In Wikipedia. [2]
- ↑ 3.0 3.1 3.2 3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
- ↑ 4.0 4.1 4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
- ↑ «MMLU Pro». Vals.ai, 2025. [5]
- ↑ «openai/MMMLU». Hugging Face Datasets. [6]