MMLU Benchmark (PT)

MMLU (abreviação de Measuring Massive Multitask Language Understanding) é um conjunto de tarefas de referência (benchmark) projetado para avaliar as capacidades de grandes modelos de linguagem (LLMs) em uma ampla gama de áreas de conhecimento. O benchmark foi desenvolvido em 2020 por uma equipe de pesquisadores liderada por Dan Hendrycks da UC Berkeley e publicado na conferência ICLR em 2021^[1].

O objetivo do MMLU é verificar o quão bem um modelo assimila conhecimentos e habilidades diversas adquiridas durante a fase de pré-treinamento, por meio de testes no modo zero-shot ou few-shot (com zero ou poucos exemplos), sem ajuste fino adicional. O MMLU foi criado como uma alternativa mais desafiadora aos testes existentes anteriormente (como GLUE e SuperGLUE), nos quais muitos modelos já haviam alcançado o desempenho de nível humano até 2020^[2].

Descrição e conteúdo

O MMLU consiste em 15.908 perguntas de múltipla escolha, cobrindo 57 disciplinas diferentes. Os temas das tarefas incluem:

Disciplinas da área STEM (matemática, física, biologia, ciência da computação).
Ciências humanas e sociais (história, literatura, direito, gestão).
Áreas aplicadas e profissionais (medicina, jurisprudência, negócios)^[1].

O nível de dificuldade varia do ensino fundamental ao profissional avançado. As perguntas são baseadas em materiais de exames reais para escolas, universidades e testes profissionais, como o GRE e o USMLE^[1]. O formato das tarefas é de quatro opções de resposta para cada pergunta, o que significa que a precisão por adivinhação aleatória é de 25%. Para alcançar um resultado alto, o modelo deve possuir vasto conhecimento enciclopédico e capacidade de raciocínio.

Resultados e desenvolvimento

Quando o MMLU foi lançado em 2020, a maioria dos LLMs apresentava resultados apenas ligeiramente acima da adivinhação aleatória. O melhor resultado foi demonstrado pelo modelo GPT-3 (175 bilhões de parâmetros), que alcançou ~43,9% de respostas corretas. Em comparação, um especialista humano atingia, em média, ~90%^[1]. Essa diferença confirmou a complexidade e o alto padrão do novo benchmark.

Com o tempo, o MMLU tornou-se um dos testes mais populares para LLMs, alcançando o status de "padrão ouro" nos relatórios das principais empresas de IA^[3]. Entre 2023 e 2024, os modelos mais recentes, como o GPT-4, o Gemini Ultra do Google e o Claude 3.5 da Anthropic, aproximaram-se do nível humano, atingindo uma precisão de ~85-90%^[2]^[3].

O rápido progresso levou a uma "saturação" gradual do benchmark: os principais modelos começaram a atingir pontuações próximas do máximo, o que reduziu a capacidade do MMLU de diferenciar suas capacidades intelectuais. Isso estimulou a comunidade a desenvolver novos testes mais difíceis^[3].

Limitações e críticas

Apesar de sua ampla adoção, o MMLU possui várias limitações significativas.

Qualidade e correção dos dados

Em junho de 2024, pesquisadores realizaram uma análise manual de uma amostra de 5.700 perguntas do MMLU e encontraram um número significativo de erros^[4].

Cerca de 6,5% de todas as perguntas do MMLU contêm erros na rotulagem ou na formulação.
Em algumas categorias, a proporção de tarefas incorretas é muito alta. Por exemplo, na seção "Virologia", 57% das tarefas continham erros (múltiplas respostas corretas, formulações incorretas ou uma resposta de referência indicada erroneamente).

Isso significa que mesmo um modelo ideal não pode atingir 100% no dataset original, e parte das melhorias nas métricas pode estar relacionada à memorização dos erros sistemáticos do conjunto de dados pelo modelo^[4].

Metodologia de avaliação e vazamento de dados

Falta de um padrão de teste. Diferentes desenvolvedores podem usar prompts e modos few-shot distintos, o que dificulta a comparação direta dos resultados dos modelos.
Vazamento de dados (data contamination). Existe o risco de que perguntas e respostas de benchmarks públicos sejam incluídas nos conjuntos de dados de treinamento dos LLMs. Nesse caso, o modelo efetivamente "sabe" as respostas corretas, tornando a avaliação injusta^[3].

Versões derivadas e extensões

Para resolver os problemas do MMLU original, várias de suas variantes foram criadas.

MMLU-Redux. Uma versão corrigida e refinada do conjunto de dados, apresentada em junho de 2024. Inclui 3.000 perguntas rerrotuladas de 30 categorias e destina-se a uma avaliação mais confiável dos modelos, sem as distorções causadas por erros nos dados^[4].
MMLU-Pro. Uma versão expandida e mais difícil do teste, apresentada no final de 2024. Contém mais de 12.000 perguntas, cada uma com 10 opções de resposta em vez de quatro. Isso reduz a probabilidade de acerto aleatório para 10%. As perguntas foram revisadas por especialistas e incluem novas tarefas de fontes mais complexas^[5].
MMMLU (Multilingual MMLU). Uma versão multilíngue lançada pela OpenAI em 2023. Todo o conjunto de dados do MMLU foi traduzido por tradutores profissionais para 14 idiomas, incluindo idiomas comuns (espanhol, chinês, russo) e de baixos recursos (como iorubá). Isso permite avaliar e comparar as capacidades dos modelos em diferentes idiomas^[6].

Links

Literatura

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]
↑ ^2.0 ^2.1 «MMLU». In Wikipedia. [2]
↑ ^3.0 ^3.1 ^3.2 ^3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]
↑ ^4.0 ^4.1 ^4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]
↑ «MMLU Pro». Vals.ai, 2025. [5]
↑ «openai/MMMLU». Hugging Face Datasets. [6]

[mmlu_paper-1] 1.0 ^1.1 ^1.2 ^1.3 Hendrycks, D. et al. «Measuring Massive Multitask Language Understanding». arXiv:2009.03300, 2021. [1]

[mmlu_wiki-2] 2.0 ^2.1 «MMLU». In Wikipedia. [2]

[new_savanna_2024-3] 3.0 ^3.1 ^3.2 ^3.3 «NEW SAVANNA: The AI industry lacks useful ways of measuring performance». New Savanna Blog, 2024. [3]

[done_with_mmlu_2024-4] 4.0 ^4.1 ^4.2 Gema, A. P. et al. «Are We Done with MMLU?». arXiv:2406.04127, 2024. [4]

[mmlu_pro_vals_ai-5] «MMLU Pro». Vals.ai, 2025. [5]

[mmmlu_hf-6] «openai/MMMLU». Hugging Face Datasets. [6]

[1]

[2]

[3]

[4]

[5]

[6]

MMLU Benchmark (PT)

Contents

Descrição e conteúdo

Resultados e desenvolvimento

Limitações e críticas

Qualidade e correção dos dados

Metodologia de avaliação e vazamento de dados

Versões derivadas e extensões

Links

Literatura

Notas

Navigation menu

MMLU Benchmark (PT)

Descrição e conteúdo

Resultados e desenvolvimento

Limitações e críticas

Qualidade e correção dos dados

Metodologia de avaliação e vazamento de dados

Versões derivadas e extensões

Links

Literatura

Notas

Navigation menu

Search