Benchmarks de LLM (PT)

From Systems analysis wiki
Jump to navigation Jump to search

Benchmarks de modelos de linguagem grandes — são conjuntos de testes padronizados, projetados para medir, comparar e avaliar a qualidade e as capacidades dos modelos de linguagem grandes (LLMs)[1]. Normalmente, cada benchmark consiste em um conjunto fixo de tarefas (por exemplo, perguntas, textos ou instruções) para as quais as respostas corretas ou os critérios de avaliação são previamente conhecidos. Essa abordagem garante uma comparação objetiva de diferentes modelos sob as mesmas condições, permitindo acompanhar o progresso na área e identificar os pontos fortes e fracos dos modelos[2].

O uso regular de benchmarks desempenha um papel fundamental no desenvolvimento de LLMs, incentivando os desenvolvedores a aprimorar os modelos e garantindo transparência e comparabilidade dos resultados na comunidade científica. A evolução dos benchmarks reflete o desenvolvimento dos próprios LLMs: de tarefas simples de compreensão de linguagem a testes complexos que avaliam raciocínio em múltiplos passos, bom senso, ética e segurança[3].

Principais categorias e exemplos

Os benchmarks de LLM abrangem uma variedade de habilidades e áreas de aplicação. Abaixo, são consideradas as principais categorias e os conjuntos de tarefas mais conhecidos em cada uma delas.

Compreensão geral da linguagem

Esta categoria avalia as capacidades básicas do modelo para compreender e interpretar a linguagem natural.

  • GLUE (General Language Understanding Evaluation, 2019) — um dos primeiros benchmarks abrangentes, incluindo uma série de tarefas diversas: desde a determinação de sentimento até a avaliação da coerência lógica do texto. Os resultados de todas as tarefas são agregados em uma única pontuação, o que permitiu comparar os modelos iniciais por sua eficácia geral[4].
  • SuperGLUE (2019) — o sucessor "aprimorado" do GLUE, desenvolvido em resposta ao fato de que os modelos rapidamente atingiram um nível próximo ao humano nele. O SuperGLUE inclui tarefas mais difíceis que exigem uma compreensão profunda do contexto e a capacidade de fazer inferências[5].
  • WinoGrande (2019) — uma versão expandida do Winograd Schema Challenge. Contém 44 mil tarefas sobre a resolução de pronomes ambíguos em frases, que exigem bom senso para escolher a interpretação correta[6].

Benchmarks multitarefa e complexos

Esses conjuntos testam os modelos em uma ampla gama de conhecimentos e habilidades, indo além de tarefas puramente linguísticas.

  • MMLU (Massive Multitask Language Understanding, 2020) — uma coleção de tarefas em formato de questionário, abrangendo 57 áreas de conhecimento: de disciplinas escolares a conhecimentos profissionais altamente especializados (direito, medicina). O MMLU mede a amplitude da erudição de um modelo[7].
  • BIG-bench (Beyond the Imitation Game Benchmark, 2022) — o maior benchmark colaborativo no momento de sua criação, desenvolvido por mais de 400 autores. Ele inclui mais de 200 tarefas sobre os mais variados temas, da linguística à física, para testar os modelos além da correspondência de padrões e identificar seus limites em situações não convencionais[8].

Bom senso e veracidade

Esses benchmarks avaliam a capacidade do modelo de fazer inferências lógicas sobre situações cotidianas e evitar a disseminação de informações falsas.

  • HellaSwag (2019) — testa o bom senso por meio da tarefa de escolher a conclusão mais plausível para a descrição de uma situação. A particularidade do benchmark é a presença de "armadilhas": as respostas incorretas são geradas automaticamente e parecem muito plausíveis, o que exige do modelo uma compreensão profunda do contexto[9].
  • TruthfulQA (2021) — mede a tendência do modelo de propagar mitos e equívocos populares. Contém perguntas onde a resposta comum na internet é incorreta (por exemplo, "As vacinas causam autismo?"). O modelo é desafiado a não ceder a estereótipos falsos e a fornecer uma resposta factualmente correta[10].

Tarefas matemáticas

  • GSM8K (2021) — inclui milhares de problemas de matemática em formato de texto, de nível fundamental. Cada problema requer a execução de uma sequência de 2 a 8 passos aritméticos para obter a resposta, o que testa a capacidade do modelo para raciocínio em múltiplos passos[11].
  • MATH (2021) — um conjunto mais complexo, consistindo em problemas de olimpíadas e competições de matemática. Inclui seções de álgebra, geometria e teoria dos números, exigindo que o modelo domine métodos de resolução não triviais[12].

Geração de código de programação

  • HumanEval (2021) — o teste padrão para avaliar a capacidade de um LLM de escrever código. Contém 164 problemas de programação, nos quais o modelo deve gerar código Python correto a partir de uma descrição fornecida. A correção é avaliada por meio de testes unitários[13].
  • SWE-bench (2023) — um benchmark mais realista que coleta descrições de problemas reais (issues) do GitHub. O modelo deve gerar um patch (fragmento de código) que resolva o problema. Isso requer a compreensão de um grande volume de código de terceiros e um raciocínio complexo passo a passo[14].
  • Chatbot Arena (2024) — uma plataforma online aberta onde dois modelos anônimos participam de um diálogo em pares com um usuário. Após o diálogo, o usuário vota em qual resposta foi melhor. Com base em milhares desses "duelos", é formado um ranking Elo das preferências dos usuários, que reflete a qualidade dos modelos em conversas reais[15].
  • MT-Bench (2023) — um benchmark automatizado para testes de estresse das habilidades de diálogo. Contém 80 pares de perguntas que simulam um diálogo de múltiplos turnos. As respostas dos modelos são avaliadas por outro LLM mais poderoso ("LLM-as-a-judge", por exemplo, GPT-4) de acordo com uma escala pré-definida[16].

Segurança e confiabilidade

  • AgentHarm (2024) — um benchmark que avalia a propensão de agentes baseados em LLM a seguir instruções perigosas. Inclui 110 cenários que representam tarefas maliciosas (de fraude a crimes cibernéticos). Um bom modelo deve se recusar a executar tais solicitações[17].
  • SafetyBench (2023) — um vasto conjunto de mais de 11 mil perguntas que verificam o quão consistentemente o modelo evita gerar conteúdo inadequado e conselhos prejudiciais, inclusive em resposta a solicitações provocativas[18].

Limitações e problemas atuais

  • Contaminação de dados: A principal ameaça à validade da avaliação é o vazamento de dados de teste para os conjuntos de treinamento. O modelo pode simplesmente memorizar as respostas, o que infla artificialmente seu resultado[2].
  • Saturação de benchmarks: À medida que os modelos evoluem, seu desempenho em benchmarks mais antigos (como o GLUE) atinge um teto, e o teste deixa de ser útil para diferenciar modelos novos e mais poderosos. Isso exige o desenvolvimento contínuo de benchmarks mais complexos[2].
  • Distanciamento da realidade: Resultados elevados em benchmarks nem sempre garantem um desempenho confiável do modelo em cenários reais e não estruturados. O ambiente real é frequentemente mais rico e imprevisível do que qualquer conjunto fixo de tarefas[1].

Referências

  1. 1.0 1.1 «What Are LLM Benchmarks?». IBM. [1]
  2. 2.0 2.1 2.2 «20 LLM evaluation benchmarks and how they work». Evidently AI. [2]
  3. Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv. [4]
  4. Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». arXiv. [5]
  5. Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv. [6]
  6. Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. «Measuring Massive Multitask Language Understanding». arXiv. [7]
  7. Srivastava, Aarohi; et al. «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv. [8]
  8. Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv. [9]
  9. Lin, Stephanie; Hilton, Jacob; Evans, Owain. «TruthfulQA: Measuring How Models Mimic Human Falsehoods». arXiv. [10]
  10. Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. «Training Verifiers to Solve Math Word Problems». arXiv. [11]
  11. Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv. [12]
  12. Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. «Evaluating Large Language Models Trained on Code». arXiv. [13]
  13. Jimenez, Carlos E.; et al. «SWE-bench: Can Language Models Resolve Real-World GitHub Issues?». arXiv. [14]
  14. Chiang, Wei-Lin; et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences». lmsys.org. [15]
  15. Zheng, Lianmin; et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv. [16]
  16. Andriushchenko, Maksym; et al. «AgentHarm: A Benchmark for Asessing Agentic AI Harm». arXiv. [17]
  17. Zhang, Zhexin; et al. «SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models». arXiv. [18]