Avaliação de LLMs

From Systems analysis wiki
Jump to navigation Jump to search

Avaliação de grandes modelos de linguagem (LLMs) — é uma disciplina no campo da inteligência artificial que fornece métodos padronizados para medir as capacidades, limitações e riscos dos modelos de linguagem[1]. À medida que os LLMs são integrados em áreas cruciais como saúde e finanças, sua avaliação objetiva torna-se essencial para garantir segurança, confiabilidade e equidade[2].

A avaliação de LLMs desempenha várias funções fundamentais:

  • Medição de capacidades: Comparação objetiva do desempenho de diferentes modelos em tarefas padronizadas.
  • Acompanhamento do progresso: Registro de avanços e identificação de áreas que necessitam de melhorias adicionais.
  • Minimização de riscos: Identificação de resultados potencialmente prejudiciais, como vieses, alucinações e problemas de segurança.
  • Informar desenvolvedores e usuários: Fornecimento de informações transparentes para a escolha do modelo mais adequado para uma aplicação específica.


Principais abordagens e metodologias

A avaliação moderna de LLMs começou com o surgimento de benchmarks abrangentes, como o GLUE (General Language Understanding Evaluation), que estabeleceu o padrão para avaliar a compreensão geral da linguagem[3]. À medida que os modelos começaram a superar os resultados humanos no GLUE, sucessores mais complexos foram desenvolvidos, como o SuperGLUE[4].

Uma mudança fundamental ocorreu com a introdução de benchmarks multitarefa, como o MMLU e o BIG-bench, que testam os modelos em uma ampla gama de conhecimentos e habilidades de raciocínio, indo além de tarefas puramente linguísticas[1].

Métricas e benchmarks chave

Métricas automáticas

  • Perplexidade (Perplexity): Uma métrica fundamental que mede quão bem um modelo prevê um texto. Uma perplexidade mais baixa indica maior confiança do modelo em suas previsões.
  • BLEU e ROUGE: Métricas baseadas em n-gramas que medem a sobreposição lexical entre o texto gerado e o de referência. O BLEU foca na precisão, enquanto o ROUGE foca na completude (recall)[2].
  • BERTScore: Métrica semântica que utiliza embeddings do BERT para calcular a similaridade semântica. Ela é capaz de capturar sinonímia e paráfrase, tornando-a mais precisa do que as métricas baseadas em n-gramas[5].

Benchmarks especializados

Para avaliar capacidades específicas, foram desenvolvidos benchmarks direcionados:

  • Geração de código: O HumanEval avalia a capacidade do modelo de gerar código de programação correto a partir de uma descrição em texto, verificando sua funcionalidade por meio de testes unitários[6].
  • Senso comum: O HellaSwag testa a compreensão do modelo sobre o mundo físico e as relações de causa e efeito, através da previsão do final mais provável para uma situação cotidiana[7].
  • Conhecimento acadêmico: O MMLU (Massive Multitask Language Understanding) abrange 57 disciplinas, desde matemática elementar até direito e medicina, testando a amplitude do conhecimento do modelo[8].
  • Fronteiras das capacidades: O BIG-bench (Beyond the Imitation Game) é um projeto colaborativo que reúne 204 tarefas projetadas para identificar habilidades emergentes — capacidades que surgem subitamente quando um modelo atinge escalas críticas[9].

Avaliação de segurança e aspectos éticos

  • Vieses: Para avaliar preconceitos sociais e demográficos, são utilizados datasets como o BBQ (Bias Benchmark for Question Answering) e o BOLD (Bias in Open-ended Language generation Dataset).
  • Toxicidade: Benchmarks como o RealToxicityPrompts fornecem prompts que provocam a geração de conteúdo tóxico, para avaliar a resiliência do modelo.
  • Robustez: É avaliada por meio de ataques adversariais. O framework PromptRobust oferece um conjunto abrangente de prompts para testar a robustez do modelo nos níveis de caractere, palavra e frase.

Padrões e frameworks modernos

  • HELM (Holistic Evaluation of Language Models): Uma iniciativa da Universidade de Stanford que propõe uma metodologia "holística". O HELM avalia modelos em múltiplas dimensões: precisão, robustez, justiça, viés, toxicidade e eficiência[10].
  • ISO/IEC 42001:2023: O primeiro padrão internacional para sistemas de gestão de IA, estabelecendo requisitos para a governança da IA ao longo de todo o seu ciclo de vida.
  • Regulamento da UE 2024/1689 (EU AI Act): A primeira regulamentação abrangente de IA, que exige avaliações padronizadas para modelos de propósito geral com riscos sistêmicos.
  • NIST AI Risk Management Framework 1.0: Um framework voluntário para o desenvolvimento e implantação de IA confiável, desenvolvido pelo Instituto Nacional de Padrões e Tecnologia (NIST) dos EUA.

Problemas e limitações dos métodos existentes

  • Saturação de benchmarks: Muitos modelos atingem pontuações quase perfeitas em benchmarks populares, levando ao fenômeno de "perseguição de benchmarks" (benchmark chasing), onde os modelos são otimizados para testes específicos em vez de capacidades gerais.
  • Contaminação de dados: Um problema crítico onde os dados de teste de um benchmark são acidentalmente incluídos no conjunto de treinamento, resultando em resultados de avaliação inflacionados e desonestos.
  • Baixa correlação com o julgamento humano: Métricas automáticas, como BLEU e ROUGE, frequentemente apresentam baixa correlação com a avaliação humana de qualidade, especialmente em tarefas criativas e de formato aberto.

Pesquisas e tendências atuais

  • Paradigma LLM-as-a-Judge: O uso de LLMs poderosos (por exemplo, GPT-4) como "juízes" para avaliar as respostas de outros modelos. Essa abordagem oferece uma alternativa escalável à dispendiosa avaliação humana.
  • Avaliação dinâmica e adaptativa: Plataformas como a LMArena apresentam um sistema de crowdsourcing com classificações Elo para avaliação de modelos em tempo real, com base na interação ao vivo com os usuários.
  • Abordagens híbridas: A combinação de métricas automatizadas com o julgamento humano e a avaliação por LLMs para obter uma visão mais completa e confiável do desempenho do modelo.

O cenário da avaliação de LLMs continua a evoluir, caminhando para a criação de frameworks multidimensionais, padronizados e reproduzíveis que consideram não apenas a precisão, mas também os aspectos sociais e éticos da aplicação de tecnologias de IA[1].

  • Stanford HELM — site oficial do projeto Holistic Evaluation of Language Models.
  • Chatbot Arena — plataforma para avaliação comparativa de chatbots com base nas preferências humanas.

Literatura

  • Wang, A. et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv:1804.07461.
  • Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
  • Wang, A. et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. arXiv:1905.00537.
  • Zellers, R. et al. (2019). HellaSwag: Can a Machine Really Finish Your Sentence?. arXiv:1905.07830.
  • Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
  • Gehman, S. et al. (2020). RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. arXiv:2009.11462.
  • Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
  • Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
  • Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
  • Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
  • Bommasani, R. et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Zhuang, Y. et al. (2023). Through the Lens of Core Competency: Survey on Evaluation of Large Language Models. ACL Anthology:2023.ccl-2.8.
  • Zhu, K. et al. (2023). PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts. arXiv:2306.04528.

Referências

  1. 1.0 1.1 1.2 Chang, Y., et al. (2023). «A Survey on Evaluation of Large Language Models». arXiv. [1]
  2. 2.0 2.1 Zhuang, Y., et al. (2023). «Through the Lens of Core Competency: Survey on Evaluation of Large Language Models». ACL Anthology. [2]
  3. Wang, A., et al. (2018). «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv.[3]
  4. Kumar, Pradosh. «Understanding Benchmarking in NLP: GLUE, SuperGLUE, HELM, MMLU, and BIG-Bench». Medium.
  5. Zhang, T., et al. (2019). «BERTScore: Evaluating Text Generation with BERT». arXiv.
  6. Chen, M., et al. (2021). «Evaluating Large Language Models Trained on Code». arXiv.
  7. Zellers, R., et al. (2019). «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv.
  8. Hendrycks, D., et al. (2020). «Measuring Massive Multitask Language Understanding». arXiv.
  9. Srivastava, A., et al. (2022). «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv.
  10. Bommasani, R., et al. (2022). «Holistic Evaluation of Language Models». arXiv. [4]