Métricas de Qualidade de LLMs

From Systems analysis wiki
Jump to navigation Jump to search

Métricas de qualidade de modelos de linguagem grandes (LLMs) — são uma abordagem sistemática e um conjunto de ferramentas padronizadas para medir vários aspectos do desempenho de modelos de linguagem, incluindo precisão, segurança, justiça e confiabilidade[1]. À medida que os LLMs encontram aplicação cada vez mais ampla em áreas críticas como saúde, finanças e educação, surge uma necessidade urgente de sua avaliação abrangente e objetiva[2].

Métricas e benchmarks servem a várias funções-chave: eles permitem a comparação objetiva de diferentes modelos, o acompanhamento do progresso em seu desenvolvimento, a identificação de pontos fracos e a garantia de transparência dos resultados para pesquisadores e profissionais[1].

Categorias de métricas

As métricas para avaliação de LLMs podem ser divididas em várias categorias principais: métricas automáticas, avaliação com participação humana e métricas especializadas para avaliação de segurança e confiabilidade.

Métricas automáticas

Essas métricas permitem uma avaliação rápida e escalável sem a participação humana.

Métricas baseadas em n-gramas

Métricas tradicionais que medem a sobreposição lexical entre o texto gerado e o texto de referência.

  • BLEU (Bilingual Evaluation Understudy): Originalmente desenvolvida para avaliar a qualidade da tradução automática. Mede a precisão da correspondência de n-gramas (sequências de n palavras) e aplica uma penalidade para textos gerados muito curtos[3].
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Foca na revocação (recall), medindo quão bem os n-gramas do texto de referência estão representados no texto gerado. É especialmente eficaz para avaliar tarefas de sumarização[3].
  • METEOR: Expande as capacidades do BLEU, considerando sinônimos, palavras com a mesma raiz e variantes morfológicas, o que permite alcançar uma melhor correlação com as avaliações humanas[3].

Métricas semânticas

Essas métricas usam embeddings contextuais para avaliar a proximidade semântica, em vez de apenas a correspondência lexical.

  • BERTScore: Calcula a similaridade semântica entre os tokens dos textos gerado e de referência, utilizando embeddings do modelo BERT. Isso permite reconhecer a equivalência semântica mesmo com formulações diferentes[4].
  • MAUVE: Mede a divergência entre as distribuições do texto gerado por máquina e do texto humano no espaço de embeddings. É especialmente eficaz para avaliar a geração de texto em formato aberto, onde não há um texto de referência fixo[5].

Métricas intrínsecas de modelagem de linguagem

  • Perplexidade (Perplexity): Uma métrica fundamental que mede quão bem um modelo de linguagem prevê uma sequência de texto. Ela reflete a incerteza do modelo ao prever o próximo token. Valores de perplexidade mais baixos indicam um melhor desempenho[6].
  • Acurácia e F1-score: Amplamente utilizadas em tarefas de classificação e sistemas de perguntas e respostas. O F1-score é a média harmônica entre precisão e revocação (recall), fornecendo uma avaliação equilibrada[6].

Avaliação com participação humana

A avaliação humana continua sendo o "padrão ouro", pois as métricas automáticas muitas vezes não conseguem capturar aspectos sutis de qualidade, como coerência, criatividade e relevância[7].

  • Avaliação direta: Especialistas ou trabalhadores de crowdsourcing avaliam a qualidade da geração de texto em uma escala predefinida (por exemplo, de 1 a 5) com base em critérios como fluência e coerência.
  • Avaliação comparativa: Os avaliadores são solicitados a comparar as saídas de dois ou mais modelos e escolher a melhor (comparação pareada) ou classificá-las da melhor para a pior.

As desvantagens da avaliação humana incluem o alto custo, a dificuldade de escalonamento e a subjetividade[7].

Avaliação com o uso de LLM (LLM-as-a-Judge)

Uma nova abordagem na qual um modelo de linguagem (geralmente mais poderoso) é usado para avaliar as respostas de outro. Por exemplo, o GPT-4 pode classificar as saídas de modelos com base em critérios definidos. Este método oferece uma alternativa escalável à avaliação humana, embora tenha seus próprios desafios, como a sensibilidade ao estilo dos prompts e um viés potencial[8].

Métricas e benchmarks especializados

Para avaliar aspectos específicos de desempenho e confiabilidade dos LLMs, são utilizadas métricas e benchmarks especializados.

Confiabilidade factual

Avalia a capacidade do modelo de gerar informações verdadeiras e evitar alucinações.

  • TruthfulQA: Um benchmark projetado especificamente para medir a tendência dos modelos de gerar respostas baseadas em mitos e equívocos comuns. Exige-se que o modelo forneça respostas factualmente corretas, em vez de apenas populares[9].

Segurança e ética

  • Avaliação de toxicidade: Mede a presença de conteúdo ofensivo ou prejudicial. Para isso, são utilizados classificadores e APIs especializados, como a Perspective API[9].
  • Avaliação de viés e justiça: Avalia se o modelo demonstra comportamento discriminatório em relação a diferentes grupos demográficos. Pesquisas mostram que os LLMs podem preservar e amplificar estereótipos sociais presentes nos dados de treinamento[10].
  • SafetyBench: Um benchmark abrangente para avaliação de segurança, que inclui testes de robustez contra ataques adversariais e a capacidade de evitar a geração de conteúdo prejudicial[11].

Benchmarks abrangentes

  • MMLU (Massive Multitask Language Understanding): Um dos benchmarks mais amplamente utilizados, incluindo questões de múltipla escolha em 57 áreas, desde matemática elementar até direito internacional. Ele avalia a amplitude e a profundidade do conhecimento do modelo[12].
  • BIG-bench (Beyond the Imitation Game): Contém mais de 204 tarefas projetadas para avaliar habilidades que vão além das capacidades dos modelos de linguagem padrão, incluindo tarefas que vão desde jogar xadrez até adivinhar emojis[12].

Desafios e limitações

  • Problema de correlação: Métricas automáticas tradicionais, como BLEU e ROUGE, frequentemente apresentam baixa correlação com as avaliações humanas, especialmente em tarefas criativas[13].
  • Contaminação de dados (Data Contamination): Existe o risco de que os dados de teste de um benchmark possam ter sido incluídos no conjunto de treinamento do modelo, o que leva a avaliações inflacionadas e não confiáveis[14].
  • Avaliação multilíngue: A maioria das métricas e benchmarks existentes foca no idioma inglês, o que limita sua aplicabilidade para avaliar as capacidades multilíngues dos LLMs[15].

Referências

  • Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
  • Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
  • Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
  • Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
  • Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
  • Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
  • Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
  • Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
  • Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
  • Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
  • Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
  • Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
  • Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.

Notas

  1. 1.0 1.1 "Métricas de Qualidade de LLMs". Perplexity AI.
  2. "Métricas de segurança especializadas". Perplexity AI.
  3. 3.0 3.1 3.2 "Métricas tradicionais de avaliação de texto". Perplexity AI.
  4. "Métricas semânticas". Perplexity AI.
  5. "Métricas baseadas em distribuições". Perplexity AI.
  6. 6.0 6.1 "Métricas intrínsecas". Perplexity AI.
  7. 7.0 7.1 "Avaliação com participação humana". Perplexity AI.
  8. "LLM-as-a-Judge". Perplexity AI.
  9. 9.0 9.1 "Métricas de segurança especializadas". Perplexity AI.
  10. "Viés e justiça". Perplexity AI.
  11. "Benchmarks de segurança". Perplexity AI.
  12. 12.0 12.1 "Avaliação abrangente". Perplexity AI.
  13. "Problemas de correlação". Perplexity AI.
  14. "Contaminação de dados". Perplexity AI.
  15. "Avaliação multilíngue". Perplexity AI.