Métricas de Qualidade de LLMs
Métricas de qualidade de modelos de linguagem grandes (LLMs) — são uma abordagem sistemática e um conjunto de ferramentas padronizadas para medir vários aspectos do desempenho de modelos de linguagem, incluindo precisão, segurança, justiça e confiabilidade[1]. À medida que os LLMs encontram aplicação cada vez mais ampla em áreas críticas como saúde, finanças e educação, surge uma necessidade urgente de sua avaliação abrangente e objetiva[2].
Métricas e benchmarks servem a várias funções-chave: eles permitem a comparação objetiva de diferentes modelos, o acompanhamento do progresso em seu desenvolvimento, a identificação de pontos fracos e a garantia de transparência dos resultados para pesquisadores e profissionais[1].
Categorias de métricas
As métricas para avaliação de LLMs podem ser divididas em várias categorias principais: métricas automáticas, avaliação com participação humana e métricas especializadas para avaliação de segurança e confiabilidade.
Métricas automáticas
Essas métricas permitem uma avaliação rápida e escalável sem a participação humana.
Métricas baseadas em n-gramas
Métricas tradicionais que medem a sobreposição lexical entre o texto gerado e o texto de referência.
- BLEU (Bilingual Evaluation Understudy): Originalmente desenvolvida para avaliar a qualidade da tradução automática. Mede a precisão da correspondência de n-gramas (sequências de n palavras) e aplica uma penalidade para textos gerados muito curtos[3].
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Foca na revocação (recall), medindo quão bem os n-gramas do texto de referência estão representados no texto gerado. É especialmente eficaz para avaliar tarefas de sumarização[3].
- METEOR: Expande as capacidades do BLEU, considerando sinônimos, palavras com a mesma raiz e variantes morfológicas, o que permite alcançar uma melhor correlação com as avaliações humanas[3].
Métricas semânticas
Essas métricas usam embeddings contextuais para avaliar a proximidade semântica, em vez de apenas a correspondência lexical.
- BERTScore: Calcula a similaridade semântica entre os tokens dos textos gerado e de referência, utilizando embeddings do modelo BERT. Isso permite reconhecer a equivalência semântica mesmo com formulações diferentes[4].
- MAUVE: Mede a divergência entre as distribuições do texto gerado por máquina e do texto humano no espaço de embeddings. É especialmente eficaz para avaliar a geração de texto em formato aberto, onde não há um texto de referência fixo[5].
Métricas intrínsecas de modelagem de linguagem
- Perplexidade (Perplexity): Uma métrica fundamental que mede quão bem um modelo de linguagem prevê uma sequência de texto. Ela reflete a incerteza do modelo ao prever o próximo token. Valores de perplexidade mais baixos indicam um melhor desempenho[6].
- Acurácia e F1-score: Amplamente utilizadas em tarefas de classificação e sistemas de perguntas e respostas. O F1-score é a média harmônica entre precisão e revocação (recall), fornecendo uma avaliação equilibrada[6].
Avaliação com participação humana
A avaliação humana continua sendo o "padrão ouro", pois as métricas automáticas muitas vezes não conseguem capturar aspectos sutis de qualidade, como coerência, criatividade e relevância[7].
- Avaliação direta: Especialistas ou trabalhadores de crowdsourcing avaliam a qualidade da geração de texto em uma escala predefinida (por exemplo, de 1 a 5) com base em critérios como fluência e coerência.
- Avaliação comparativa: Os avaliadores são solicitados a comparar as saídas de dois ou mais modelos e escolher a melhor (comparação pareada) ou classificá-las da melhor para a pior.
As desvantagens da avaliação humana incluem o alto custo, a dificuldade de escalonamento e a subjetividade[7].
Avaliação com o uso de LLM (LLM-as-a-Judge)
Uma nova abordagem na qual um modelo de linguagem (geralmente mais poderoso) é usado para avaliar as respostas de outro. Por exemplo, o GPT-4 pode classificar as saídas de modelos com base em critérios definidos. Este método oferece uma alternativa escalável à avaliação humana, embora tenha seus próprios desafios, como a sensibilidade ao estilo dos prompts e um viés potencial[8].
Métricas e benchmarks especializados
Para avaliar aspectos específicos de desempenho e confiabilidade dos LLMs, são utilizadas métricas e benchmarks especializados.
Confiabilidade factual
Avalia a capacidade do modelo de gerar informações verdadeiras e evitar alucinações.
- TruthfulQA: Um benchmark projetado especificamente para medir a tendência dos modelos de gerar respostas baseadas em mitos e equívocos comuns. Exige-se que o modelo forneça respostas factualmente corretas, em vez de apenas populares[9].
Segurança e ética
- Avaliação de toxicidade: Mede a presença de conteúdo ofensivo ou prejudicial. Para isso, são utilizados classificadores e APIs especializados, como a Perspective API[9].
- Avaliação de viés e justiça: Avalia se o modelo demonstra comportamento discriminatório em relação a diferentes grupos demográficos. Pesquisas mostram que os LLMs podem preservar e amplificar estereótipos sociais presentes nos dados de treinamento[10].
- SafetyBench: Um benchmark abrangente para avaliação de segurança, que inclui testes de robustez contra ataques adversariais e a capacidade de evitar a geração de conteúdo prejudicial[11].
Benchmarks abrangentes
- MMLU (Massive Multitask Language Understanding): Um dos benchmarks mais amplamente utilizados, incluindo questões de múltipla escolha em 57 áreas, desde matemática elementar até direito internacional. Ele avalia a amplitude e a profundidade do conhecimento do modelo[12].
- BIG-bench (Beyond the Imitation Game): Contém mais de 204 tarefas projetadas para avaliar habilidades que vão além das capacidades dos modelos de linguagem padrão, incluindo tarefas que vão desde jogar xadrez até adivinhar emojis[12].
Desafios e limitações
- Problema de correlação: Métricas automáticas tradicionais, como BLEU e ROUGE, frequentemente apresentam baixa correlação com as avaliações humanas, especialmente em tarefas criativas[13].
- Contaminação de dados (Data Contamination): Existe o risco de que os dados de teste de um benchmark possam ter sido incluídos no conjunto de treinamento do modelo, o que leva a avaliações inflacionadas e não confiáveis[14].
- Avaliação multilíngue: A maioria das métricas e benchmarks existentes foca no idioma inglês, o que limita sua aplicabilidade para avaliar as capacidades multilíngues dos LLMs[15].
Links
- What Are LLM Benchmarks? — artigo de visão geral da IBM
- 20 LLM evaluation benchmarks and how they work — guia de benchmarks da Evidently AI
Referências
- Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
- Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
- Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
- Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
- Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
- Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
- Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
- Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
- Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
- Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
- Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
- Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
- Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.
Notas
- ↑ 1.0 1.1 "Métricas de Qualidade de LLMs". Perplexity AI.
- ↑ "Métricas de segurança especializadas". Perplexity AI.
- ↑ 3.0 3.1 3.2 "Métricas tradicionais de avaliação de texto". Perplexity AI.
- ↑ "Métricas semânticas". Perplexity AI.
- ↑ "Métricas baseadas em distribuições". Perplexity AI.
- ↑ 6.0 6.1 "Métricas intrínsecas". Perplexity AI.
- ↑ 7.0 7.1 "Avaliação com participação humana". Perplexity AI.
- ↑ "LLM-as-a-Judge". Perplexity AI.
- ↑ 9.0 9.1 "Métricas de segurança especializadas". Perplexity AI.
- ↑ "Viés e justiça". Perplexity AI.
- ↑ "Benchmarks de segurança". Perplexity AI.
- ↑ 12.0 12.1 "Avaliação abrangente". Perplexity AI.
- ↑ "Problemas de correlação". Perplexity AI.
- ↑ "Contaminação de dados". Perplexity AI.
- ↑ "Avaliação multilíngue". Perplexity AI.