Métricas de Qualidade de LLMs

Métricas de qualidade de modelos de linguagem grandes (LLMs) — são uma abordagem sistemática e um conjunto de ferramentas padronizadas para medir vários aspectos do desempenho de modelos de linguagem, incluindo precisão, segurança, justiça e confiabilidade^[1]. À medida que os LLMs encontram aplicação cada vez mais ampla em áreas críticas como saúde, finanças e educação, surge uma necessidade urgente de sua avaliação abrangente e objetiva^[2].

Métricas e benchmarks servem a várias funções-chave: eles permitem a comparação objetiva de diferentes modelos, o acompanhamento do progresso em seu desenvolvimento, a identificação de pontos fracos e a garantia de transparência dos resultados para pesquisadores e profissionais^[1].

Categorias de métricas

As métricas para avaliação de LLMs podem ser divididas em várias categorias principais: métricas automáticas, avaliação com participação humana e métricas especializadas para avaliação de segurança e confiabilidade.

Métricas automáticas

Essas métricas permitem uma avaliação rápida e escalável sem a participação humana.

Métricas baseadas em n-gramas

Métricas tradicionais que medem a sobreposição lexical entre o texto gerado e o texto de referência.

BLEU (Bilingual Evaluation Understudy): Originalmente desenvolvida para avaliar a qualidade da tradução automática. Mede a precisão da correspondência de n-gramas (sequências de n palavras) e aplica uma penalidade para textos gerados muito curtos^[3].
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Foca na revocação (recall), medindo quão bem os n-gramas do texto de referência estão representados no texto gerado. É especialmente eficaz para avaliar tarefas de sumarização^[3].
METEOR: Expande as capacidades do BLEU, considerando sinônimos, palavras com a mesma raiz e variantes morfológicas, o que permite alcançar uma melhor correlação com as avaliações humanas^[3].

Métricas semânticas

Essas métricas usam embeddings contextuais para avaliar a proximidade semântica, em vez de apenas a correspondência lexical.

BERTScore: Calcula a similaridade semântica entre os tokens dos textos gerado e de referência, utilizando embeddings do modelo BERT. Isso permite reconhecer a equivalência semântica mesmo com formulações diferentes^[4].
MAUVE: Mede a divergência entre as distribuições do texto gerado por máquina e do texto humano no espaço de embeddings. É especialmente eficaz para avaliar a geração de texto em formato aberto, onde não há um texto de referência fixo^[5].

Métricas intrínsecas de modelagem de linguagem

Perplexidade (Perplexity): Uma métrica fundamental que mede quão bem um modelo de linguagem prevê uma sequência de texto. Ela reflete a incerteza do modelo ao prever o próximo token. Valores de perplexidade mais baixos indicam um melhor desempenho^[6].
Acurácia e F1-score: Amplamente utilizadas em tarefas de classificação e sistemas de perguntas e respostas. O F1-score é a média harmônica entre precisão e revocação (recall), fornecendo uma avaliação equilibrada^[6].

Avaliação com participação humana

A avaliação humana continua sendo o "padrão ouro", pois as métricas automáticas muitas vezes não conseguem capturar aspectos sutis de qualidade, como coerência, criatividade e relevância^[7].

Avaliação direta: Especialistas ou trabalhadores de crowdsourcing avaliam a qualidade da geração de texto em uma escala predefinida (por exemplo, de 1 a 5) com base em critérios como fluência e coerência.
Avaliação comparativa: Os avaliadores são solicitados a comparar as saídas de dois ou mais modelos e escolher a melhor (comparação pareada) ou classificá-las da melhor para a pior.

As desvantagens da avaliação humana incluem o alto custo, a dificuldade de escalonamento e a subjetividade^[7].

Avaliação com o uso de LLM (LLM-as-a-Judge)

Uma nova abordagem na qual um modelo de linguagem (geralmente mais poderoso) é usado para avaliar as respostas de outro. Por exemplo, o GPT-4 pode classificar as saídas de modelos com base em critérios definidos. Este método oferece uma alternativa escalável à avaliação humana, embora tenha seus próprios desafios, como a sensibilidade ao estilo dos prompts e um viés potencial^[8].

Métricas e benchmarks especializados

Para avaliar aspectos específicos de desempenho e confiabilidade dos LLMs, são utilizadas métricas e benchmarks especializados.

Confiabilidade factual

Avalia a capacidade do modelo de gerar informações verdadeiras e evitar alucinações.

TruthfulQA: Um benchmark projetado especificamente para medir a tendência dos modelos de gerar respostas baseadas em mitos e equívocos comuns. Exige-se que o modelo forneça respostas factualmente corretas, em vez de apenas populares^[9].

Segurança e ética

Avaliação de toxicidade: Mede a presença de conteúdo ofensivo ou prejudicial. Para isso, são utilizados classificadores e APIs especializados, como a Perspective API^[9].
Avaliação de viés e justiça: Avalia se o modelo demonstra comportamento discriminatório em relação a diferentes grupos demográficos. Pesquisas mostram que os LLMs podem preservar e amplificar estereótipos sociais presentes nos dados de treinamento^[10].
SafetyBench: Um benchmark abrangente para avaliação de segurança, que inclui testes de robustez contra ataques adversariais e a capacidade de evitar a geração de conteúdo prejudicial^[11].

Benchmarks abrangentes

MMLU (Massive Multitask Language Understanding): Um dos benchmarks mais amplamente utilizados, incluindo questões de múltipla escolha em 57 áreas, desde matemática elementar até direito internacional. Ele avalia a amplitude e a profundidade do conhecimento do modelo^[12].
BIG-bench (Beyond the Imitation Game): Contém mais de 204 tarefas projetadas para avaliar habilidades que vão além das capacidades dos modelos de linguagem padrão, incluindo tarefas que vão desde jogar xadrez até adivinhar emojis^[12].

Desafios e limitações

Problema de correlação: Métricas automáticas tradicionais, como BLEU e ROUGE, frequentemente apresentam baixa correlação com as avaliações humanas, especialmente em tarefas criativas^[13].
Contaminação de dados (Data Contamination): Existe o risco de que os dados de teste de um benchmark possam ter sido incluídos no conjunto de treinamento do modelo, o que leva a avaliações inflacionadas e não confiáveis^[14].
Avaliação multilíngue: A maioria das métricas e benchmarks existentes foca no idioma inglês, o que limita sua aplicabilidade para avaliar as capacidades multilíngues dos LLMs^[15].

Links

What Are LLM Benchmarks? — artigo de visão geral da IBM
20 LLM evaluation benchmarks and how they work — guia de benchmarks da Evidently AI

Referências

Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.

Notas

↑ ^1.0 ^1.1 "Métricas de Qualidade de LLMs". Perplexity AI.
↑ "Métricas de segurança especializadas". Perplexity AI.
↑ ^3.0 ^3.1 ^3.2 "Métricas tradicionais de avaliação de texto". Perplexity AI.
↑ "Métricas semânticas". Perplexity AI.
↑ "Métricas baseadas em distribuições". Perplexity AI.
↑ ^6.0 ^6.1 "Métricas intrínsecas". Perplexity AI.
↑ ^7.0 ^7.1 "Avaliação com participação humana". Perplexity AI.
↑ "LLM-as-a-Judge". Perplexity AI.
↑ ^9.0 ^9.1 "Métricas de segurança especializadas". Perplexity AI.
↑ "Viés e justiça". Perplexity AI.
↑ "Benchmarks de segurança". Perplexity AI.
↑ ^12.0 ^12.1 "Avaliação abrangente". Perplexity AI.
↑ "Problemas de correlação". Perplexity AI.
↑ "Contaminação de dados". Perplexity AI.
↑ "Avaliação multilíngue". Perplexity AI.

[perplexity-overview-1] 1.0 ^1.1 "Métricas de Qualidade de LLMs". Perplexity AI.

[perplexity-security-2] "Métricas de segurança especializadas". Perplexity AI.

[ngram-metrics-3] 3.0 ^3.1 ^3.2 "Métricas tradicionais de avaliação de texto". Perplexity AI.

[semantic-metrics-4] "Métricas semânticas". Perplexity AI.

[distribution-metrics-5] "Métricas baseadas em distribuições". Perplexity AI.

[intrinsic-metrics-6] 6.0 ^6.1 "Métricas intrínsecas". Perplexity AI.

[human-eval-7] 7.0 ^7.1 "Avaliação com participação humana". Perplexity AI.

[llm-as-judge-8] "LLM-as-a-Judge". Perplexity AI.

[security-metrics-9] 9.0 ^9.1 "Métricas de segurança especializadas". Perplexity AI.

[bias-metrics-10] "Viés e justiça". Perplexity AI.

[safety-bench-11] "Benchmarks de segurança". Perplexity AI.

[comprehensive-benchmarks-12] 12.0 ^12.1 "Avaliação abrangente". Perplexity AI.

[challenges-correlation-13] "Problemas de correlação". Perplexity AI.

[challenges-contamination-14] "Contaminação de dados". Perplexity AI.

[challenges-multilingual-15] "Avaliação multilíngue". Perplexity AI.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Métricas de Qualidade de LLMs

Contents

Categorias de métricas

Métricas automáticas

Métricas baseadas em n-gramas

Métricas semânticas

Métricas intrínsecas de modelagem de linguagem

Avaliação com participação humana

Avaliação com o uso de LLM (LLM-as-a-Judge)

Métricas e benchmarks especializados

Confiabilidade factual

Segurança e ética

Benchmarks abrangentes

Desafios e limitações

Links

Referências

Notas

Navigation menu

Métricas de Qualidade de LLMs

Categorias de métricas

Métricas automáticas

Métricas baseadas em n-gramas

Métricas semânticas

Métricas intrínsecas de modelagem de linguagem

Avaliação com participação humana

Avaliação com o uso de LLM (LLM-as-a-Judge)

Métricas e benchmarks especializados

Confiabilidade factual

Segurança e ética

Benchmarks abrangentes

Desafios e limitações

Links

Referências

Notas

Navigation menu

Search