Métricas de calidad de los LLM
Las métricas de calidad de los modelos de lenguaje grandes (LLM) son un enfoque sistemático y un conjunto de herramientas estandarizadas para medir diversos aspectos del rendimiento de los modelos de lenguaje, incluyendo la precisión, seguridad, equidad y fiabilidad[1]. A medida que los LLM se utilizan cada vez más en áreas críticas como la atención médica, las finanzas y la educación, surge una necesidad apremiante de una evaluación integral y objetiva[2].
Las métricas y los benchmarks cumplen varias funciones clave: permiten comparar objetivamente diferentes modelos, seguir el progreso de su desarrollo, identificar debilidades y garantizar la transparencia de los resultados para investigadores y profesionales[1].
Categorías de métricas
Las métricas para la evaluación de los LLM se pueden dividir en varias categorías principales: métricas automáticas, evaluación humana y métricas especializadas para evaluar la seguridad y la fiabilidad.
Métricas automáticas
Estas métricas permiten una evaluación rápida y escalable sin la participación humana.
Métricas basadas en n-gramas
Son métricas tradicionales que miden la coincidencia léxica entre el texto generado y el texto de referencia.
- BLEU (Bilingual Evaluation Understudy): Desarrollada originalmente para evaluar la calidad de la traducción automática. Mide la precisión de la coincidencia de n-gramas (secuencias de n palabras) y aplica una penalización por textos generados demasiado cortos[3].
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): Se centra en la exhaustividad (recall), midiendo qué tan bien están representados los n-gramas del texto de referencia en el texto generado. Es especialmente eficaz para evaluar tareas de resumen[3].
- METEOR: Amplía las capacidades de BLEU al tener en cuenta sinónimos, palabras con la misma raíz y variantes morfológicas, lo que permite una mejor correlación con las evaluaciones humanas[3].
Métricas semánticas
Estas métricas utilizan embeddings contextuales para evaluar la proximidad semántica, no solo la coincidencia léxica.
- BERTScore: Calcula la similitud semántica entre los tokens de los textos generado y de referencia utilizando embeddings del modelo BERT. Esto permite reconocer la equivalencia semántica incluso con formulaciones diferentes[4].
- MAUVE: Mide la divergencia entre las distribuciones del texto generado por máquina y el texto humano en el espacio de embeddings. Es especialmente eficaz para evaluar la generación de texto abierta, donde no hay un texto de referencia fijo[5].
Métricas internas de modelado de lenguaje
- Perplejidad (Perplexity): Una métrica fundamental que mide qué tan bien un modelo de lenguaje predice una secuencia de texto. Refleja la incertidumbre del modelo al predecir el siguiente token. Valores más bajos de perplejidad indican un mejor rendimiento[6].
- Precisión y Puntuación F1: Ampliamente utilizadas en tareas de clasificación y sistemas de pregunta-respuesta. La Puntuación F1 es la media armónica de la precisión y la exhaustividad (recall), proporcionando una evaluación equilibrada[6].
Evaluación humana
La evaluación humana sigue siendo el «estándar de oro», ya que las métricas automáticas a menudo no logran capturar aspectos sutiles de la calidad, como la coherencia, la creatividad y la relevancia[7].
- Evaluación directa: Expertos o crowdsourcers evalúan la calidad de la generación en una escala predefinida (por ejemplo, de 1 a 5) según criterios como la fluidez y la coherencia.
- Evaluación comparativa: Se pide a los evaluadores que comparen los resultados de dos o más modelos y elijan el mejor (comparación por pares) o los clasifiquen de mejor a peor.
Las desventajas de la evaluación humana son su alto costo, la dificultad para escalar y la subjetividad[7].
Evaluación mediante LLM (LLM-as-a-Judge)
Un nuevo enfoque en el que un modelo de lenguaje (generalmente más potente) se utiliza para evaluar las respuestas de otro. Por ejemplo, GPT-4 puede clasificar los resultados de los modelos según criterios específicos. Este método ofrece una alternativa escalable a la evaluación humana, aunque presenta sus propios desafíos, como la sensibilidad al estilo de las consultas y posibles sesgos[8].
Métricas y benchmarks especializados
Para evaluar aspectos específicos del rendimiento y la fiabilidad de los LLM, se utilizan métricas y benchmarks especializados.
Fiabilidad factual
Evalúa la capacidad del modelo para generar información veraz y evitar las alucinaciones.
- TruthfulQA: Un benchmark diseñado específicamente para medir la tendencia de los modelos a generar respuestas basadas en mitos y conceptos erróneos comunes. Se requiere que el modelo proporcione respuestas fácticamente correctas, no simplemente populares[9].
Seguridad y ética
- Evaluación de toxicidad: Mide la presencia de contenido ofensivo o dañino. Para ello se utilizan clasificadores especializados y API, como la Perspective API[9].
- Evaluación de sesgos y equidad: Evalúa si el modelo muestra un comportamiento discriminatorio hacia diferentes grupos demográficos. Las investigaciones demuestran que los LLM pueden perpetuar y amplificar los estereotipos sociales presentes en los datos de entrenamiento[10].
- SafetyBench: Un benchmark integral para evaluar la seguridad, que incluye la prueba de robustez frente a ataques adversariales y la capacidad de evitar la generación de contenido dañino[11].
Benchmarks integrales
- MMLU (Massive Multitask Language Understanding): Uno de los benchmarks más utilizados, que incluye preguntas de opción múltiple sobre 57 materias, desde matemáticas elementales hasta derecho internacional. Evalúa la amplitud y profundidad de los conocimientos del modelo[12].
- BIG-bench (Beyond the Imitation Game): Contiene más de 204 tareas diseñadas para evaluar capacidades que van más allá de las de los modelos de lenguaje estándar, incluyendo desde jugar al ajedrez hasta adivinar emojis[12].
Desafíos y limitaciones
- Problema de correlación: Las métricas automáticas tradicionales, como BLEU y ROUGE, a menudo tienen una baja correlación con las evaluaciones humanas, especialmente en tareas creativas[13].
- Contaminación de datos (Data Contamination): Existe el riesgo de que los datos de prueba de un benchmark hayan sido incluidos en el conjunto de entrenamiento del modelo, lo que lleva a puntuaciones infladas y poco fiables[14].
- Evaluación multilingüe: La mayoría de las métricas y benchmarks existentes se centran en el inglés, lo que limita su aplicabilidad para evaluar las capacidades multilingües de los LLM[15].
Enlaces
- What Are LLM Benchmarks? — artículo de revisión de IBM
- 20 LLM evaluation benchmarks and how they work — guía de benchmarks de Evidently AI
Bibliografía
- Papineni, K. et al. (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. ACL:P02-1040.
- Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. ACL:W04-1013.
- Banerjee, S.; Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. ACL:W05-0909.
- Zhang, T. et al. (2019). BERTScore: Evaluating Text Generation with BERT. arXiv:1904.09675.
- Pillutla, K. et al. (2021). MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers. arXiv:2102.01454.
- Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958.
- Parrish, A. et al. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering. arXiv:2110.08193.
- Dhamala, J. et al. (2021). BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation. arXiv:2101.11718.
- Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
- Srivastava, A. et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. arXiv:2206.04615.
- Zhang, Z. et al. (2023). SafetyBench: Evaluating the Safety of Large Language Models. arXiv:2309.07045.
- Huang, H. et al. (2024). An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-Tuned Judge Model is not a General Substitute for GPT-4. arXiv:2403.02839.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Gu, J. et al. (2024). A Survey on LLM-as-a-Judge. arXiv:2411.15594.
- Li, S. et al. (2025). LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge. arXiv:2506.09443.
Notas
- ↑ 1.0 1.1 «Métricas de calidad de los LLM». Perplexity AI.
- ↑ «Métricas de seguridad especializadas». Perplexity AI.
- ↑ 3.0 3.1 3.2 «Métricas tradicionales para la evaluación de texto». Perplexity AI.
- ↑ «Métricas semánticas». Perplexity AI.
- ↑ «Métricas basadas en distribuciones». Perplexity AI.
- ↑ 6.0 6.1 «Métricas intrínsecas». Perplexity AI.
- ↑ 7.0 7.1 «Evaluación humana». Perplexity AI.
- ↑ «LLM-as-a-Judge». Perplexity AI.
- ↑ 9.0 9.1 «Métricas de seguridad especializadas». Perplexity AI.
- ↑ «Sesgo y equidad». Perplexity AI.
- ↑ «Benchmarks de seguridad». Perplexity AI.
- ↑ 12.0 12.1 «Evaluación integral». Perplexity AI.
- ↑ «Problemas de correlación». Perplexity AI.
- ↑ «Contaminación de datos». Perplexity AI.
- ↑ «Evaluación multilingüe». Perplexity AI.