Benchmarks de LLM (ES)

Los benchmarks para modelos grandes de lenguaje son conjuntos estandarizados de pruebas diseñadas para medir, comparar y evaluar la calidad y las capacidades de los modelos grandes de lenguaje (LLM)^[1]. Generalmente, cada benchmark consiste en un conjunto fijo de tareas (por ejemplo, preguntas, textos o instrucciones) para las cuales las respuestas correctas o los criterios de evaluación se conocen de antemano. Este enfoque garantiza una comparación objetiva de diferentes modelos en las mismas condiciones, lo que permite seguir el progreso en el campo e identificar las fortalezas y debilidades de los modelos^[2].

El uso regular de benchmarks juega un papel clave en el desarrollo de los LLM, incentivando a los desarrolladores a mejorar los modelos y asegurando la transparencia y comparabilidad de los resultados en la comunidad científica. La evolución de los benchmarks refleja el desarrollo de los propios LLM: desde tareas simples de comprensión del lenguaje hasta pruebas complejas que evalúan el razonamiento de varios pasos, el sentido común, la ética y la seguridad^[3].

Principales categorías y ejemplos

Los benchmarks de LLM abarcan una diversidad de habilidades y áreas de aplicación. A continuación se presentan las principales categorías y los conjuntos de tareas más conocidos en cada una de ellas.

Comprensión general del lenguaje

Esta categoría evalúa las capacidades básicas del modelo para comprender e interpretar el lenguaje natural.

GLUE (General Language Understanding Evaluation, 2019) — uno de los primeros benchmarks integrales, que incluye una serie de tareas diversas: desde la determinación del sentimiento hasta la evaluación de la coherencia lógica del texto. Los resultados de todas las tareas se agregan en una única puntuación, lo que permitió comparar los primeros modelos según su eficacia general^[4].
SuperGLUE (2019) — el sucesor «reforzado» de GLUE, desarrollado en respuesta a que los modelos alcanzaron rápidamente un nivel cercano al humano en él. SuperGLUE incluye tareas más difíciles que requieren una comprensión profunda del contexto y la capacidad de hacer inferencias^[5].
WinoGrande (2019) — una versión ampliada del desafío del Esquema de Winograd. Contiene 44,000 tareas sobre la resolución de pronombres ambiguos en oraciones, lo que requiere sentido común para elegir la interpretación correcta^[6].

Benchmarks multitarea y complejos

Estos conjuntos ponen a prueba los modelos en una amplia gama de conocimientos y habilidades, yendo más allá de las tareas puramente lingüísticas.

MMLU (Massive Multitask Language Understanding, 2020) — una colección de tareas en formato de cuestionario que abarca 57 áreas temáticas: desde disciplinas escolares hasta conocimientos profesionales altamente especializados (derecho, medicina). MMLU mide la amplitud de los conocimientos del modelo^[7].
BIG-bench (Beyond the Imitation Game Benchmark, 2022) — el benchmark colaborativo más grande en el momento de su creación, desarrollado por más de 400 autores. Incluye más de 200 tareas sobre una amplia variedad de temas, desde lingüística hasta física, para poner a prueba los modelos más allá de la correspondencia de patrones y descubrir sus límites en situaciones no estándar^[8].

Sentido común y veracidad

Estos benchmarks evalúan la capacidad del modelo para hacer inferencias lógicas sobre situaciones cotidianas y evitar la difusión de información falsa.

HellaSwag (2019) — evalúa el sentido común a través de la tarea de elegir la conclusión más plausible para una descripción de una situación. La característica de este benchmark es la presencia de «trampas»: las respuestas incorrectas se generan automáticamente y parecen muy plausibles, lo que requiere que el modelo tenga una comprensión profunda del contexto^[9].
TruthfulQA (2021) — mide la tendencia del modelo a difundir mitos y conceptos erróneos populares. Contiene preguntas donde la respuesta común en internet es incorrecta (por ejemplo, «¿Las vacunas causan autismo?»). Se requiere que el modelo no ceda a estereotipos falsos y proporcione una respuesta objetivamente correcta^[10].

Problemas matemáticos

GSM8K (2021) — incluye miles de problemas matemáticos de nivel de escuela primaria. Cada problema requiere una secuencia de 2 a 8 pasos aritméticos para llegar a la respuesta, lo que evalúa la capacidad del modelo para el razonamiento de varios pasos^[11].
MATH (2021) — un conjunto más complejo que consiste en problemas de olimpiadas y competiciones de matemáticas. Incluye secciones de álgebra, geometría y teoría de números, lo que requiere que el modelo domine métodos de resolución no triviales^[12].

Generación de código de software

HumanEval (2021) — una prueba estándar para evaluar la capacidad de un LLM para escribir código. Contiene 164 problemas de programación donde el modelo debe generar código Python correcto a partir de una descripción dada. La corrección se evalúa mediante pruebas unitarias^[13].
SWE-bench (2023) — un benchmark más realista que recopila descripciones de problemas reales (issues) de GitHub. El modelo debe generar un parche (fragmento de código) que solucione el problema. Esto requiere comprender una gran cantidad de código ajeno y un razonamiento complejo paso a paso^[14].

Evaluación de modelos de diálogo

Chatbot Arena (2024) — una plataforma en línea abierta donde dos modelos anónimos participan en un diálogo por parejas con un usuario. Después del diálogo, el usuario vota qué respuesta fue mejor. A partir de miles de estos «duelos», se forma una clasificación Elo de las preferencias de los usuarios, que refleja la calidad de los modelos en la interacción en vivo^[15].
MT-Bench (2023) — un benchmark automatizado para realizar pruebas de estrés a las habilidades de diálogo. Contiene 80 pares de preguntas que simulan un diálogo de varios turnos. Las respuestas de los modelos son evaluadas por otro LLM más potente («LLM-as-a-judge», por ejemplo, GPT-4) según una escala predefinida^[16].

Seguridad y fiabilidad

AgentHarm (2024) — un benchmark que evalúa la tendencia de los agentes LLM a seguir instrucciones peligrosas. Incluye 110 escenarios que representan tareas maliciosas (desde fraude hasta ciberdelitos). Un buen modelo debe negarse a ejecutar tales solicitudes^[17].
SafetyBench (2023) — un amplio conjunto de más de 11,000 preguntas que verifican la consistencia con la que un modelo evita generar contenido inapropiado y consejos dañinos, incluso en respuesta a solicitudes provocadoras^[18].

Limitaciones y problemas actuales

Contaminación de datos: La principal amenaza para la fiabilidad de la evaluación es la filtración de datos de prueba en los conjuntos de entrenamiento. El modelo puede simplemente memorizar las respuestas, lo que infla artificialmente su puntuación^[2].
Saturación de los benchmarks: A medida que los modelos evolucionan, su rendimiento en benchmarks más antiguos (como GLUE) alcanza un techo, y la prueba deja de ser útil para diferenciar modelos nuevos y más potentes. Esto requiere el desarrollo constante de benchmarks más complejos^[2].
Brecha con la realidad: Los altos resultados en los benchmarks no siempre garantizan un rendimiento fiable del modelo en escenarios reales y no estructurados. El entorno real suele ser más rico e impredecible que cualquier conjunto fijo de tareas^[1].

Enlaces

Open LLM Leaderboard — clasificación abierta de modelos de la comunidad de Hugging Face
Chatbot Arena Leaderboard — clasificación de modelos de chat basada en las preferencias humanas

Notas

↑ ^1.0 ^1.1 «What Are LLM Benchmarks?». IBM. [1]
↑ ^2.0 ^2.1 ^2.2 «20 LLM evaluation benchmarks and how they work». Evidently AI. [2]
↑ «Los benchmarks de LLM más populares». Habr. [3]
↑ Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv. [4]
↑ Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». arXiv. [5]
↑ Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv. [6]
↑ Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. «Measuring Massive Multitask Language Understanding». arXiv. [7]
↑ Srivastava, Aarohi; et al. «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv. [8]
↑ Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv. [9]
↑ Lin, Stephanie; Hilton, Jacob; Evans, Owain. «TruthfulQA: Measuring How Models Mimic Human Falsehoods». arXiv. [10]
↑ Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. «Training Verifiers to Solve Math Word Problems». arXiv. [11]
↑ Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv. [12]
↑ Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. «Evaluating Large Language Models Trained on Code». arXiv. [13]
↑ Jimenez, Carlos E.; et al. «SWE-bench: Can Language Models Resolve Real-World GitHub Issues?». arXiv. [14]
↑ Chiang, Wei-Lin; et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences». lmsys.org. [15]
↑ Zheng, Lianmin; et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv. [16]
↑ Andriushchenko, Maksym; et al. «AgentHarm: A Benchmark for Asessing Agentic AI Harm». arXiv. [17]
↑ Zhang, Zhexin; et al. «SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models». arXiv. [18]

[ibm-benchmarks-1] 1.0 ^1.1 «What Are LLM Benchmarks?». IBM. [1]

[evidently-guide-2] 2.0 ^2.1 ^2.2 «20 LLM evaluation benchmarks and how they work». Evidently AI. [2]

[habr-popular-llm-3] «Los benchmarks de LLM más populares». Habr. [3]

[wang2019glue-4] Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv. [4]

[wang2019superglue-5] Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». arXiv. [5]

[sakaguchi2019-6] Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv. [6]

[hendrycks2020mmlu-7] Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. «Measuring Massive Multitask Language Understanding». arXiv. [7]

[srivastava2022bigbench-8] Srivastava, Aarohi; et al. «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv. [8]

[zellers2019hellaswag-9] Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv. [9]

[lin2021truthfulqa-10] Lin, Stephanie; Hilton, Jacob; Evans, Owain. «TruthfulQA: Measuring How Models Mimic Human Falsehoods». arXiv. [10]

[cobbe2021gsm8k-11] Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. «Training Verifiers to Solve Math Word Problems». arXiv. [11]

[hendrycks2021math-12] Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv. [12]

[chen2021humaneval-13] Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. «Evaluating Large Language Models Trained on Code». arXiv. [13]

[jimenez2023swebench-14] Jimenez, Carlos E.; et al. «SWE-bench: Can Language Models Resolve Real-World GitHub Issues?». arXiv. [14]

[chiang2024chatbot-15] Chiang, Wei-Lin; et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences». lmsys.org. [15]

[zheng2023mtbench-16] Zheng, Lianmin; et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv. [16]

[andriushchenko2024agentharm-17] Andriushchenko, Maksym; et al. «AgentHarm: A Benchmark for Asessing Agentic AI Harm». arXiv. [17]

[zhang2023safetybench-18] Zhang, Zhexin; et al. «SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models». arXiv. [18]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

Benchmarks de LLM (ES)

Contents

Principales categorías y ejemplos

Comprensión general del lenguaje

Benchmarks multitarea y complejos

Sentido común y veracidad

Problemas matemáticos

Generación de código de software

Evaluación de modelos de diálogo

Seguridad y fiabilidad

Limitaciones y problemas actuales

Enlaces

Notas

Navigation menu

Benchmarks de LLM (ES)

Principales categorías y ejemplos

Comprensión general del lenguaje

Benchmarks multitarea y complejos

Sentido común y veracidad

Problemas matemáticos

Generación de código de software

Evaluación de modelos de diálogo

Seguridad y fiabilidad

Limitaciones y problemas actuales

Enlaces

Notas

Navigation menu

Search