Бенчмарки LLM

Бенчмарки больших языковых моделей — это стандартизированные наборы тестов, предназначенные для измерения, сравнения и оценки качества и возможностей больших языковых моделей (LLM)^[1]. Обычно каждый бенчмарк представляет собой фиксированный набор задач (например, вопросы, тексты или инструкции), для которых заранее известны правильные ответы или критерии оценки. Такой подход обеспечивает объективное сравнение разных моделей в одинаковых условиях, позволяя отслеживать прогресс в области и выявлять сильные и слабые стороны моделей^[2].

Регулярное использование бенчмарков играет ключевую роль в развитии LLM, стимулируя разработчиков улучшать модели и обеспечивая прозрачность и сопоставимость результатов в научном сообществе. Эволюция бенчмарков отражает развитие самих LLM: от простых задач на понимание языка до комплексных тестов, проверяющих многошаговые рассуждения, здравый смысл, этику и безопасность^[3].

Основные категории и примеры

Бенчмарки LLM охватывают разнообразные навыки и области применения. Ниже рассмотрены основные категории и наиболее известные наборы задач в каждой из них.

Общее языковое понимание

Эта категория оценивает базовые способности модели к пониманию и интерпретации естественного языка.

GLUE (General Language Understanding Evaluation, 2019) — один из первых комплексных бенчмарков, включающий ряд разноплановых задач: от определения тональности до оценки логической связности текста. Результаты по всем заданиям агрегируются в единый балл, что позволило сравнивать ранние модели по их суммарной эффективности^[4].
SuperGLUE (2019) — «усиленный» преемник GLUE, разработанный в ответ на то, что модели быстро достигли на нём уровня, близкого к человеческому. SuperGLUE включает более трудные задачи, требующие глубокого понимания контекста и умения делать выводы^[5].
WinoGrande (2019) — расширенный вариант викторины Winograd Schema. Содержит 44 тысячи заданий на разрешение неоднозначных местоимений в предложениях, требующих здравого смысла для выбора правильной интерпретации^[6].

Мультизадачные и комплексные бенчмарки

Эти наборы проверяют модели на широком спектре знаний и умений, выходя за рамки чисто лингвистических задач.

MMLU (Massive Multitask Language Understanding, 2020) — сборник задач в виде викторины, охватывающий 57 предметных областей: от школьных дисциплин до узкоспециализированных профессиональных знаний (юриспруденция, медицина). MMLU измеряет широту эрудиции модели^[7].
BIG-bench (Beyond the Imitation Game Benchmark, 2022) — крупнейший на момент создания коллаборативный бенчмарк, разработанный более чем 400 авторами. Он включает свыше 200 задач на самые разные темы, от лингвистики до физики, чтобы проверить модели за пределами шаблонного соответствия и выявить их границы в нестандартных ситуациях^[8].

Здравый смысл и правдивость

Эти бенчмарки оценивают способность модели делать логичные выводы о повседневных ситуациях и избегать распространения ложной информации.

HellaSwag (2019) — проверяет здравый смысл через задачу выбора наиболее правдоподобного завершения для описания ситуации. Особенность бенчмарка — наличие «ловушек»: неправильные ответы сгенерированы автоматически и выглядят очень правдоподобно, что требует от модели глубокого понимания контекста^[9].
TruthfulQA (2021) — измеряет склонность модели распространять популярные мифы и заблуждения. Содержит вопросы, где распространённый в интернете ответ является неверным (например, «Вызывают ли вакцины аутизм?»). От модели требуется не поддаться ложным стереотипам и дать фактически корректный ответ^[10].

Математические задачи

GSM8K (2021) — включает тысячи текстовых задач по математике уровня начальной школы. Каждая задача требует выполнения последовательности из 2–8 арифметических шагов для получения ответа, что проверяет способность модели к многошаговым рассуждениям^[11].
MATH (2021) — более сложный набор, состоящий из задач с математических олимпиад и конкурсов. Он включает разделы алгебры, геометрии и теории чисел, требуя от модели владения нетривиальными методами решения^[12].

Генерация программного кода

HumanEval (2021) — стандартный тест для оценки способности LLM писать код. Содержит 164 задачи по программированию, где модель должна сгенерировать корректный код на Python по заданному описанию. Правильность оценивается с помощью юнит-тестов^[13].
SWE-bench (2023) — более реалистичный бенчмарк, собирающий описания реальных проблем (issues) с GitHub. Модель должна сгенерировать патч (фрагмент кода), устраняющий проблему. Это требует понимания большого объёма чужого кода и сложного пошагового рассуждения^[14].

Оценка диалоговых моделей

Chatbot Arena (2024) — открытая онлайн-платформа, где две анонимные модели участвуют в парном диалоге с пользователем. После диалога пользователь голосует, чей ответ был лучше. На основе тысяч таких «дуэлей» формируется рейтинг Эло предпочтений пользователей, который отражает качество моделей в живом общении^[15].
MT-Bench (2023) — автоматизированный бенчмарк для стресс-тестирования диалоговых умений. Он содержит 80 пар вопросов, имитирующих многоходовой диалог. Ответы моделей оцениваются другой, более мощной LLM («LLM-as-a-judge», например GPT-4) по заранее заданной шкале^[16].

Безопасность и надёжность

AgentHarm (2024) — бенчмарк, оценивающий склонность LLM-агентов выполнять опасные инструкции. Он включает 110 сценариев, представляющих злонамеренные задачи (от мошенничества до киберпреступлений). Хорошая модель должна отказывать в выполнении таких запросов^[17].
SafetyBench (2023) — широкий набор из более чем 11 тысяч вопросов, проверяющих, насколько последовательно модель избегает генерации неприемлемого контента и вредных советов, в том числе на провокационные запросы^[18].

Ограничения и актуальные проблемы

Контаминация данных: Главная угроза достоверности оценки — утечка тестовых данных в обучающие наборы. Модель может просто запомнить ответы, что искусственно завышает её результат^[2].
Насыщение бенчмарков: По мере развития моделей их производительность на старых бенчмарках (как GLUE) достигает потолка, и тест перестаёт быть полезным для различения новых, более мощных моделей. Это требует постоянной разработки более сложных эталонов^[2].
Разрыв с реальностью: Высокие результаты на бенчмарках не всегда гарантируют надёжную работу модели в реальных, неструктурированных сценариях. Реальная среда часто богаче и непредсказуемее любого фиксированного набора задач^[1].

Ссылки

Open LLM Leaderboard — открытый рейтинг моделей от сообщества Hugging Face
Chatbot Arena Leaderboard — рейтинг чат-моделей на основе человеческих предпочтений

Примечания

↑ ^1,0 ^1,1 «What Are LLM Benchmarks?». IBM. [1]
↑ ^2,0 ^2,1 ^2,2 «20 LLM evaluation benchmarks and how they work». Evidently AI. [2]
↑ «Самые популярные LLM бенчмарки». Хабр. [3]
↑ Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv. [4]
↑ Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». arXiv. [5]
↑ Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv. [6]
↑ Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. «Measuring Massive Multitask Language Understanding». arXiv. [7]
↑ Srivastava, Aarohi; et al. «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv. [8]
↑ Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv. [9]
↑ Lin, Stephanie; Hilton, Jacob; Evans, Owain. «TruthfulQA: Measuring How Models Mimic Human Falsehoods». arXiv. [10]
↑ Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. «Training Verifiers to Solve Math Word Problems». arXiv. [11]
↑ Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv. [12]
↑ Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. «Evaluating Large Language Models Trained on Code». arXiv. [13]
↑ Jimenez, Carlos E.; et al. «SWE-bench: Can Language Models Resolve Real-World GitHub Issues?». arXiv. [14]
↑ Chiang, Wei-Lin; et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences». lmsys.org. [15]
↑ Zheng, Lianmin; et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv. [16]
↑ Andriushchenko, Maksym; et al. «AgentHarm: A Benchmark for Asessing Agentic AI Harm». arXiv. [17]
↑ Zhang, Zhexin; et al. «SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models». arXiv. [18]

[ibm-benchmarks-1] 1,0 ^1,1 «What Are LLM Benchmarks?». IBM. [1]

[evidently-guide-2] 2,0 ^2,1 ^2,2 «20 LLM evaluation benchmarks and how they work». Evidently AI. [2]

[habr-popular-llm-3] «Самые популярные LLM бенчмарки». Хабр. [3]

[wang2019glue-4] Wang, Alex; Singh, Amanpreet; Michael, Julian; et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv. [4]

[wang2019superglue-5] Wang, Alex; Pruksachatkun, Yada; Nangia, Nikita; et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». arXiv. [5]

[sakaguchi2019-6] Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv. [6]

[hendrycks2020mmlu-7] Hendrycks, Dan; Burns, Collin; Basart, Steven; et al. «Measuring Massive Multitask Language Understanding». arXiv. [7]

[srivastava2022bigbench-8] Srivastava, Aarohi; et al. «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv. [8]

[zellers2019hellaswag-9] Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv. [9]

[lin2021truthfulqa-10] Lin, Stephanie; Hilton, Jacob; Evans, Owain. «TruthfulQA: Measuring How Models Mimic Human Falsehoods». arXiv. [10]

[cobbe2021gsm8k-11] Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; et al. «Training Verifiers to Solve Math Word Problems». arXiv. [11]

[hendrycks2021math-12] Hendrycks, Dan; Burns, Collin; Saund, Saurav; et al. «Measuring Mathematical Problem Solving With the MATH Dataset». arXiv. [12]

[chen2021humaneval-13] Chen, Mark; Tworek, Jerry; Jun, Heewoo; et al. «Evaluating Large Language Models Trained on Code». arXiv. [13]

[jimenez2023swebench-14] Jimenez, Carlos E.; et al. «SWE-bench: Can Language Models Resolve Real-World GitHub Issues?». arXiv. [14]

[chiang2024chatbot-15] Chiang, Wei-Lin; et al. «Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preferences». lmsys.org. [15]

[zheng2023mtbench-16] Zheng, Lianmin; et al. «Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena». arXiv. [16]

[andriushchenko2024agentharm-17] Andriushchenko, Maksym; et al. «AgentHarm: A Benchmark for Asessing Agentic AI Harm». arXiv. [17]

[zhang2023safetybench-18] Zhang, Zhexin; et al. «SafetyBench: A Comprehensive Benchmark for Evaluating the Safety of Large Language Models». arXiv. [18]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

Бенчмарки LLM

Содержание

Основные категории и примеры

Общее языковое понимание

Мультизадачные и комплексные бенчмарки

Здравый смысл и правдивость

Математические задачи

Генерация программного кода

Оценка диалоговых моделей

Безопасность и надёжность

Ограничения и актуальные проблемы

Ссылки

Примечания

Навигация

Бенчмарки LLM

Основные категории и примеры

Общее языковое понимание

Мультизадачные и комплексные бенчмарки

Здравый смысл и правдивость

Математические задачи

Генерация программного кода

Оценка диалоговых моделей

Безопасность и надёжность

Ограничения и актуальные проблемы

Ссылки

Примечания

Навигация

Поиск