GLUE benchmark

GLUE (акроним от General Language Understanding Evaluation, «Общая оценка понимания языка») — это мультизадачный бенчмарк для оценки качества моделей обработки естественного языка (NLU). Бенчмарк был предложен в 2018 году группой исследователей из Нью-Йоркского университета, Университета Вашингтона и DeepMind, включая Алекса Вана и Сэмюэла Боумана, и получил широкое распространение в исследовательском сообществе^[1].

Основная цель GLUE — предоставить единый, нейтральный и сложный тестовый комплекс для сравнительной оценки возможностей NLU-моделей на разнообразном наборе задач, выходящих за рамки одной конкретной области. Бенчмарк включает онлайн-платформу с лидербордом (таблицей рекордов), которая обеспечивает объективное сравнение моделей и предотвращает подгонку под тестовые данные, так как истинные метки для части тестов не публикуются и доступны только через сервер оценки. Предполагается, что для достижения высоких результатов модель должна уметь извлекать универсальные языковые представления и эффективно переносить знания между различными типами задач.

Состав и задачи бенчмарка

Бенчмарк GLUE объединяет девять различных задач по пониманию языка, основанных на уже существующих и сложных для ИИ датасетах. Все задачи сформулированы как классификация или регрессия над одним предложением либо парой предложений^[1].

CoLA (Corpus of Linguistic Acceptability) — задача определения грамматической приемлемости предложения. Метрика качества — Коэффициент корреляции Мэтьюса.
SST-2 (Stanford Sentiment Treebank) — задача определения тональности (положительной/отрицательной) отзыва на фильм. Метрика — точность (accuracy).
MRPC (Microsoft Research Paraphrase Corpus) — задача выявления перефраз в паре предложений из новостных источников. Метрики — точность и F1-мера.
QQP (Quora Question Pairs) — задача определения дубликатов вопросов из сообщества Quora. Метрики — точность и F1-мера.
STS-B (Semantic Textual Similarity Benchmark) — задача семантического сопоставления двух предложений. Модель должна предсказать степень смысловой близости по шкале от 1 до 5. Метрики — коэффициент корреляции Пирсона и Спирмена.
MNLI (Multi-Genre Natural Language Inference) — задача распознавания текстового следствия на примере пар предложений из разножанровых источников (вывод, противоречие, нейтральность). Результаты оцениваются отдельно на совпадающем (matched) и несовпадающем (mismatched) поднаборах.
QNLI (Question Natural Language Inference) — задача, полученная преобразованием датасета SQuAD. Требуется определить, содержит ли предложение из абзаца ответ на заданный вопрос.
RTE (Recognizing Textual Entailment) — совокупный датасет по текстовому следствию, объединяющий несколько небольших коллекций. Задача — бинарно классифицировать отношение между предложениями.
WNLI (Winograd NLI) — модифицированная версия схемы Винограда, адаптированная под формат NLI. Задача на разрешение анафоры: системе даётся предложение с неоднозначным местоимением, и нужно указать, к какому из двух объектов оно относится.

Методика оценивания

Для оценки на GLUE исследователи отправляют предсказания своей модели на специальный сервер, после чего получают автоматический расчёт метрик по каждой задаче и сводный балл.

GLUE-score — итоговый показатель, который вычисляется как среднее значение результатов по всем девяти основным задачам.
Лидерборд — публичная таблица, которая отражает актуальное состояние дел и показывает, какие модели лучше справляются с NLU-задачами. Использование скрытых тестовых наборов обеспечивает честное сравнение.
Диагностический набор — специальный набор из 1100 примеров, вручную аннотированных экспертами для тонкого лингвистического анализа. Он не влияет на рейтинг, а служит инструментом качественного анализа для проверки, какие языковые феномены (лексическая семантика, логика, здравый смысл) модель умеет распознавать, а с какими у неё возникают трудности^[1].

Результаты и влияние на индустрию

При запуске GLUE в 2018 году лучшие на тот момент модели (например, BiLSTM с ELMo) достигали совокупного результата около 70 баллов (по шкале 0–100), что было существенно ниже человеческого уровня (около 87 баллов)^[2].

Появление GLUE и открытого лидерборда стимулировало бурный прогресс в области трансферного обучения в NLP.

К маю 2019 года, менее чем за год, новое поколение моделей, основанных на трансформерах (в первую очередь, BERT), подняло планку state-of-the-art до 83.9 баллов.
Во второй половине 2019 года бенчмарк GLUE был фактически «пройден»: лучшие системы вплотную приблизились к человеческому уровню, а на некоторых задачах даже превзошли его^[3].

GLUE сыграл огромную роль как единая точка отсчёта в развитии моделей понимания языка. Благодаря ему исследователи смогли напрямую сравнивать разные архитектуры на комплексном наборе задач, выявлять сильные и слабые стороны подходов и быстро обмениваться достижениями через публичный лидерборд.

SuperGLUE: последующее развитие

Стремительный успех GLUE привёл к тому, что уже через год тот же коллектив авторов при участии коллег из Facebook AI представил новый, более сложный комплекс под названием SuperGLUE^[4].

SuperGLUE был анонсирован в конце 2019 года как «более цепкий» (stickier) набор тестов, призванный снова создать задел между возможностями современных моделей и человека. В него были включены восемь задач, требующих ещё более глубокого понимания языка, а также улучшен инструментарий и правила для участников. Хотя GLUE продолжает использоваться как базовый тест, основной фокус соревновательного улучшения сместился на SuperGLUE и другие, более специализированные, бенчмарки.

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,0 ^1,1 ^1,2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]
↑ Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]
↑ Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]
↑ «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]

[glue_paper-1] 1,0 ^1,1 ^1,2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]

[human_vs_muppet-2] Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]

[w4ngatang_superglue-3] Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]

[venturebeat_superglue-4] «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]

[1]

[2]

[3]

[4]

GLUE benchmark

Содержание

Состав и задачи бенчмарка

Методика оценивания

Результаты и влияние на индустрию

SuperGLUE: последующее развитие

Ссылки

Литература

Примечания

Навигация

GLUE benchmark

Состав и задачи бенчмарка

Методика оценивания

Результаты и влияние на индустрию

SuperGLUE: последующее развитие

Ссылки

Литература

Примечания

Навигация

Поиск