GLUE benchmark
GLUE (акроним от General Language Understanding Evaluation, «Общая оценка понимания языка») — это мультизадачный бенчмарк для оценки качества моделей обработки естественного языка (NLU). Бенчмарк был предложен в 2018 году группой исследователей из Нью-Йоркского университета, Университета Вашингтона и DeepMind, включая Алекса Вана и Сэмюэла Боумана, и получил широкое распространение в исследовательском сообществе[1].
Основная цель GLUE — предоставить единый, нейтральный и сложный тестовый комплекс для сравнительной оценки возможностей NLU-моделей на разнообразном наборе задач, выходящих за рамки одной конкретной области. Бенчмарк включает онлайн-платформу с лидербордом (таблицей рекордов), которая обеспечивает объективное сравнение моделей и предотвращает подгонку под тестовые данные, так как истинные метки для части тестов не публикуются и доступны только через сервер оценки. Предполагается, что для достижения высоких результатов модель должна уметь извлекать универсальные языковые представления и эффективно переносить знания между различными типами задач.
Состав и задачи бенчмарка
Бенчмарк GLUE объединяет девять различных задач по пониманию языка, основанных на уже существующих и сложных для ИИ датасетах. Все задачи сформулированы как классификация или регрессия над одним предложением либо парой предложений[1].
- CoLA (Corpus of Linguistic Acceptability) — задача определения грамматической приемлемости предложения. Метрика качества — Коэффициент корреляции Мэтьюса.
- SST-2 (Stanford Sentiment Treebank) — задача определения тональности (положительной/отрицательной) отзыва на фильм. Метрика — точность (accuracy).
- MRPC (Microsoft Research Paraphrase Corpus) — задача выявления перефраз в паре предложений из новостных источников. Метрики — точность и F1-мера.
- QQP (Quora Question Pairs) — задача определения дубликатов вопросов из сообщества Quora. Метрики — точность и F1-мера.
- STS-B (Semantic Textual Similarity Benchmark) — задача семантического сопоставления двух предложений. Модель должна предсказать степень смысловой близости по шкале от 1 до 5. Метрики — коэффициент корреляции Пирсона и Спирмена.
- MNLI (Multi-Genre Natural Language Inference) — задача распознавания текстового следствия на примере пар предложений из разножанровых источников (вывод, противоречие, нейтральность). Результаты оцениваются отдельно на совпадающем (matched) и несовпадающем (mismatched) поднаборах.
- QNLI (Question Natural Language Inference) — задача, полученная преобразованием датасета SQuAD. Требуется определить, содержит ли предложение из абзаца ответ на заданный вопрос.
- RTE (Recognizing Textual Entailment) — совокупный датасет по текстовому следствию, объединяющий несколько небольших коллекций. Задача — бинарно классифицировать отношение между предложениями.
- WNLI (Winograd NLI) — модифицированная версия схемы Винограда, адаптированная под формат NLI. Задача на разрешение анафоры: системе даётся предложение с неоднозначным местоимением, и нужно указать, к какому из двух объектов оно относится.
Методика оценивания
Для оценки на GLUE исследователи отправляют предсказания своей модели на специальный сервер, после чего получают автоматический расчёт метрик по каждой задаче и сводный балл.
- GLUE-score — итоговый показатель, который вычисляется как среднее значение результатов по всем девяти основным задачам.
- Лидерборд — публичная таблица, которая отражает актуальное состояние дел и показывает, какие модели лучше справляются с NLU-задачами. Использование скрытых тестовых наборов обеспечивает честное сравнение.
- Диагностический набор — специальный набор из 1100 примеров, вручную аннотированных экспертами для тонкого лингвистического анализа. Он не влияет на рейтинг, а служит инструментом качественного анализа для проверки, какие языковые феномены (лексическая семантика, логика, здравый смысл) модель умеет распознавать, а с какими у неё возникают трудности[1].
Результаты и влияние на индустрию
При запуске GLUE в 2018 году лучшие на тот момент модели (например, BiLSTM с ELMo) достигали совокупного результата около 70 баллов (по шкале 0–100), что было существенно ниже человеческого уровня (около 87 баллов)[2].
Появление GLUE и открытого лидерборда стимулировало бурный прогресс в области трансферного обучения в NLP.
- К маю 2019 года, менее чем за год, новое поколение моделей, основанных на трансформерах (в первую очередь, BERT), подняло планку state-of-the-art до 83.9 баллов.
- Во второй половине 2019 года бенчмарк GLUE был фактически «пройден»: лучшие системы вплотную приблизились к человеческому уровню, а на некоторых задачах даже превзошли его[3].
GLUE сыграл огромную роль как единая точка отсчёта в развитии моделей понимания языка. Благодаря ему исследователи смогли напрямую сравнивать разные архитектуры на комплексном наборе задач, выявлять сильные и слабые стороны подходов и быстро обмениваться достижениями через публичный лидерборд.
SuperGLUE: последующее развитие
Стремительный успех GLUE привёл к тому, что уже через год тот же коллектив авторов при участии коллег из Facebook AI представил новый, более сложный комплекс под названием SuperGLUE[4].
SuperGLUE был анонсирован в конце 2019 года как «более цепкий» (stickier) набор тестов, призванный снова создать задел между возможностями современных моделей и человека. В него были включены восемь задач, требующих ещё более глубокого понимания языка, а также улучшен инструментарий и правила для участников. Хотя GLUE продолжает использоваться как базовый тест, основной фокус соревновательного улучшения сместился на SuperGLUE и другие, более специализированные, бенчмарки.
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,0 1,1 1,2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]
- ↑ Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]
- ↑ Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]
- ↑ «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]