GLUE benchmark

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

GLUE (акроним от General Language Understanding Evaluation, «Общая оценка понимания языка») — это мультизадачный бенчмарк для оценки качества моделей обработки естественного языка (NLU). Бенчмарк был предложен в 2018 году группой исследователей из Нью-Йоркского университета, Университета Вашингтона и DeepMind, включая Алекса Вана и Сэмюэла Боумана, и получил широкое распространение в исследовательском сообществе[1].

Основная цель GLUE — предоставить единый, нейтральный и сложный тестовый комплекс для сравнительной оценки возможностей NLU-моделей на разнообразном наборе задач, выходящих за рамки одной конкретной области. Бенчмарк включает онлайн-платформу с лидербордом (таблицей рекордов), которая обеспечивает объективное сравнение моделей и предотвращает подгонку под тестовые данные, так как истинные метки для части тестов не публикуются и доступны только через сервер оценки. Предполагается, что для достижения высоких результатов модель должна уметь извлекать универсальные языковые представления и эффективно переносить знания между различными типами задач.

Состав и задачи бенчмарка

Бенчмарк GLUE объединяет девять различных задач по пониманию языка, основанных на уже существующих и сложных для ИИ датасетах. Все задачи сформулированы как классификация или регрессия над одним предложением либо парой предложений[1].

  • CoLA (Corpus of Linguistic Acceptability) — задача определения грамматической приемлемости предложения. Метрика качества — Коэффициент корреляции Мэтьюса.
  • SST-2 (Stanford Sentiment Treebank) — задача определения тональности (положительной/отрицательной) отзыва на фильм. Метрика — точность (accuracy).
  • MRPC (Microsoft Research Paraphrase Corpus) — задача выявления перефраз в паре предложений из новостных источников. Метрики — точность и F1-мера.
  • QQP (Quora Question Pairs) — задача определения дубликатов вопросов из сообщества Quora. Метрики — точность и F1-мера.
  • STS-B (Semantic Textual Similarity Benchmark) — задача семантического сопоставления двух предложений. Модель должна предсказать степень смысловой близости по шкале от 1 до 5. Метрики — коэффициент корреляции Пирсона и Спирмена.
  • MNLI (Multi-Genre Natural Language Inference) — задача распознавания текстового следствия на примере пар предложений из разножанровых источников (вывод, противоречие, нейтральность). Результаты оцениваются отдельно на совпадающем (matched) и несовпадающем (mismatched) поднаборах.
  • QNLI (Question Natural Language Inference) — задача, полученная преобразованием датасета SQuAD. Требуется определить, содержит ли предложение из абзаца ответ на заданный вопрос.
  • RTE (Recognizing Textual Entailment) — совокупный датасет по текстовому следствию, объединяющий несколько небольших коллекций. Задача — бинарно классифицировать отношение между предложениями.
  • WNLI (Winograd NLI) — модифицированная версия схемы Винограда, адаптированная под формат NLI. Задача на разрешение анафоры: системе даётся предложение с неоднозначным местоимением, и нужно указать, к какому из двух объектов оно относится.

Методика оценивания

Для оценки на GLUE исследователи отправляют предсказания своей модели на специальный сервер, после чего получают автоматический расчёт метрик по каждой задаче и сводный балл.

  • GLUE-score — итоговый показатель, который вычисляется как среднее значение результатов по всем девяти основным задачам.
  • Лидерборд — публичная таблица, которая отражает актуальное состояние дел и показывает, какие модели лучше справляются с NLU-задачами. Использование скрытых тестовых наборов обеспечивает честное сравнение.
  • Диагностический набор — специальный набор из 1100 примеров, вручную аннотированных экспертами для тонкого лингвистического анализа. Он не влияет на рейтинг, а служит инструментом качественного анализа для проверки, какие языковые феномены (лексическая семантика, логика, здравый смысл) модель умеет распознавать, а с какими у неё возникают трудности[1].

Результаты и влияние на индустрию

При запуске GLUE в 2018 году лучшие на тот момент модели (например, BiLSTM с ELMo) достигали совокупного результата около 70 баллов (по шкале 0–100), что было существенно ниже человеческого уровня (около 87 баллов)[2].

Появление GLUE и открытого лидерборда стимулировало бурный прогресс в области трансферного обучения в NLP.

  • К маю 2019 года, менее чем за год, новое поколение моделей, основанных на трансформерах (в первую очередь, BERT), подняло планку state-of-the-art до 83.9 баллов.
  • Во второй половине 2019 года бенчмарк GLUE был фактически «пройден»: лучшие системы вплотную приблизились к человеческому уровню, а на некоторых задачах даже превзошли его[3].

GLUE сыграл огромную роль как единая точка отсчёта в развитии моделей понимания языка. Благодаря ему исследователи смогли напрямую сравнивать разные архитектуры на комплексном наборе задач, выявлять сильные и слабые стороны подходов и быстро обмениваться достижениями через публичный лидерборд.

SuperGLUE: последующее развитие

Стремительный успех GLUE привёл к тому, что уже через год тот же коллектив авторов при участии коллег из Facebook AI представил новый, более сложный комплекс под названием SuperGLUE[4].

SuperGLUE был анонсирован в конце 2019 года как «более цепкий» (stickier) набор тестов, призванный снова создать задел между возможностями современных моделей и человека. В него были включены восемь задач, требующих ещё более глубокого понимания языка, а также улучшен инструментарий и правила для участников. Хотя GLUE продолжает использоваться как базовый тест, основной фокус соревновательного улучшения сместился на SuperGLUE и другие, более специализированные, бенчмарки.

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. 1,0 1,1 1,2 Wang, A. et al. «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding». arXiv:1804.07461, 2019. [1]
  2. Bowman, S. R. et al. «Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark». arXiv:1905.10425, 2019. [2]
  3. Wang, A. et al. «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS 2019. [3]
  4. «AI models from Microsoft and Google already surpass human performance on the SuperGLUE language benchmark». VentureBeat. [4]