SuperGLUE

SuperGLUE — это комплексный бенчмарк (набор тестовых заданий) для оценки систем обработки естественного языка, особенно больших языковых моделей (БЯМ)^[1]. Он был представлен в 2019 году группой исследователей под руководством Алекса Вана из Нью-Йоркского университета при участии Facebook AI Research и других организаций^[1].

Создание SuperGLUE было вызвано тем, что к середине 2019 года предшествующий бенчмарк GLUE стал «простой задачей» для современных моделей: совокупный показатель лучших моделей на GLUE достиг 88,4, превысив средний уровень человека (87,1)^[1]. Таким образом, запас для дальнейшего прогресса сократился^[1]. В ответ на это авторы разработали SuperGLUE как более сложную альтернативу, способную обеспечить более строгую проверку понимания языка моделями^[1]. Цель SuperGLUE — предоставить нейтральный и трудно «обучаемый» показатель прогресса в области общего языкового понимания для английского языка^[1]. Ожидалось, что заметное улучшение результатов на SuperGLUE потребует существенных инноваций в методах машинного обучения — например, более эффективного обучения на небольших выборках, мультизадачного и самосупервайзного обучения^[1]. Иными словами, в SuperGLUE включены задания, которые просты для человека, но сложны для машинного интеллекта^[1], чтобы стимулировать разработку моделей с истинно глубоким пониманием языка.

Особенности и отличия от GLUE

SuperGLUE во многом повторяет формат GLUE — он предлагает единый интегральный показатель качества по совокупности задач, публичный лидерборд и инструментарий для анализа моделей^[1]. Однако SuperGLUE привносит ряд улучшений и нововведений по сравнению с предшественником^[1]:

Более сложные задания: в SuperGLUE отобраны восемь наиболее трудных задач^[1]. Две из них унаследованы из GLUE (в числе самых сложных там), остальные были выбраны из новых кандидатур на основе их сложности для современных NLP-моделей^[1]. Таким образом, бенчмарк фокусируется на тех аспектах понимания, где модели ранее показывали наихудшие результаты.
Разнообразие форматов: если в GLUE все задачи сводились к классификации предложений или пар предложений, то SuperGLUE включает более широкий спектр форматов^[1]. Помимо классификации, добавлены задачи на разрешение кореференции и ответы на вопросы, требующие от модели понимания связного текста и логического вывода^[1].
Оценка человека на всех задачах: для каждой задачи SuperGLUE рассчитан базовый уровень производительности человека (non-expert)^[1], подтверждающий, что даже сильные модели типа BERT существенно уступали человеку на момент запуска бенчмарка^[1]. Наличие человеческого ориентира (~90% совокупно) обеспечивает «запас» для роста модели и служит целевым ориентиром^[1].
Прозрачные правила и инструменты: пересмотрены правила размещения результатов на лидерборде (для обеспечения честного сравнения и указания вклада авторов датасетов)^[1]. Также опубликован новый открытый кодовый инструментарий для удобства тонкой настройки и мультизадачного обучения моделей на данных SuperGLUE^[1].

В совокупности эти меры делают SuperGLUE более надежным тестом для обобщённых языковых способностей моделей, не позволяющим достичь высоких результатов за счёт узкого читерства или подгонки под специфичные форматы прежнего GLUE^[1].

Набор задач SuperGLUE

SuperGLUE cостоит из восьми задач, охватывающих разные аспекты понимания текста.

BoolQ (Boolean Questions): задача типа вопрос-ответ (QA), где каждому примеру дан короткий текст (отрывок из Википедии) и вопрос, на который нужно ответить «да» или «нет»^[1]. Вопросы сформулированы пользователями (из поисковых запросов Google) и требуют извлечения явного или неявного факта из текста; метрика качества — доля правильных ответов (accuracy)^[1].
CB (CommitmentBank): задача на логическое следование (textual entailment) с тремя классами^[1]. Датасет состоит из коротких текстов, содержащих сложноподчинённые предложения; требуется определить, в какой степени автор текста коммитирован к истинности вложенного высказывания^[1]. Фактически это проверка, выводится ли утверждение из данного контекста. Задача сложна из-за малых размеров выборки (ок. 250 примеров) и дисбаланса классов; качество оценивается по точности и F1-мере, усреднённой по классам^[1].
COPA (Choice of Plausible Alternatives): задача на причинно-следственное рассуждение^[1]. Модели даётся предпосылка (одно предложение) и нужно выбрать правильную причину или следствие из двух вариантов^[1]. Все примеры COPA сформулированы вручную и требуют здравого смысла для установления причинно-следственной связи. Тематика включает ситуации из блогов и специализированной энциклопедии; метрика – точность (доля правильных выборов)^[1]. Пример: дано предложение «ребёнок приобрёл иммунитет к болезни» и вопрос «в чём причина?» – человек сразу понимает, что правильный ответ «он получил вакцину», тогда как модели приходится угадывать причинную связь^[1].
MultiRC (Multi-Sentence Reading Comprehension): задача на многофразовое понимание текста с элементами множественного выбора^[1]. Модель получает абзац текста, вопрос по содержанию абзаца и список возможных ответов; нужно определить, какие ответы верны (в каждом вопросе может быть несколько правильных ответов)^[1]. Особенности: для ответа на вопрос, как правило, требуется объединить информацию из нескольких предложений текста, что проверяет способность модели связывать факты^[1]. Качество измеряется двумя метриками: F1 по ответам (учитывает частично верные наборы) и Exact Match - доля вопросов, на которые даны полностью правильные наборы ответов^[1].
ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): задача на чтение с пониманием и использованием знаний^[1]. Представляет собой модифицированный Cloze-тест: дан новостной текст (статья CNN/Daily Mail) и предложение с пропущенным сущностным словом; модель должна выбрать, какая сущность из текста подходит на место пропуска^[1]. Варианты ответа задаются как все сущности, упомянутые в статье, при этом могут совпадать по сути^[1]. Для успешного решения требуется понимание контекста и здравый смысл. Метрики – максимальный token-level F1 и Exact Match (точное совпадение) по предсказанным ответам^[1].
RTE (Recognizing Textual Entailment): задача бинарной классификации на текстовое следование (entailment vs. not entailment)^[1]. Набор данных объединяет примеры из нескольких конкурсов по распознаванию текстового вывода (серия RTE 1-5)^[1]. Каждое задание содержит пару текстовых фрагментов (premise-hypothesis); модель должна определить, следует ли гипотеза из текста. В отличие от многих больших наборов данных, RTE довольно мал (ок. 2,5 тыс. обучающих примеров), но показал значительный выигрыш от трансфер-обучения: точность выросла с ~56% (уровень случайного угадывания) до ~86% с появлением моделей типа BERT^[1]. Тем не менее, на момент запуска SuperGLUE точность моделей всё ещё отставала от человека примерно на 8 процентных пунктов^[1], поэтому RTE был включён как одна из задач, сохранявших зазор до человеческого уровня.
WiC (Word-in-Context): задача на разрешение неоднозначности значения слова в контексте (WSD)^[1]. Дается два независимых предложения, в каждом из которых встречается одно и то же многозначное слово; нужно определить, использовано ли это слово в том же значении в обоих случаях^[1]. Данные взяты из словарных ресурсов (WordNet, VerbNet, Wiktionary), поэтому охватывают широкий спектр слов и значений^[1]. Задача формализована как бинарная классификация и оценивается по доле верных ответов. WiC требует от модели понимания тонких смысловых различий, фактически проверяя лексическую семантику.
WSC (Winograd Schema Challenge): задача на разрешение кореференции с использованием здравого смысла^[1]. Каждое задание состоит из одного предложения, содержащего местоимение, и списка из двух сущностей (существительных) из этого же предложения^[1]. Требуется определить, к какому из предложенных существительных относится данное местоимение^[1]. Пример классического winograd-предложения: «Трофей не поместился в чемодан, потому что он был слишком маленьким» – человек понимает, что «он» относится к чемодану (слишком маленьким был чемодан). Подобные примеры невозможно решить без повседневного знания и контекста^[1]. В GLUE уже присутствовал упрощённый вариант этой задачи (WNLI), но модели долгое время не могли превзойти на нём даже уровень случайности^[1]. Лишь специальные приёмы, такие как добавление внешних данных с похожими примерами, подняли качество моделей на WSC до ~90% к 2019 году^[1]. Однако человек решает задачи WSC практически без ошибок (~96-100% верных ответов)^[1]. В SuperGLUE включена оригинальная версия WSC в формате бинарной классификации (для каждой пары «местоимение-сущность» модель отвечает, совпадают ли они по референции)^[1]. Эта задача остаётся одним из самых трудных тестов, требующих коммонсенс-размышлений.

Все тесты SuperGLUE имеют закрытые тестовые наборы с неизвестными для разработчиков ответами^[1]. Модели отправляют свои предсказания на сервер, где вычисляется совокупный балл — усреднённая по задачам точность (для задач с несколькими метриками сначала усредняется внутренняя метрика)^[1]. Такой единый SuperGLUE score упрощает сравнение моделей по общему уровню языкового интеллекта.

Результаты и прогресс моделей

При запуске SuperGLUE авторы привели в качестве ориентира результаты сильной базовой модели (усиленного BERT) – и они оказались значительно ниже человеческих на всех задачах^[1]. В среднем лучшая на тот момент модель набрала примерно 20 пунктов меньше, чем человек, по интегральной метрике^[1]. На отдельных заданиях разрыв был особенно велик: например, в задаче WSC модель едва достигала ~65% точности против 100% у человека (отставание ~35 пунктов)^[1]. Даже на «проще» выглядящих задачах (BoolQ, CB, RTE, WiC) автоматические системы уступали ~10 пунктов человеческому уровню^[1]. Эти различия подтвердили, что SuperGLUE действительно бросает серьёзный вызов текущим технологиям и не может быть решён тривиально.

Тем не менее, всего через несколько месяцев после появления SuperGLUE начался быстрый прогресс^[1]. В конце 2019 года исследователи Google представили модель T5 (Text-To-Text Transfer Transformer) с 11 миллиардами параметров, которая добилась совокупного результата 88,9, вплотную приблизившись к человеческому уровню ~89,8^[2]. Фактически, Т5 улучшила предыдущий рекорд на SuperGLUE сразу на 4,3 пункта и сократила долю ошибок почти на треть^[2], оставив лишь минимальный разрыв в 0,9 пункта до показателя человека^[2]. Разработчики отмечали, что SuperGLUE намеренно подобран так, что для людей задачи просты, поэтому выход модели на уровень ~89% стал важной вехой^[2].

Первым же, кому удалось превзойти усреднённое человеческое качество, стала модель от Microsoft DeBERTa (Decoding-enhanced BERT with disentangled attention)^[3]. В январе 2021 года исследователи сообщили, что версия DeBERTa с 1,5 млрд параметров набрала 89,9 балла, чуть выше человеческого ориентира 89,8^[3]. Это был первый случай, когда единичная модель превосходила человека по метрике SuperGLUE^[3]. Вдобавок, ансамбль из нескольких моделей DeBERTA повысил рекорд до ~90,3 балла^[3]. Модель DeBERTa опередила прежнего лидера (Google Т5) примерно на 0,6% и продемонстрировала эффективность новых идей в архитектуре Transformer (раздельное представление содержимого и позиции слов, улучшенный декодер масок и пр.)^[4].

Прогресс не остановился на достигнутом: по мере роста размеров и сложности языковых моделей результаты SuperGLUE продолжали улучшаться^[5]. К концу 2021 года на вершине лидерборда оказалась модель Microsoft T-NLRv5 (семейство Microsoft Turing NLR) — она ещё больше увеличила разрыв сверх человеческого уровня^[5]. Последние нерешённые для машин задачи GLUE (например, тонкости NLI) были «закрыты» этой моделью, вплотную приблизившейся к полноценному паритету с человеком даже по самым трудным подзадачам^[5].

На 2022-2023 годы порог человеческого уровня на SuperGLUE был уверенно преодолён несколькими независимыми крупными моделями^[6]. Например, модель PaLM от Google (540 млрд параметров) при дообучении на задачах SuperGLUE достигла порядка 90,4 балла, а модель GPT-4 (разработанная OpenAI) показала результат даже немного выше^[6]. К середине 2023 года в таблице лидеров SuperGLUE насчитывалось сразу несколько моделей с результатом выше 90 (т.е. превышающих средний человеческий уровень)^[6]. Можно говорить, что бенчмарк практически решён современными системами^[6]: показатели лучших моделей настолько высоки, что превосходят возможности большинства неквалифицированных людей^[6]. Этот успех свидетельствует о гигантском прогрессе в NLP за короткое время, но одновременно указывает на необходимость новых, ещё более сложных тестов для новейших моделей^[6]. Уже появляются последующие бенчмарки (например, MMLU, BIG-Bench и др.), призванные проверять модели на более широкое понимание и эрудицию, выходящую за рамки задач SuperGLUE^[6].

Влияние и дальнейшие исследования

SuperGLUE, таким образом, закрепился как важный этап развития оценочных методик в обработке языка^[3]. В энтузиастских и научных кругах его результаты стали своего рода «лакмусовой бумажкой» для новых архитектур БЯМ: достижение или превышение человеческого уровня на SuperGLUE воспринимается как признак передовой модели с глубоким языковым пониманием^[3]. Это отразилось и на практике — многие современные языковые модели, достигшие высоких результатов на SuperGLUE, легли в основу прикладных систем вопрос-ответ, диалоговых агентов, систем обобщения текста и др.^[3]. SuperGLUE продолжает использоваться исследователями для тонкой настройки и сравнения алгоритмов, хотя передовое положение теперь постепенно смещается к новым рубежам оценки искусственного интеллекта.

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ ^1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 ^1,47 ^1,48 ^1,49 ^1,50 ^1,51 ^1,52 ^1,53 ^1,54 ^1,55 ^1,56 ^1,57 ^1,58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [1]
↑ ^2,0 ^2,1 ^2,2 ^2,3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [2]
↑ ^3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 ^3,6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [3]
↑ «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [4]
↑ ^5,0 ^5,1 ^5,2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [5]
↑ ^6,0 ^6,1 ^6,2 ^6,3 ^6,4 ^6,5 ^6,6 «The Ultimate Guide to AI Benchmarks». The AI Navigator. [6]

[neurips-main-1] 1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 ^1,47 ^1,48 ^1,49 ^1,50 ^1,51 ^1,52 ^1,53 ^1,54 ^1,55 ^1,56 ^1,57 ^1,58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [1]

[reddit-t5-2] 2,0 ^2,1 ^2,2 ^2,3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [2]

[microsoft-deberta-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 ^3,6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [3]

[syncedreview-deberta-4] «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [4]

[microsoft-scaling-5] 5,0 ^5,1 ^5,2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [5]

[ainavigator-benchmarks-6] 6,0 ^6,1 ^6,2 ^6,3 ^6,4 ^6,5 ^6,6 «The Ultimate Guide to AI Benchmarks». The AI Navigator. [6]

[1]

[2]

[3]

[4]

[5]

[6]

SuperGLUE

Содержание

Особенности и отличия от GLUE

Набор задач SuperGLUE

Результаты и прогресс моделей

Влияние и дальнейшие исследования

Ссылки

Литература

Примечания

Навигация

SuperGLUE

Особенности и отличия от GLUE

Набор задач SuperGLUE

Результаты и прогресс моделей

Влияние и дальнейшие исследования

Ссылки

Литература

Примечания

Навигация

Поиск