SuperGLUE
SuperGLUE — это комплексный бенчмарк (набор тестовых заданий) для оценки систем обработки естественного языка, особенно больших языковых моделей (БЯМ)[1]. Он был представлен в 2019 году группой исследователей под руководством Алекса Вана из Нью-Йоркского университета при участии Facebook AI Research и других организаций[1].
Создание SuperGLUE было вызвано тем, что к середине 2019 года предшествующий бенчмарк GLUE стал «простой задачей» для современных моделей: совокупный показатель лучших моделей на GLUE достиг 88,4, превысив средний уровень человека (87,1)[1]. Таким образом, запас для дальнейшего прогресса сократился[1]. В ответ на это авторы разработали SuperGLUE как более сложную альтернативу, способную обеспечить более строгую проверку понимания языка моделями[1]. Цель SuperGLUE — предоставить нейтральный и трудно «обучаемый» показатель прогресса в области общего языкового понимания для английского языка[1]. Ожидалось, что заметное улучшение результатов на SuperGLUE потребует существенных инноваций в методах машинного обучения — например, более эффективного обучения на небольших выборках, мультизадачного и самосупервайзного обучения[1]. Иными словами, в SuperGLUE включены задания, которые просты для человека, но сложны для машинного интеллекта[1], чтобы стимулировать разработку моделей с истинно глубоким пониманием языка.
Особенности и отличия от GLUE
SuperGLUE во многом повторяет формат GLUE — он предлагает единый интегральный показатель качества по совокупности задач, публичный лидерборд и инструментарий для анализа моделей[1]. Однако SuperGLUE привносит ряд улучшений и нововведений по сравнению с предшественником[1]:
- Более сложные задания: в SuperGLUE отобраны восемь наиболее трудных задач[1]. Две из них унаследованы из GLUE (в числе самых сложных там), остальные были выбраны из новых кандидатур на основе их сложности для современных NLP-моделей[1]. Таким образом, бенчмарк фокусируется на тех аспектах понимания, где модели ранее показывали наихудшие результаты.
- Разнообразие форматов: если в GLUE все задачи сводились к классификации предложений или пар предложений, то SuperGLUE включает более широкий спектр форматов[1]. Помимо классификации, добавлены задачи на разрешение кореференции и ответы на вопросы, требующие от модели понимания связного текста и логического вывода[1].
- Оценка человека на всех задачах: для каждой задачи SuperGLUE рассчитан базовый уровень производительности человека (non-expert)[1], подтверждающий, что даже сильные модели типа BERT существенно уступали человеку на момент запуска бенчмарка[1]. Наличие человеческого ориентира (~90% совокупно) обеспечивает «запас» для роста модели и служит целевым ориентиром[1].
- Прозрачные правила и инструменты: пересмотрены правила размещения результатов на лидерборде (для обеспечения честного сравнения и указания вклада авторов датасетов)[1]. Также опубликован новый открытый кодовый инструментарий для удобства тонкой настройки и мультизадачного обучения моделей на данных SuperGLUE[1].
В совокупности эти меры делают SuperGLUE более надежным тестом для обобщённых языковых способностей моделей, не позволяющим достичь высоких результатов за счёт узкого читерства или подгонки под специфичные форматы прежнего GLUE[1].
Набор задач SuperGLUE
SuperGLUE cостоит из восьми задач, охватывающих разные аспекты понимания текста.
- BoolQ (Boolean Questions): задача типа вопрос-ответ (QA), где каждому примеру дан короткий текст (отрывок из Википедии) и вопрос, на который нужно ответить «да» или «нет»[1]. Вопросы сформулированы пользователями (из поисковых запросов Google) и требуют извлечения явного или неявного факта из текста; метрика качества — доля правильных ответов (accuracy)[1].
- CB (CommitmentBank): задача на логическое следование (textual entailment) с тремя классами[1]. Датасет состоит из коротких текстов, содержащих сложноподчинённые предложения; требуется определить, в какой степени автор текста коммитирован к истинности вложенного высказывания[1]. Фактически это проверка, выводится ли утверждение из данного контекста. Задача сложна из-за малых размеров выборки (ок. 250 примеров) и дисбаланса классов; качество оценивается по точности и F1-мере, усреднённой по классам[1].
- COPA (Choice of Plausible Alternatives): задача на причинно-следственное рассуждение[1]. Модели даётся предпосылка (одно предложение) и нужно выбрать правильную причину или следствие из двух вариантов[1]. Все примеры COPA сформулированы вручную и требуют здравого смысла для установления причинно-следственной связи. Тематика включает ситуации из блогов и специализированной энциклопедии; метрика – точность (доля правильных выборов)[1]. Пример: дано предложение «ребёнок приобрёл иммунитет к болезни» и вопрос «в чём причина?» – человек сразу понимает, что правильный ответ «он получил вакцину», тогда как модели приходится угадывать причинную связь[1].
- MultiRC (Multi-Sentence Reading Comprehension): задача на многофразовое понимание текста с элементами множественного выбора[1]. Модель получает абзац текста, вопрос по содержанию абзаца и список возможных ответов; нужно определить, какие ответы верны (в каждом вопросе может быть несколько правильных ответов)[1]. Особенности: для ответа на вопрос, как правило, требуется объединить информацию из нескольких предложений текста, что проверяет способность модели связывать факты[1]. Качество измеряется двумя метриками: F1 по ответам (учитывает частично верные наборы) и Exact Match - доля вопросов, на которые даны полностью правильные наборы ответов[1].
- ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): задача на чтение с пониманием и использованием знаний[1]. Представляет собой модифицированный Cloze-тест: дан новостной текст (статья CNN/Daily Mail) и предложение с пропущенным сущностным словом; модель должна выбрать, какая сущность из текста подходит на место пропуска[1]. Варианты ответа задаются как все сущности, упомянутые в статье, при этом могут совпадать по сути[1]. Для успешного решения требуется понимание контекста и здравый смысл. Метрики – максимальный token-level F1 и Exact Match (точное совпадение) по предсказанным ответам[1].
- RTE (Recognizing Textual Entailment): задача бинарной классификации на текстовое следование (entailment vs. not entailment)[1]. Набор данных объединяет примеры из нескольких конкурсов по распознаванию текстового вывода (серия RTE 1-5)[1]. Каждое задание содержит пару текстовых фрагментов (premise-hypothesis); модель должна определить, следует ли гипотеза из текста. В отличие от многих больших наборов данных, RTE довольно мал (ок. 2,5 тыс. обучающих примеров), но показал значительный выигрыш от трансфер-обучения: точность выросла с ~56% (уровень случайного угадывания) до ~86% с появлением моделей типа BERT[1]. Тем не менее, на момент запуска SuperGLUE точность моделей всё ещё отставала от человека примерно на 8 процентных пунктов[1], поэтому RTE был включён как одна из задач, сохранявших зазор до человеческого уровня.
- WiC (Word-in-Context): задача на разрешение неоднозначности значения слова в контексте (WSD)[1]. Дается два независимых предложения, в каждом из которых встречается одно и то же многозначное слово; нужно определить, использовано ли это слово в том же значении в обоих случаях[1]. Данные взяты из словарных ресурсов (WordNet, VerbNet, Wiktionary), поэтому охватывают широкий спектр слов и значений[1]. Задача формализована как бинарная классификация и оценивается по доле верных ответов. WiC требует от модели понимания тонких смысловых различий, фактически проверяя лексическую семантику.
- WSC (Winograd Schema Challenge): задача на разрешение кореференции с использованием здравого смысла[1]. Каждое задание состоит из одного предложения, содержащего местоимение, и списка из двух сущностей (существительных) из этого же предложения[1]. Требуется определить, к какому из предложенных существительных относится данное местоимение[1]. Пример классического winograd-предложения: «Трофей не поместился в чемодан, потому что он был слишком маленьким» – человек понимает, что «он» относится к чемодану (слишком маленьким был чемодан). Подобные примеры невозможно решить без повседневного знания и контекста[1]. В GLUE уже присутствовал упрощённый вариант этой задачи (WNLI), но модели долгое время не могли превзойти на нём даже уровень случайности[1]. Лишь специальные приёмы, такие как добавление внешних данных с похожими примерами, подняли качество моделей на WSC до ~90% к 2019 году[1]. Однако человек решает задачи WSC практически без ошибок (~96-100% верных ответов)[1]. В SuperGLUE включена оригинальная версия WSC в формате бинарной классификации (для каждой пары «местоимение-сущность» модель отвечает, совпадают ли они по референции)[1]. Эта задача остаётся одним из самых трудных тестов, требующих коммонсенс-размышлений.
Все тесты SuperGLUE имеют закрытые тестовые наборы с неизвестными для разработчиков ответами[1]. Модели отправляют свои предсказания на сервер, где вычисляется совокупный балл — усреднённая по задачам точность (для задач с несколькими метриками сначала усредняется внутренняя метрика)[1]. Такой единый SuperGLUE score упрощает сравнение моделей по общему уровню языкового интеллекта.
Результаты и прогресс моделей
При запуске SuperGLUE авторы привели в качестве ориентира результаты сильной базовой модели (усиленного BERT) – и они оказались значительно ниже человеческих на всех задачах[1]. В среднем лучшая на тот момент модель набрала примерно 20 пунктов меньше, чем человек, по интегральной метрике[1]. На отдельных заданиях разрыв был особенно велик: например, в задаче WSC модель едва достигала ~65% точности против 100% у человека (отставание ~35 пунктов)[1]. Даже на «проще» выглядящих задачах (BoolQ, CB, RTE, WiC) автоматические системы уступали ~10 пунктов человеческому уровню[1]. Эти различия подтвердили, что SuperGLUE действительно бросает серьёзный вызов текущим технологиям и не может быть решён тривиально.
Тем не менее, всего через несколько месяцев после появления SuperGLUE начался быстрый прогресс[1]. В конце 2019 года исследователи Google представили модель T5 (Text-To-Text Transfer Transformer) с 11 миллиардами параметров, которая добилась совокупного результата 88,9, вплотную приблизившись к человеческому уровню ~89,8[2]. Фактически, Т5 улучшила предыдущий рекорд на SuperGLUE сразу на 4,3 пункта и сократила долю ошибок почти на треть[2], оставив лишь минимальный разрыв в 0,9 пункта до показателя человека[2]. Разработчики отмечали, что SuperGLUE намеренно подобран так, что для людей задачи просты, поэтому выход модели на уровень ~89% стал важной вехой[2].
Первым же, кому удалось превзойти усреднённое человеческое качество, стала модель от Microsoft DeBERTa (Decoding-enhanced BERT with disentangled attention)[3]. В январе 2021 года исследователи сообщили, что версия DeBERTa с 1,5 млрд параметров набрала 89,9 балла, чуть выше человеческого ориентира 89,8[3]. Это был первый случай, когда единичная модель превосходила человека по метрике SuperGLUE[3]. Вдобавок, ансамбль из нескольких моделей DeBERTA повысил рекорд до ~90,3 балла[3]. Модель DeBERTa опередила прежнего лидера (Google Т5) примерно на 0,6% и продемонстрировала эффективность новых идей в архитектуре Transformer (раздельное представление содержимого и позиции слов, улучшенный декодер масок и пр.)[4].
Прогресс не остановился на достигнутом: по мере роста размеров и сложности языковых моделей результаты SuperGLUE продолжали улучшаться[5]. К концу 2021 года на вершине лидерборда оказалась модель Microsoft T-NLRv5 (семейство Microsoft Turing NLR) — она ещё больше увеличила разрыв сверх человеческого уровня[5]. Последние нерешённые для машин задачи GLUE (например, тонкости NLI) были «закрыты» этой моделью, вплотную приблизившейся к полноценному паритету с человеком даже по самым трудным подзадачам[5].
На 2022-2023 годы порог человеческого уровня на SuperGLUE был уверенно преодолён несколькими независимыми крупными моделями[6]. Например, модель PaLM от Google (540 млрд параметров) при дообучении на задачах SuperGLUE достигла порядка 90,4 балла, а модель GPT-4 (разработанная OpenAI) показала результат даже немного выше[6]. К середине 2023 года в таблице лидеров SuperGLUE насчитывалось сразу несколько моделей с результатом выше 90 (т.е. превышающих средний человеческий уровень)[6]. Можно говорить, что бенчмарк практически решён современными системами[6]: показатели лучших моделей настолько высоки, что превосходят возможности большинства неквалифицированных людей[6]. Этот успех свидетельствует о гигантском прогрессе в NLP за короткое время, но одновременно указывает на необходимость новых, ещё более сложных тестов для новейших моделей[6]. Уже появляются последующие бенчмарки (например, MMLU, BIG-Bench и др.), призванные проверять модели на более широкое понимание и эрудицию, выходящую за рамки задач SuperGLUE[6].
Влияние и дальнейшие исследования
SuperGLUE, таким образом, закрепился как важный этап развития оценочных методик в обработке языка[3]. В энтузиастских и научных кругах его результаты стали своего рода «лакмусовой бумажкой» для новых архитектур БЯМ: достижение или превышение человеческого уровня на SuperGLUE воспринимается как признак передовой модели с глубоким языковым пониманием[3]. Это отразилось и на практике — многие современные языковые модели, достигшие высоких результатов на SuperGLUE, легли в основу прикладных систем вопрос-ответ, диалоговых агентов, систем обобщения текста и др.[3]. SuperGLUE продолжает использоваться исследователями для тонкой настройки и сравнения алгоритмов, хотя передовое положение теперь постепенно смещается к новым рубежам оценки искусственного интеллекта.
Ссылки
- Официальный сайт SuperGLUE
- Оригинальная статья SuperGLUE (NeurIPS)
- Статья Microsoft о достижении человеческого уровня DeBERTa
- Страница датасета SuperGLUE на Papers With Code
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [1]
- ↑ 2,0 2,1 2,2 2,3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [2]
- ↑ 3,0 3,1 3,2 3,3 3,4 3,5 3,6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [3]
- ↑ «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [4]
- ↑ 5,0 5,1 5,2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [5]