SuperGLUE

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

SuperGLUE — это комплексный бенчмарк (набор тестовых заданий) для оценки систем обработки естественного языка, особенно больших языковых моделей (БЯМ)[1]. Он был представлен в 2019 году группой исследователей под руководством Алекса Вана из Нью-Йоркского университета при участии Facebook AI Research и других организаций[1].

Создание SuperGLUE было вызвано тем, что к середине 2019 года предшествующий бенчмарк GLUE стал «простой задачей» для современных моделей: совокупный показатель лучших моделей на GLUE достиг 88,4, превысив средний уровень человека (87,1)[1]. Таким образом, запас для дальнейшего прогресса сократился[1]. В ответ на это авторы разработали SuperGLUE как более сложную альтернативу, способную обеспечить более строгую проверку понимания языка моделями[1]. Цель SuperGLUE — предоставить нейтральный и трудно «обучаемый» показатель прогресса в области общего языкового понимания для английского языка[1]. Ожидалось, что заметное улучшение результатов на SuperGLUE потребует существенных инноваций в методах машинного обучения — например, более эффективного обучения на небольших выборках, мультизадачного и самосупервайзного обучения[1]. Иными словами, в SuperGLUE включены задания, которые просты для человека, но сложны для машинного интеллекта[1], чтобы стимулировать разработку моделей с истинно глубоким пониманием языка.

Особенности и отличия от GLUE

SuperGLUE во многом повторяет формат GLUE — он предлагает единый интегральный показатель качества по совокупности задач, публичный лидерборд и инструментарий для анализа моделей[1]. Однако SuperGLUE привносит ряд улучшений и нововведений по сравнению с предшественником[1]:

  • Более сложные задания: в SuperGLUE отобраны восемь наиболее трудных задач[1]. Две из них унаследованы из GLUE (в числе самых сложных там), остальные были выбраны из новых кандидатур на основе их сложности для современных NLP-моделей[1]. Таким образом, бенчмарк фокусируется на тех аспектах понимания, где модели ранее показывали наихудшие результаты.
  • Разнообразие форматов: если в GLUE все задачи сводились к классификации предложений или пар предложений, то SuperGLUE включает более широкий спектр форматов[1]. Помимо классификации, добавлены задачи на разрешение кореференции и ответы на вопросы, требующие от модели понимания связного текста и логического вывода[1].
  • Оценка человека на всех задачах: для каждой задачи SuperGLUE рассчитан базовый уровень производительности человека (non-expert)[1], подтверждающий, что даже сильные модели типа BERT существенно уступали человеку на момент запуска бенчмарка[1]. Наличие человеческого ориентира (~90% совокупно) обеспечивает «запас» для роста модели и служит целевым ориентиром[1].
  • Прозрачные правила и инструменты: пересмотрены правила размещения результатов на лидерборде (для обеспечения честного сравнения и указания вклада авторов датасетов)[1]. Также опубликован новый открытый кодовый инструментарий для удобства тонкой настройки и мультизадачного обучения моделей на данных SuperGLUE[1].

В совокупности эти меры делают SuperGLUE более надежным тестом для обобщённых языковых способностей моделей, не позволяющим достичь высоких результатов за счёт узкого читерства или подгонки под специфичные форматы прежнего GLUE[1].

Набор задач SuperGLUE

SuperGLUE cостоит из восьми задач, охватывающих разные аспекты понимания текста.

  • BoolQ (Boolean Questions): задача типа вопрос-ответ (QA), где каждому примеру дан короткий текст (отрывок из Википедии) и вопрос, на который нужно ответить «да» или «нет»[1]. Вопросы сформулированы пользователями (из поисковых запросов Google) и требуют извлечения явного или неявного факта из текста; метрика качества — доля правильных ответов (accuracy)[1].
  • CB (CommitmentBank): задача на логическое следование (textual entailment) с тремя классами[1]. Датасет состоит из коротких текстов, содержащих сложноподчинённые предложения; требуется определить, в какой степени автор текста коммитирован к истинности вложенного высказывания[1]. Фактически это проверка, выводится ли утверждение из данного контекста. Задача сложна из-за малых размеров выборки (ок. 250 примеров) и дисбаланса классов; качество оценивается по точности и F1-мере, усреднённой по классам[1].
  • COPA (Choice of Plausible Alternatives): задача на причинно-следственное рассуждение[1]. Модели даётся предпосылка (одно предложение) и нужно выбрать правильную причину или следствие из двух вариантов[1]. Все примеры COPA сформулированы вручную и требуют здравого смысла для установления причинно-следственной связи. Тематика включает ситуации из блогов и специализированной энциклопедии; метрика – точность (доля правильных выборов)[1]. Пример: дано предложение «ребёнок приобрёл иммунитет к болезни» и вопрос «в чём причина?» – человек сразу понимает, что правильный ответ «он получил вакцину», тогда как модели приходится угадывать причинную связь[1].
  • MultiRC (Multi-Sentence Reading Comprehension): задача на многофразовое понимание текста с элементами множественного выбора[1]. Модель получает абзац текста, вопрос по содержанию абзаца и список возможных ответов; нужно определить, какие ответы верны (в каждом вопросе может быть несколько правильных ответов)[1]. Особенности: для ответа на вопрос, как правило, требуется объединить информацию из нескольких предложений текста, что проверяет способность модели связывать факты[1]. Качество измеряется двумя метриками: F1 по ответам (учитывает частично верные наборы) и Exact Match - доля вопросов, на которые даны полностью правильные наборы ответов[1].
  • ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): задача на чтение с пониманием и использованием знаний[1]. Представляет собой модифицированный Cloze-тест: дан новостной текст (статья CNN/Daily Mail) и предложение с пропущенным сущностным словом; модель должна выбрать, какая сущность из текста подходит на место пропуска[1]. Варианты ответа задаются как все сущности, упомянутые в статье, при этом могут совпадать по сути[1]. Для успешного решения требуется понимание контекста и здравый смысл. Метрики – максимальный token-level F1 и Exact Match (точное совпадение) по предсказанным ответам[1].
  • RTE (Recognizing Textual Entailment): задача бинарной классификации на текстовое следование (entailment vs. not entailment)[1]. Набор данных объединяет примеры из нескольких конкурсов по распознаванию текстового вывода (серия RTE 1-5)[1]. Каждое задание содержит пару текстовых фрагментов (premise-hypothesis); модель должна определить, следует ли гипотеза из текста. В отличие от многих больших наборов данных, RTE довольно мал (ок. 2,5 тыс. обучающих примеров), но показал значительный выигрыш от трансфер-обучения: точность выросла с ~56% (уровень случайного угадывания) до ~86% с появлением моделей типа BERT[1]. Тем не менее, на момент запуска SuperGLUE точность моделей всё ещё отставала от человека примерно на 8 процентных пунктов[1], поэтому RTE был включён как одна из задач, сохранявших зазор до человеческого уровня.
  • WiC (Word-in-Context): задача на разрешение неоднозначности значения слова в контексте (WSD)[1]. Дается два независимых предложения, в каждом из которых встречается одно и то же многозначное слово; нужно определить, использовано ли это слово в том же значении в обоих случаях[1]. Данные взяты из словарных ресурсов (WordNet, VerbNet, Wiktionary), поэтому охватывают широкий спектр слов и значений[1]. Задача формализована как бинарная классификация и оценивается по доле верных ответов. WiC требует от модели понимания тонких смысловых различий, фактически проверяя лексическую семантику.
  • WSC (Winograd Schema Challenge): задача на разрешение кореференции с использованием здравого смысла[1]. Каждое задание состоит из одного предложения, содержащего местоимение, и списка из двух сущностей (существительных) из этого же предложения[1]. Требуется определить, к какому из предложенных существительных относится данное местоимение[1]. Пример классического winograd-предложения: «Трофей не поместился в чемодан, потому что он был слишком маленьким» – человек понимает, что «он» относится к чемодану (слишком маленьким был чемодан). Подобные примеры невозможно решить без повседневного знания и контекста[1]. В GLUE уже присутствовал упрощённый вариант этой задачи (WNLI), но модели долгое время не могли превзойти на нём даже уровень случайности[1]. Лишь специальные приёмы, такие как добавление внешних данных с похожими примерами, подняли качество моделей на WSC до ~90% к 2019 году[1]. Однако человек решает задачи WSC практически без ошибок (~96-100% верных ответов)[1]. В SuperGLUE включена оригинальная версия WSC в формате бинарной классификации (для каждой пары «местоимение-сущность» модель отвечает, совпадают ли они по референции)[1]. Эта задача остаётся одним из самых трудных тестов, требующих коммонсенс-размышлений.

Все тесты SuperGLUE имеют закрытые тестовые наборы с неизвестными для разработчиков ответами[1]. Модели отправляют свои предсказания на сервер, где вычисляется совокупный балл — усреднённая по задачам точность (для задач с несколькими метриками сначала усредняется внутренняя метрика)[1]. Такой единый SuperGLUE score упрощает сравнение моделей по общему уровню языкового интеллекта.

Результаты и прогресс моделей

При запуске SuperGLUE авторы привели в качестве ориентира результаты сильной базовой модели (усиленного BERT) – и они оказались значительно ниже человеческих на всех задачах[1]. В среднем лучшая на тот момент модель набрала примерно 20 пунктов меньше, чем человек, по интегральной метрике[1]. На отдельных заданиях разрыв был особенно велик: например, в задаче WSC модель едва достигала ~65% точности против 100% у человека (отставание ~35 пунктов)[1]. Даже на «проще» выглядящих задачах (BoolQ, CB, RTE, WiC) автоматические системы уступали ~10 пунктов человеческому уровню[1]. Эти различия подтвердили, что SuperGLUE действительно бросает серьёзный вызов текущим технологиям и не может быть решён тривиально.

Тем не менее, всего через несколько месяцев после появления SuperGLUE начался быстрый прогресс[1]. В конце 2019 года исследователи Google представили модель T5 (Text-To-Text Transfer Transformer) с 11 миллиардами параметров, которая добилась совокупного результата 88,9, вплотную приблизившись к человеческому уровню ~89,8[2]. Фактически, Т5 улучшила предыдущий рекорд на SuperGLUE сразу на 4,3 пункта и сократила долю ошибок почти на треть[2], оставив лишь минимальный разрыв в 0,9 пункта до показателя человека[2]. Разработчики отмечали, что SuperGLUE намеренно подобран так, что для людей задачи просты, поэтому выход модели на уровень ~89% стал важной вехой[2].

Первым же, кому удалось превзойти усреднённое человеческое качество, стала модель от Microsoft DeBERTa (Decoding-enhanced BERT with disentangled attention)[3]. В январе 2021 года исследователи сообщили, что версия DeBERTa с 1,5 млрд параметров набрала 89,9 балла, чуть выше человеческого ориентира 89,8[3]. Это был первый случай, когда единичная модель превосходила человека по метрике SuperGLUE[3]. Вдобавок, ансамбль из нескольких моделей DeBERTA повысил рекорд до ~90,3 балла[3]. Модель DeBERTa опередила прежнего лидера (Google Т5) примерно на 0,6% и продемонстрировала эффективность новых идей в архитектуре Transformer (раздельное представление содержимого и позиции слов, улучшенный декодер масок и пр.)[4].

Прогресс не остановился на достигнутом: по мере роста размеров и сложности языковых моделей результаты SuperGLUE продолжали улучшаться[5]. К концу 2021 года на вершине лидерборда оказалась модель Microsoft T-NLRv5 (семейство Microsoft Turing NLR) — она ещё больше увеличила разрыв сверх человеческого уровня[5]. Последние нерешённые для машин задачи GLUE (например, тонкости NLI) были «закрыты» этой моделью, вплотную приблизившейся к полноценному паритету с человеком даже по самым трудным подзадачам[5].

На 2022-2023 годы порог человеческого уровня на SuperGLUE был уверенно преодолён несколькими независимыми крупными моделями[6]. Например, модель PaLM от Google (540 млрд параметров) при дообучении на задачах SuperGLUE достигла порядка 90,4 балла, а модель GPT-4 (разработанная OpenAI) показала результат даже немного выше[6]. К середине 2023 года в таблице лидеров SuperGLUE насчитывалось сразу несколько моделей с результатом выше 90 (т.е. превышающих средний человеческий уровень)[6]. Можно говорить, что бенчмарк практически решён современными системами[6]: показатели лучших моделей настолько высоки, что превосходят возможности большинства неквалифицированных людей[6]. Этот успех свидетельствует о гигантском прогрессе в NLP за короткое время, но одновременно указывает на необходимость новых, ещё более сложных тестов для новейших моделей[6]. Уже появляются последующие бенчмарки (например, MMLU, BIG-Bench и др.), призванные проверять модели на более широкое понимание и эрудицию, выходящую за рамки задач SuperGLUE[6].

Влияние и дальнейшие исследования

SuperGLUE, таким образом, закрепился как важный этап развития оценочных методик в обработке языка[3]. В энтузиастских и научных кругах его результаты стали своего рода «лакмусовой бумажкой» для новых архитектур БЯМ: достижение или превышение человеческого уровня на SuperGLUE воспринимается как признак передовой модели с глубоким языковым пониманием[3]. Это отразилось и на практике — многие современные языковые модели, достигшие высоких результатов на SuperGLUE, легли в основу прикладных систем вопрос-ответ, диалоговых агентов, систем обобщения текста и др.[3]. SuperGLUE продолжает использоваться исследователями для тонкой настройки и сравнения алгоритмов, хотя передовое положение теперь постепенно смещается к новым рубежам оценки искусственного интеллекта.

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [1]
  2. 2,0 2,1 2,2 2,3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [2]
  3. 3,0 3,1 3,2 3,3 3,4 3,5 3,6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [3]
  4. «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [4]
  5. 5,0 5,1 5,2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [5]
  6. 6,0 6,1 6,2 6,3 6,4 6,5 6,6 «The Ultimate Guide to AI Benchmarks». The AI Navigator. [6]