SuperGLUE (benchmark) — SuperGLUE 基准

From Systems analysis wiki
Jump to navigation Jump to search

SuperGLUE 是一个综合性的基准(一组测试任务),用于评估自然语言处理系统,特别是大语言模型 (LLM)[1]。它于2019年由纽约大学的 Alex Wang 领导的一组研究人员提出,Facebook AI Research 及其他组织也参与其中[1]

SuperGLUE 的创建是由于到了2019年中期,其前身基准 GLUE 对当时的模型来说已成为一个“简单的任务”:顶尖模型在 GLUE 上的综合得分达到了88.4,超过了人类平均水平(87.1)[1]。因此,进一步提升的空间已经很小[1]。作为回应,作者们开发了 SuperGLUE,作为一个更具挑战性的替代方案,能够对模型的语言理解能力进行更严格的检验[1]。SuperGLUE 的目标是为英语通用语言理解的进展提供一个中立且难以“应试”的衡量标准[1]。研究人员期望,在 SuperGLUE 上取得显著的成绩提升需要机器学习方法上的重大创新——例如,更有效的小样本学习、多任务学习和自监督学习[1]。换言之,SuperGLUE 包含了对人类简单但对机器智能困难的任务[1],以激励开发具有真正深度语言理解能力的模型。

与 GLUE 的特点和区别

SuperGLUE 在很多方面沿用了 GLUE 的格式——它提供一个涵盖所有任务的单一综合质量指标、一个公开的排行榜和一个用于模型分析的工具包[1]。然而,与前身相比,SuperGLUE 带来了一系列改进和创新[1]

  • 更复杂的任务:SuperGLUE 挑选了八个最具挑战性的任务[1]。其中两个继承自 GLUE(属于其中最难的任务),其余则是根据它们对当时 NLP 模型的难度从新的候选任务中选出的[1]。因此,该基准专注于模型以往表现最差的那些理解方面。
  • 多样的格式:GLUE 中的所有任务都可归结为句子或句子对的分类,而 SuperGLUE 则包含了更广泛的格式[1]。除了分类任务,还增加了指代消解问答任务,要求模型理解连贯的文本并进行逻辑推理[1]
  • 所有任务均有人类评估基线:SuperGLUE 的每项任务都计算了人类(非专家)的基础表现水平[1],这证实了即使是像 BERT 这样的强大模型,在该基准发布时也远逊于人类[1]人类基线(综合约90%)的存在为模型提供了成长空间,并作为一个目标[1]
  • 透明的规则和工具:排行榜的发布规则进行了修订(以确保公平比较并注明数据集作者的贡献)[1]。此外,还发布了一个新的开源代码工具包,方便在 SuperGLUE 数据上对模型进行微调和多任务学习[1]

总的来说,这些措施使 SuperGLUE 成为一个更可靠的测试,用于评估模型的泛化语言能力,防止通过狭隘的“作弊”或针对旧 GLUE 特定格式的过拟合来获得高分[1]

SuperGLUE 任务集

SuperGLUE 包含八项任务,涵盖文本理解的各个方面。

  • BoolQ (Boolean Questions):一种问答 (QA)任务,每个样本包含一小段文本(维基百科片段)和一个问题,需要回答“是”或“否”[1]。问题由用户(来自谷歌搜索查询)提出,需要从文本中提取明确或隐含的事实;评估指标为正确率 (accuracy)[1]
  • CB (CommitmentBank):一项三分类的文本蕴含任务[1]。数据集由包含复杂从句的短文本组成;任务是判断文本作者在多大程度上确信嵌入子句的真实性[1]。实际上,这是在检验一个断言是否能从给定上下文中推断出来。由于样本量小(约250个样本)和类别不均衡,该任务具有挑战性;质量通过准确率和按类别平均的 F1 分数来评估[1]
  • COPA (Choice of Plausible Alternatives):一项因果推理任务[1]。模型会得到一个前提(一个句子),并需要从两个选项中选择正确的原因或结果[1]。所有 COPA 样本都是手动创建的,需要常识来建立因果关系。主题涵盖博客和专业百科全书中的情景;指标为准确率(正确选择的比例)[1]。例如:给定句子“孩子对这种疾病产生了免疫力”和问题“原因是什么?”,人类会立刻明白正确答案是“他接种了疫苗”,而模型则必须猜测其中的因果联系[1]
  • MultiRC (Multi-Sentence Reading Comprehension):一项带有选择题元素的多句阅读理解任务[1]。模型会得到一段文本、一个关于文本内容的问题以及一个可能的答案列表;需要确定哪些答案是正确的(每个问题可能有多个正确答案)[1]。其特点是:回答问题通常需要整合文本中多个句子的信息,这考验了模型关联事实的能力[1]。质量通过两个指标衡量:答案的 F1 分数(考虑部分正确的答案集)和 Exact Match(完全匹配,即答案集完全正确的比例)[1]
  • ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset):一项需要常识推理的阅读理解任务[1]。它是一种改良的完形填空测试:给定一篇新闻文本(来自 CNN/Daily Mail 的文章)和一个缺少一个实体词的句子;模型需要从文本中选择合适的实体来填补空缺[1]。答案选项是文章中提到的所有实体,其中一些在本质上可能相似[1]。成功解决此任务需要理解上下文和常识。指标是预测答案的最大 token-level F1 分数和 Exact Match(精确匹配)[1]
  • RTE (Recognizing Textual Entailment):一项关于文本蕴含的二元分类任务(蕴含 vs. 不蕴含)[1]。数据集整合了多个文本蕴含识别竞赛(RTE 1-5系列)的样本[1]。每个任务包含一对文本片段(前提-假设);模型需要判断假设是否能从前提文本中推断出来。与许多大型数据集不同,RTE 相当小(约2500个训练样本),但通过迁移学习获得了显著提升:随着 BERT 等模型的出现,准确率从约56%(随机猜测水平)提高到约86%[1]。尽管如此,在 SuperGLUE 启动时,模型的准确率仍比人类低约8个百分点[1],因此 RTE 被作为一项与人类水平仍有差距的任务被纳入其中。
  • WiC (Word-in-Context):一项根据上下文判断词义的任务 (WSD)[1]。给定两个独立的句子,每个句子中都出现同一个多义词;需要判断这个词在两种情况下是否以相同的含义使用[1]。数据来自词典资源(WordNet、VerbNet、Wiktionary),因此涵盖了广泛的词汇和词义[1]。该任务被形式化为二元分类,并以正确率进行评估。WiC 要求模型理解细微的语义差异,实际上是在检验其词汇语义能力。
  • WSC (Winograd Schema Challenge):一项利用常识进行指代消解的任务[1]。每个任务由一个包含代词的句子和该句子中的两个实体(名词)列表组成[1]。需要确定该代词指代的是哪个名词[1]。一个经典的维诺格拉德模式句子示例:“奖杯放不进手提箱,因为它太小了”——人类明白“它”指的是手提箱(手提箱太小了)。这类例子没有日常知识和背景是无法解决的[1]。GLUE 中已包含该任务的简化版 (WNLI),但模型长期以来甚至无法超越随机水平[1]。直到2019年,通过添加包含相似样本的外部数据等特殊技巧,模型在 WSC 上的表现才提升至约90%[1]。然而,人类解决 WSC 任务几乎不出错(约96-100%的正确率)[1]。SuperGLUE 中包含了 WSC 的原始版本,形式为二元分类(对于每对“代词-实体”,模型回答它们的指代是否相同)[1]。这项任务仍然是需要常识推理的最困难测试之一。

所有 SuperGLUE 测试都有封闭的测试集,开发者无法获知其答案[1]。模型将其预测提交到服务器,服务器会计算一个综合分数——各任务准确率的平均值(对于有多个指标的任务,会先对其内部指标进行平均)[1]。这样一个统一的SuperGLUE 分数简化了对模型通用语言智能水平的比较。

模型结果与进展

在 SuperGLUE 启动时,其作者提供了强大的基线模型(增强版 BERT)的结果作为参考——结果显示,在所有任务上,该模型都显著低于人类水平[1]。平均而言,当时最好的模型在综合指标上比人类低了大约20分[1]。在某些特定任务上,差距尤其大:例如,在 WSC 任务中,模型的准确率勉强达到约65%,而人类为100%(相差约35分)[1]。即使在看起来“更简单”的任务(BoolQ、CB、RTE、WiC)上,自动化系统也比人类水平低约10分[1]。这些差异证实了 SuperGLUE 确实对现有技术构成了严峻挑战,无法轻易解决。

然而,在 SuperGLUE 出现仅几个月后,就出现了快速进展[1]。2019年底,谷歌研究人员推出了拥有110亿参数的T5 (Text-To-Text Transfer Transformer) 模型,其综合得分达到88.9,非常接近人类水平的约89.8[2]。实际上,T5 将 SuperGLUE 先前的记录一口气提升了4.3分,并将错误率降低了近三分之一[2],与人类表现仅剩下0.9分的微小差距[2]。开发者指出,SuperGLUE 的任务是特意为人类设计的简单任务,因此模型达到约89%的水平是一个重要的里程碑[2]

第一个成功超越平均人类表现的模型是微软的DeBERTa (Decoding-enhanced BERT with disentangled attention)[3]。2021年1月,研究人员宣布,拥有15亿参数的 DeBERTa 版本获得了89.9分,略高于人类基线89.8[3]。这是首次有单一模型在 SuperGLUE 指标上超越人类[3]。此外,由多个 DeBERTa 模型组成的集成模型将记录提高到约90.3分[3]。DeBERTa 模型比之前的领先者(谷歌 T5)高出约0.6%,并展示了 Transformer 架构中新思想的有效性(例如分离的内容和位置表示、改进的掩码解码器等)[4]

进展并未就此停止:随着语言模型规模和复杂性的增长,SuperGLUE 的成绩持续提高[5]。到2021年底,微软的T-NLRv5模型(属于 Microsoft Turing NLR 系列)登上了排行榜的榜首——它进一步拉大了与人类水平的差距[5]。GLUE 中最后一些对机器而言尚未解决的任务(例如 NLI 的细微之处)被该模型“攻克”,使其在最困难的子任务上也接近与人类完全持平[5]

到2022-2023年,多个独立的大型模型已经稳稳地超越了 SuperGLUE 的人类水平门槛[6]。例如,谷歌的PaLM模型(5400亿参数)在 SuperGLUE 任务上进行微调后达到了约90.4分,而 OpenAI 开发的GPT-4模型表现甚至略高一些[6]。到2023年中期,SuperGLUE 排行榜上已有多个模型得分超过90(即超过平均人类水平)[6]。可以说,该基准几乎已被现代系统解决[6]:顶尖模型的表现如此之高,以至于超过了大多数非专业人士的能力[6]。这一成功证明了 NLP 在短时间内的巨大进步,但同时也表明需要新的、更复杂的测试来评估最新的模型[6]。后续的基准(如 MMLU、BIG-Bench 等)已经出现,旨在测试模型在 SuperGLUE 任务范围之外的更广泛的理解和知识[6]

影响与未来研究

因此,SuperGLUE 巩固了其作为语言处理领域评估方法发展的重要里程碑的地位[3]。在爱好者和科学界,其结果已成为检验新型 LLM 架构的“试金石”:在 SuperGLUE 上达到或超过人类水平被视为拥有深度语言理解能力的先进模型的标志[3]。这也反映在实践中——许多在 SuperGLUE 上取得优异成绩的现代语言模型,已成为问答系统、对话代理、文本摘要系统等应用的基础[3]。尽管前沿研究的焦点正逐渐转向新的人工智能评估领域,但 SuperGLUE 仍被研究人员用于算法的微调和比较。

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 Wang, Alex et al. (2019). «SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems». NeurIPS. [1]
  2. 2.0 2.1 2.2 2.3 «Google T5 algorithm scores 88.9 on SuperGLUE languge benchmark, compared to 89.8 human baseline». Reddit /r/linguistics. [2]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 3.6 «Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark». Microsoft Research Blog. [3]
  4. «Microsoft DeBERTa Tops Human Performance on SuperGLUE NLU Benchmark». Synced Review. [4]
  5. 5.0 5.1 5.2 «Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE». Microsoft Research Blog. [5]
  6. 6.0 6.1 6.2 6.3 6.4 6.5 6.6 «The Ultimate Guide to AI Benchmarks». The AI Navigator. [6]

Category:AI tools