WinoGrande Benchmark — WinoGrande基准测试
WinoGrande是一个大规模基准数据集,旨在评估人工智能系统基于常识进行推理的能力。它包含约44,000个任务,这些任务基于维诺格拉德模式挑战(Winograd Schema Challenge, WSC)的格式,但通过一种“对抗性”过滤方法进行了显著扩展和复杂化,以消除统计线索[1]。
该数据集由艾伦人工智能研究所(Allen Institute for AI)和华盛顿大学的研究人员于2019年开发。每个任务都是一个带空格的句子,需要根据上下文和对情境的理解,从两个选项中选择一个正确的来填空。WinoGrande已成为自然语言处理(NLP)领域的关键基准之一[2]。
创建背景:WSC的过时
最初的维诺格拉德模式挑战(WSC)于2011年提出,仅包含273个任务,在很长一段时间里被认为是衡量常识推理的可靠测试。其中的任务经过精心设计,要求的是对世界的理解,而不仅仅是简单的词语匹配[3]。
然而,到了2018–2019年,随着基于Transformer架构的大型语言模型(如BERT)的出现,情况发生了变化。这些模型学会了“破解”该测试,通过利用数据中无意的统计规律(即“数据伪影”或“artifacts”),而非真正的理解,达到了约90%的准确率[4]。WSC不再是一个可靠的指标,这催生了创建一个更新、更复杂、规模更大的基准测试的需求——即WinoGrande。
开发与对抗性过滤方法
WinoGrande的创建过程分为两个主要阶段:大规模任务生成和随后的过滤。
众包
在第一阶段,通过亚马逊土耳其机器人(Amazon Mechanical Turk)平台,收集了一个包含超过47,000个句子的庞大数据库。众包工作者根据维诺格拉德模式创建句子对,这确保了语言的多样性和自然语言固有的“噪音”,与由一小群专家编写的任务形成对比[1]。
AfLite算法
WinoGrande的关键创新是AfLite(Adversarial Filtering Lite)算法。该方法旨在自动筛选掉那些可以通过简单统计线索解决而无需常识推理的任务。该算法使用简单的模型来识别并移除那些其中一个答案与句子中其他词语有明显关联的样本。 例如,任务“狮子吃了斑马,因为它们是掠食者”就会被过滤掉,因为“掠食者”这个词在统计上与“狮子”紧密相关。
经过过滤,约有14%的收集数据被丢弃。数据集的最终版本包含43,972个任务,这使其成为一个更可靠、更具挑战性的测试[1]。
模型结果与进展
WinoGrande发布时,当时最先进的模型表现远逊于人类。
- RoBERTa(BERT的改进版)达到了约79%的准确率。
- 人类的平均准确率为约94%[1]。
这一差距证实了AfLite过滤成功地消除了模型可以利用的许多“捷径”。然而,随着大型语言模型(LLM)的发展,这一差距开始缩小。
影响与批评
WinoGrande已成为评估常识推理能力的关键基准之一,并被常规性地用于测试新模型。其结果被发布在顶尖AI公司的技术报告中,以及用于模型比较的平台上[8]。
同时,该数据集的创建方法也成为了科学讨论的主题。一些研究人员指出,大规模众包可能导致出现不自然或模棱两可的短语。也有人对AfLite自动过滤能否完全消除所有隐藏的数据伪影(artifacts)表示怀疑[5]。尽管如此,WinoGrande不仅推动了评估指标的进步,也激发了关于创建更稳健、更可靠的AI评估方法的重要讨论。
链接
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
注释
- ↑ 1.0 1.1 1.2 1.3 Sakaguchi, K., Le Bras, R., Bhagavatula, C., Choi, Y. «WinoGrande: An Adversarial Winograd Schema Challenge at Scale». arXiv:1907.10641. [1]
- ↑ «allenai/winogrande». Hugging Face. [2]
- ↑ «Winograd schema challenge». In Wikipedia. [3]
- ↑ Kocijan, V. et al. «The defeat of the Winograd Schema Challenge». Artificial Intelligence. [4]
- ↑ 5.0 5.1 Lepore, J. «AI Has Been Surprising for Years». Carnegie Endowment for International Peace. [5]
- ↑ Brown, T. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165. [6]
- ↑ OpenAI. «GPT-4 Technical Report». arXiv:2303.08774. [7]
- ↑ «Common Sense Reasoning On Winogrande». HyperAI. [8]
Category:AI tools