HellaSwag Benchmark — HellaSwag 基准测试

From Systems analysis wiki
Jump to navigation Jump to search

HellaSwag 是一个于2019年推出的基准数据集(benchmark),用于评估人工智能模型在自然语言中理解日常情境(commonsense reasoning)的能力[1]。该基准由华盛顿大学和艾伦人工智能研究所的一组研究人员开发。

HellaSwag 的任务是为给定的文本上下文选择最合理的结尾。该数据集的关键特点在于,它对人类来说非常简单,但即使是依赖于表面统计规律的先进语言模型也会被难住[2]

历史与背景

HellaSwag 是在 SWAGSituations With Adversarial Generations)数据集思想的基础上发展而来的,后者由同一组作者于2018年提出。在 SWAG 任务中,模型需要为简单情境的描述选择最可能的后续发展。最初,SWAG 对算法来说很有挑战性,但随着 BERT 模型的出现,其在 SWAG 上的表现达到了 ~86%,几乎与人类水平相当[2]

这一成功引发了质疑:BERT 究竟是真正“理解”了文本,还是仅仅学会了识别数据集中存在的统计伪影和模式?HellaSwag 的作者们提出假设,认为 BERT 的高分并非源于真正的理解,而是对数据集特性的过拟合。他们证明,只要数据分布稍有变化,BERT 的准确率就会急剧下降。这意味着,为了客观评估NLP领域的进展,需要一个更复杂、更“刁钻”的新基准[2]

数据集的描述与目标

HellaSwag 被创建为一个测试,旨在揭示现代模型在理解因果关系和日常场景方面的局限性。

任务结构

每个 HellaSwag 样本都由两部分组成:

  1. 上下文:一个简短的段落(最多三个句子),描述某个情境的开头。
  2. 四个备选结局:四个可能的故事后续,同样由几个句子组成。

其中只有一个结局是正确的(真实的),另外三个则是为了迷惑模型而专门生成的错误选项。

数据来源

情境样本取自两个来源,涵盖了广泛的日常场景:

  • ActivityNet Captions:来自视频片段的动作描述(例如,“一个人打开一罐黄瓜”)。
  • WikiHow:文章中的操作指南(例如,“如何更换汽车轮胎”)。

HellaSwag 的目标是创建一个对人类来说(凭直觉)很容易解决,但对缺乏完整常识的模型来说却极其困难的基准。作者将这种效应称为“金发姑娘效应”(Goldilocks effect[1]

Adversarial Filtering (AF) method - 对抗性过滤(AF)方法

创建 HellaSwag 时的关键创新是对抗性过滤Adversarial Filtering,简称 AF)方法——一种为特定“目标”模型迭代筛选“陷阱”的流程。该方法能够生成从统计模型的角度看与正确选项极其相似的错误选项。

AF 的工作流程如下:

  1. 生成。基于原始上下文,一个生成式语言模型(例如 GPT)会创建大量潜在的错误结局。
  2. 判别。一个分类器模型(例如 BERT),作为“目标”,尝试区分生成的后续内容与真实的(正确的)后续内容。
  3. 筛选。筛选出那些被分类器认为最可信的错误选项,即模型最有可能出错的选项。
  4. 迭代。重复该过程,直到错误答案对于算法来说与正确答案尽可能相似。
  5. 人工验证。在最后阶段,由人类评估员对生成的数据集(上下文 + 1个正确结局 + 3个最佳错误结局)进行评估。评估员确认正确选项无疑是最自然的,而所有替代选项都包含某种对人类而言显而易见的逻辑不通之处[2]

得益于 AF,HellaSwag 中的每个样本在设计之初就是为了误导模型,同时对人类保持清晰易懂。

结果与意义

HellaSwag 成为了对文本理解模型的严峻考验。测试结果显示了机器智能与人类智能之间的巨大差距:

  • 人类 解决 HellaSwag 任务几乎不出错,准确率约为 95-96%[2]
  • 在当时最先进的模型 BERT-Large 仅达到了 ~47% 的准确率。更简单的方法表现仅略高于随机猜测(25%)[2]

超过 45个百分点 的差距证实了此前的假设:在以往测试中的高分并不意味着真正的理解。HellaSwag 证明,即使在海量数据上进行训练,模型也无法为新情境生成通用的常识。

在随后的几年里,HellaSwag 成为了评估新型语言模型的标准测试之一。AI 系统的进展可以通过它们在该基准上的表现来追踪。

  • 2020年,GPT-3 模型(1750亿参数)在 few-shot 模式下取得了 ~79% 的准确率,超过了当时许多专用模型的水平,但仍远低于人类[3]
  • 直到2023年,新一代模型(如 GPT-4)才在 HellaSwag 上达到了与人类相当的水平(准确率约 95%[4]

HellaSwag 的创建标志着一种评估 NLP 进展的新方法,其核心思想是演进式基准:随着模型的不断完善,必须创建新的、更复杂的测试来揭示它们的弱点。

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

  1. 1.0 1.1 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [1]
  2. 2.0 2.1 2.2 2.3 2.4 2.5 Zellers, R. et al. «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830, 2019. [2]
  3. Brown, T. B. et al. «Language Models are Few-Shot Learners». arXiv:2005.14165, 2020. [3]
  4. Zellers, R. et al. «HellaSwag Project Page». [4]