BBQ (Bias Benchmark for Question Answering) — 问答偏见基准
BBQ (Bias Benchmark for Question Answering) 是一个用于评估问答(QA)系统中社会偏见(bias)的数据集[1]。它由纽约大学 Alicia Parrish 领导的研究团队开发,并于 2022 年在 ACL Findings 会议上发表[1][2]。BBQ 的目标是揭示大语言模型(LLM)及其他 QA 模型在回答问题时如何表现出刻板印象和偏见,尤其是在自然语言问答的应用任务中[1]。BBQ 已成为评估自然语言处理(NLP)中社会偏见最全面的基准之一,涵盖了九个社会类别下的广泛刻板印象[3]。
该数据集是对先前工作的补充,例如 UnQover 数据集(2020 年),该数据集衡量了有限特征(性别-职业、国籍、族裔、宗教)的偏见,并且依赖于模型的概率而非答案本身[3]。与 UnQover 不同,BBQ 直接分析模型回答的内容及其在给定选项中的选择,从而能够在输出结果层面评估偏见[1]。
BBQ 的作者将其定位为一种诊断模型中有害社会刻板印象的工具,旨在降低此类刻板印象对弱势群体产生负面影响的风险[1]。该数据集专注于与美国英语文化相关的刻板印象,并未涵盖所有可能的文化背景[1]。尽管如此,BBQ 为后续衡量和减轻 NLP 中社会偏见的工作奠定了基础,并成为比较模型伦理正确性的一个参考标准。
数据集的构成与结构
BBQ 包含约 5.85 万个问题和答案,这些问题和答案被分组到专门用于揭示特定刻板印象的数据集中[4]。所有样本均由作者根据有记录的、对不同社会群体成员造成伤害的偏见和刻板印象案例手动创建[4]。在创建场景时,作者们使用了科学研究、媒体文章、报告及其他可靠来源的数据,这些来源证实了某种刻板印象的存在及其有害后果[1]。对于每种情况,作者都提供了描述该刻板印象为负面或有害的来源链接(例如,科学论文或新闻报道)[1]。
社会类别
BBQ 涵盖了九个主要的社会重要类别(大部分与美国平等就业机会委员会定义的受保护群体相对应)[1]:
- 年龄 – 针对不同年龄群体的偏见(例如,关于老年人认知能力下降的刻板印象)[1]。
- 残障 – 关于残障人士心智能力或其他品质的刻板印象(例如,认为身体受限者在智力上能力较差)[1]。
- 性别认同 – 性别刻板印象(例如,“女孩数学不好”的观念)[1]。
- 国籍 – 民族-族裔偏见(例如,关于非洲裔技术水平不高的刻板印象)[1]。
- 外貌 – 基于外表、体型的歧视(例如,认为肥胖者不够聪明或勤奋)[1]。
- 种族/族裔 – 种族刻板印象(例如,将特定种族与犯罪或吸毒相联系的偏见)[1]。
- 宗教 – 宗教刻板印象(例如,认为犹太人贪婪,穆斯林有暴力倾向等)[1]。
- 社会经济地位 – 针对社会贫富阶层的偏见(例如,认为来自贫困家庭的人会是糟糕的父母)[1]。
- 性取向 – 恐同刻板印象(例如,将同性恋与艾滋病错误关联)[1]。
除了这九个类别外,BBQ 还引入了两个交叉类别(intersectional biases),结合了两种特征:(1)性别与种族/族裔的结合,以及(2)社会经济地位与种族的结合[1]。这些情况考虑了不同群体交叉点上的刻板印象(例如,专门针对黑人女性或来自低社会阶层的特定族裔的偏见)。
模板与样本生成
对于每个类别,团队都编写了场景模板——简短的情景描述,其中涉及两个在目标特征上有所不同的人物(例如,年轻与年老、男性与女性、富裕与贫穷等)[4]。模板中设定了一个可能证实或推翻已知刻板印象的情境。每个场景都附有问题和答案选项。
总共为九个主要类别各开发了 25 个独特的模板,另外为种族和性别类别增加了 25 个使用真实姓名的额外模板(以测试专有名词层面的偏见)[1]。此外,还为两个交叉方向各创建了 25 个模板[1]。因此,基础场景的总数超过 300 个。
每个模板都包含特殊的变量槽——用于填入群体名称或描述——这些变量会被代入文本中(例如,在年龄模板中,“_岁的人”会被替换为不同的数字,或者在外貌模板中,会使用“胖”/“瘦”等形容词)[1]。通过替换不同的值并打乱两个人物的提及顺序,每个模板可以扩展为多个具体样本(最少 8 个,最多可达约 200 个变体)[1]。通常,一个模板可以生成至少 100 个最终问题,在某些情况下甚至多达两百个[1]。最终,数据集共包含 58,492 个样本(即场景、问题和答案的独特组合)[4]。
上下文与问题类型
BBQ 的一个关键特点是,每个情境都以两种上下文和两种问题表述形式呈现,构成一个包含四个问题的集合(即所谓的四元组)[1]。这样做是为了区分信息不足的影响和模型固有的刻板印象。在每个四元组中[1]:
- 模糊上下文(under-informative or ambiguous context):描述了一个涉及两个来自不同群体的个体的场景,但没有提供足够的信息来明确回答所提出的问题[1]。在这种情况下,正确的答案总是“未知”(即数据不足)[1]。这些样本用于测试模型是否会依赖刻板印象进行推断。
- 明确上下文(disambiguated context):一个扩展场景,其中添加了 уточняющий细节,从而可以确定两个被提及的人中哪一个符合问题[1]。在这种情况下,其中一个人物是明确的正确答案(而“未知”选项则是错误的)。明确上下文用于测试模型是否能够克服其潜在偏见,并选择正确的答案,即使刻板印象暗示了相反的结论[1]。
- 负面问题(例如,“他们中谁对这个科目不熟悉?”,“谁犯了罪?”)[1]。这类问题与模糊上下文结合,用于检验模型在没有事实依据的情况下是否倾向于将负面行为与特定群体联系起来[1]。
- 非负面(对比)问题(例如,“他们中谁对这个科目很熟悉?”或“谁没有做坏事?”)[1]。非负面问题的设计旨在避免听起来像是直接认可刻板印象,但同时又能检验模型答案的平衡性[1]。通过比较对负面问题和中性问题的回答,可以揭示系统性的偏差。
四元组中的每个样本都有三个答案选项:两个具体的选项(分别指代场景中的两个群体)和一个表示信息不足的选项(标记为“Unknown”及其同义词)[1]。例如,在一个涉及基督徒和穆斯林的场景中,答案选项将是:“基督徒”、“穆斯林”或“未知”[1]。值得注意的是,“未知”这个词并非一成不变,而是使用了 10 个同义表达[1]。
此外,每个模板中两个群体的提及顺序会自动改变[1]。这是为了消除顺序效应——一个已知因素,即模型可能更倾向于选择第一个被提及的实体,而与内容无关[1]。
标注与质量验证
每个 BBQ 样本都由众包标注员进行评估:至少 5 名独立人员回答问题,最终数据集中只包含那些至少 4/5 标注员同意正确答案的样本(通过投票)[1]。如果任何问题未能通过此门槛,整个模板都会被重新审查和修改[1]。得益于此流程,人类在 BBQ 上的准确率非常高:单个标注员的正确率约为 95.7%,而考虑多数票的黄金标准准确率则达到 99.7%[1]。Krippendorff's alpha 一致性系数为 0.883,表明人类对于正确答案有高度的一致性[1]。这些指标证实了 BBQ 的任务对人类来说是清晰的,并且有客观正确的答案;因此,模型在这些样本上的错误可以被合理解释为偏见的表现,而非问题本身的模糊性所致。
模型偏见评估
BBQ 旨在对模型在诱发社会偏见情境下的行为进行多方面评估。在测试时,QA 模型接收上下文和问题作为输入,然后必须从三个答案选项中选择一个。结果分析在两个层面上进行[1]:
模糊上下文情况
衡量模型在缺乏必要信息的情况下回答错误的频率,即依赖刻板印象的程度[1]。理想情况下,模型应在上下文不足时回答“未知”,但如果它选择了某个特定群体,则被视为其内在刻板印象的投射[1]。此类错误的频率及其在各类别中的分布,反映了模型复现有害刻板印象的倾向。
信息明确的上下文情况
评估当上下文包含明确正确答案时模型的回答准确度[1]。这里通常计算标准的准确率(accuracy,正确答案的百分比),以显示模型是否能基本处理问答任务。然而,特别关注的是那些正确答案与刻板印象相悖的情况[1]。BBQ 的开发者分析了当正确答案与根深蒂固的刻板印象相矛盾时,模型的准确率是否会下降(反之,当事实与刻板印象的预期一致时,准确率是否会更高)[1]。这种效应表明,即使在有事实依据的情况下,模型也可能因偏见而出错。
Bias Score - 偏见分数
为了量化偏见程度,引入了一个专门的指标——偏见分数(bias score)[1]。广义上,偏见分数反映了模型回答中(根据条件,可能在错误回答或所有回答中)与刻板印象一致的比例[1]。
- 值为 +100% 意味着模型在所有情况下都选择了将负面特质刻板地归于目标群体的答案。
- 0% 表示没有偏见表现(模型要么总是回答正确/“未知”,要么在两个方向上犯错的次数相等)。
- 负分(最高可达 -100%)表示相反的趋势,即模型总是做出与刻板印象预期相反的回答[1]。
偏见分数是针对模糊上下文和明确上下文分别计算的,因为它们中的错误性质不同[1]。
- 对于模糊问题,偏见分数的定义是:在模型没有选择“未知”而是选择了某个具体答案的情况下,该答案与负面刻板印象一致的比例[1]。这类回答越多,正分值就越高。同时,准确率也被考虑在内:如果模型在犯错和回答正确(“未知”)之间平均分配,那么即使部分错误是刻板印象驱动的,其分数也会低于一个总是选择刻板印象答案的模型[1]。因此,偏见回答的频率和确定性都会受到惩罚(对于模糊上下文,该指标会根据回答“未知”的正确率进行缩放)[1]。
- 对于明确问题,偏见分数的计算方式略有不同,因为这里的正确答案是某个群体[1]。在这种情况下,关注的是模型的错误回答:在这些错误中,模型没有选择正确选项,而是选择了与刻板印象一致的替代选项的比例[1]。换句话说,如果模型因偏见而犯错(例如,不相信事实而按照刻板印象回答),这会增加分数[1]。
将偏见分数与总体准确率结合分析,可以详细描述模型在 BBQ 上的行为。作者指出,相同的准确率可能掩盖了不同性质的错误[1]。因此,该指标揭示了错误的方向性,并识别出仅凭准确率无法发现的细微情况。
结果与发现的规律
对几种流行的 QA 模型在 BBQ 数据集上进行的初步测试,展示了一系列明显的偏见表现[1]。在 Parrish 等人(2022 年)的研究中,测试了大型通用模型(如基于 T5 的通用 QA 模型 UnifiedQA)和标准化的多项选择模型(如在 QA 上进行微调的 ROBERTA)[1]。
实验结果的主要结论如下:
- 信息不足时出现严重的刻板印象错误。在所有测试系统中,当上下文未提供足够线索时,都观察到模型倾向于按刻板印象回答[1]。换言之,模型常常不选择“未知”选项,而是偏爱与某种刻板印象预期相关的具体答案[1]。例如,在没有明确罪犯的犯罪相关模糊问题中,模型常常指向特定群体(与偏见相符)的个体[1]。计算出的模糊上下文偏见分数远高于零,在某些模型的特定类别中甚至接近 +100%[1]。模型在与外貌(肥胖等)相关的场景中表现出特别高的刻板印象回答倾向——该类别产生的偏见明显高于种族或性取向等类别[1]。这表明模型内部的偏见并非同质——某些类型的刻板印象被模型“吸收”得更深。
- 事实明确时表现改善,但仍存在隐藏偏见。当模型接收到包含明确正确答案的上下文时,其准确率显著提高(相较于信息未知的情况)[1]。然而,详细分析揭示了一个微妙的效应:准确率根据正确答案与刻板印象的关系而表现不均[1]。平均而言,在正确答案与普遍刻板印象一致的样本中,模型的准确率比正确答案与刻板印象相悖的样本高出 3-3.5 个百分点[1]。换句话说,当事实证实偏见时,模型几乎能无误地给出答案;但当需要选择一个与刻板印象“不符”的选项时,出错的概率就会增加。尽管这种性能差距不大,但在许多类别中都具有统计显著性[1]。在与性别刻板印象相关的问题中,记录到了最大的差异,差距高达 5 个百分点[1]。因此,偏见的隐藏影响是存在的:模型在“反刻板印象”的情况下平均表现稍差。
- 类别与模板的比较。BBQ 的研究人员按九个类别分别分析了偏见分数,发现在模糊上下文中,所有类别的分数均为正值,但大小各不相同[1]。如前所述,在身体外貌、社会经济地位以及某些交叉类别中观察到最高的偏见[1]。种族/族裔和性取向类别的偏见分数较低,但仍为非零值[1]。在明确上下文中,偏见分数总体上接近于零(因为模型经常回答正确),但对于某些模板,分数仍然为正,反映出所犯错误性质的明显偏差[1]。例如,在宗教类别中,大多数错误都偏向一个方向——模型在出错时通常会根据偏见选择答案[1]。
总体而言,BBQ 证明了即使是强大的现代语言模型也明显未能摆脱社会偏见[1]。在不确定条件下,它们倾向于复现刻板印象,并且即使在有事实要求相反答案的情况下,也可能表现出微妙的偏见[1]。同时,这些效应的程度因群体而异:某些刻板印象被模型“吸收”得更深[1]。BBQ 的作者强调,尽管发现的差异是显著的,但并非灾难性的——大多数模型的偏见分数并未达到极端值,通常在几十个百分点的范围内[1]。然而,即使是微小的系统性偏向刻板印象的偏差,在 LLM 大规模使用时也具有潜在危险,因此识别和消除此类偏见是一项重要任务[3]。BBQ 为研究人员提供了一种清晰且可量化的方法来追踪该领域的进展[3]。
影响与后续研究
BBQ 数据集迅速被公认为评估语言模型公平性特征的标准工具[4]。其开源代码和数据可在代码仓库中获取(遵循 CC BY 4.0 许可证)[4],这使得广大研究社区能够在开发和测试新模型时应用 BBQ。在多篇综述中,BBQ 与其他基准(如 StereoSet、WinoBias、ToxiGen)一同被提及,被视为研究 NLP 中社会偏见的重要里程碑[3]。自 BBQ 发布以来,出现了许多发展其思想并将其适应新条件的研究工作:
- 扩展问题格式 (Open-BBQ)。原始 BBQ 提供的任务是多项选择格式[3]。2024 年,有人提出了 BBQ 的一个修改版,用于开放式回答,包括填空和简短文本回答任务[3]。这个版本,暂称为 Open-BBQ,允许在更自由的对话环境中评估偏见,模型没有固定的答案选项[3]。研究表明,LLM 在生成自由文本时也表现出对某些群体的更高偏见[3]。Open-BBQ 的作者还尝试了多种偏见缓解方法,结合了零样本(zero-shot)和少样本(few-shot)提示以及思维链(chain-of-thought,逐步推理)[3]。这些方法显著降低了回答中的偏见水平[3]。Open-BBQ 补充了原始数据集,使得在更接近用户查询的格式下测试生成模型成为可能。
- 文化适应(本地化)。由于 BBQ 与美国的社会现实紧密相关,研究人员对其在其他语言和文化中的适应性产生了兴趣[5]。2023 年,韩国科学家推出了数据集KoBBQ(Korean BBQ)——一个韩语版的偏见基准[5]。他们为 BBQ 的本地化制定了一套通用方法:将原始模板分为三类——可以直接翻译的,需要将群体替换为本地等效群体的,以及在韩国语境下完全不适用的[5]。此外,KoBBQ 引入了 4 个韩国社会特有的新刻板印象类别,并删除了一些不相关的样本[5]。最终形成了一个包含 268 个模板和 76,048 个韩语样本的数据集,涵盖了 12 个社会偏见类别(包括原始类别和新增类别)[5]。在 KoBBQ 上测试多语言模型的结果显示,与将原始 BBQ 机器翻译成韩语相比,偏见水平存在显著差异[5]。这强调了直接翻译是不够的——需要考虑每个国家独特刻板印象和文化背景的特定文化基准[5]。KoBBQ 的工作展示了将 BBQ 方法论在全球范围内推广的可能性。
BBQ 已成为人工智能伦理研究中不可或缺的一部分[3]。其影响体现在新的模型去偏见技术、构建更具包容性的数据集以及用于偏见精细分析的指标的出现。研究人员指出,BBQ 的一个主要优势是其广泛的覆盖范围和精心设计的样本[3]。为应对 BBQ 提出的挑战,近年来研究人员积极开发偏见缓解策略,从过滤训练数据到专门的后处理算法,再到微调 LLM 以产生公平的回答[3]。
总而言之,BBQ(Bias Benchmark for QA)已证明自己是衡量语言模型中社会偏见的宝贵而可靠的工具。它为研究社区提供了一套标准化的测试,使其能够比较模型的刻板印象程度,并跟踪其在提高公正性方面的进展[3]。BBQ 仍在不断扩展和适应,反映了全球对创建更公平、更安全的人工智能系统的兴趣[3],这些系统应免受那些不易察觉但危害重大的偏见的影响。
链接
- BBQ 原始论文 (arXiv)
- BBQ 的 GitHub 仓库
- BBQ 数据集在 Papers With Code 上的页面
- BBQ 论文在 ACL Anthology 上的页面
- 关于 KoBBQ 数据集的论文 (arXiv)
- 关于 Open-BBQ 数据集的论文 (arXiv)
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
注释
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. «BBQ: A Hand-Built Bias Benchmark for Question Answering». arXiv. [1]
- ↑ Parrish A. et al. «BBQ: A hand-built bias benchmark for question answering». ACL Anthology. [2]
- ↑ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). «Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings». arXiv preprint. [3]
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 «BBQ Dataset». Papers With Code. [4]
- ↑ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). «KoBBQ: Korean Bias Benchmark for Question Answering». arXiv preprint. [5]