BBQ (Bias Benchmark for Question Answering) (FR)
BBQ (Bias Benchmark for Question Answering) est un jeu de données (dataset) conçu pour évaluer les biais sociaux (bias) dans les systèmes de question-réponse (QA)[1]. Il a été développé par une équipe de chercheurs de l'Université de New York, dirigée par Alicia Parrish, et publié en 2022 lors de la conférence ACL Findings[1][2]. L'objectif de BBQ est de révéler comment les grands modèles de langage (LLM) et autres modèles de QA manifestent des stéréotypes et des préjugés dans leurs réponses, en particulier dans les tâches appliquées de réponse à des questions en langage naturel[1]. BBQ est devenu l'un des benchmarks les plus complets pour l'évaluation des biais sociaux en NLP, couvrant un large éventail de stéréotypes à travers neuf catégories sociales[3].
Ce jeu de données complète les travaux antérieurs, tels que le dataset UnQover (2020), qui mesurait les biais sur un nombre limité de caractéristiques (genre-profession, nationalité, ethnicité, religion) et se basait sur les probabilités des modèles plutôt que sur les réponses elles-mêmes[3]. Contrairement à UnQover, BBQ analyse directement le contenu des réponses des modèles et leur choix parmi les options proposées, ce qui permet d'évaluer les biais au niveau des résultats produits[1].
Les auteurs de BBQ le positionnent comme un outil pour diagnostiquer les stéréotypes sociaux néfastes dans les modèles et pour réduire le risque d'impact négatif de ces stéréotypes sur les groupes de population vulnérables[1]. Le jeu de données se concentre sur les stéréotypes pertinents pour la culture anglophone des États-Unis et ne couvre pas tous les contextes culturels possibles[1]. Néanmoins, BBQ a jeté les bases de travaux ultérieurs sur la mesure et l'atténuation des biais sociaux en NLP et est devenu une référence pour comparer les modèles en termes de leur correction éthique.
Composition et structure du jeu de données
BBQ contient environ 58 500 questions et réponses, regroupées en ensembles spécifiques visant à détecter des stéréotypes précis[4]. Tous les exemples ont été créés manuellement par les auteurs, en se basant sur des cas documentés de préjugés et de stéréotypes nuisibles pour les représentants de divers groupes sociaux[4]. Pour créer les scénarios, des données issues de recherches scientifiques, d'articles de presse, de rapports et d'autres sources fiables ont été utilisées pour confirmer l'existence d'un stéréotype donné et ses conséquences néfastes[1]. Pour chaque situation, les auteurs fournissent un lien vers la source où le stéréotype est décrit comme négatif ou nuisible (par exemple, un article scientifique ou une note d'information)[1].
Catégories sociales
BBQ couvre neuf grandes catégories sociales (la plupart correspondant aux groupes protégés définis par la Commission américaine pour l'égalité des chances en matière d'emploi)[1] :
- Âge – préjugés liés aux groupes d'âge (par exemple, le stéréotype selon lequel les capacités cognitives des personnes âgées diminuent)[1].
- Handicap – stéréotypes sur les capacités mentales ou autres qualités des personnes en situation de handicap (par exemple, l'idée que les personnes à mobilité réduite sont moins compétentes intellectuellement)[1].
- Identité de genre – stéréotypes de genre (par exemple, l'idée que « les filles sont mauvaises en mathématiques »)[1].
- Nationalité – préjugés nationaux et ethniques (par exemple, le stéréotype de l'incompétence technique des personnes d'origine africaine)[1].
- Apparence physique – discrimination basée sur l'apparence, la morphologie (par exemple, l'opinion que les personnes obèses sont moins intelligentes ou moins travailleuses)[1].
- Race/ethnicité – stéréotypes raciaux (par exemple, l'association biaisée d'une certaine race avec la criminalité ou la toxicomanie)[1].
- Religion – stéréotypes religieux (par exemple, l'idée que les Juifs sont avares, ou que les Musulmans sont enclins à la violence, etc.)[1].
- Statut socio-économique – préjugés envers les couches pauvres ou riches de la société (par exemple, la conviction que les personnes issues de familles pauvres seront de mauvais parents)[1].
- Orientation sexuelle – stéréotypes homophobes (par exemple, la fausse association de l'homosexualité avec l'infection par le VIH)[1].
En plus de ces neuf catégories, BBQ présente deux catégories intersectionnelles (intersectional biases), combinant deux caractéristiques : (1) le genre combiné à la race/ethnicité et (2) le statut socio-économique combiné à la race[1]. Ces cas prennent en compte les stéréotypes à l'intersection de différents groupes (par exemple, les préjugés spécifiques à l'encontre des femmes noires ou de certaines ethnies de classe sociale inférieure).
Modèles et génération d'exemples
Pour chaque catégorie, l'équipe a rédigé des modèles de scénarios — de courtes descriptions mettant en scène deux personnages se distinguant par la caractéristique ciblée (par exemple, jeune et âgé, homme et femme, riche et pauvre, etc.)[4]. Le modèle présente une situation qui pourrait confirmer ou infirmer un stéréotype connu. À chaque scénario sont associés des questions et des options de réponse.
Au total, 25 modèles uniques ont été développés pour chacune des neuf catégories principales, plus 25 modèles supplémentaires pour les catégories de race et de genre utilisant des noms réels (pour tester les biais au niveau des noms propres)[1]. De plus, 25 modèles ont été créés pour chacune des deux directions intersectionnelles[1]. Ainsi, le nombre total de scénarios de base dépasse 300.
Chaque modèle contient des emplacements pour des variables — des noms de groupes ou des descriptions — qui sont insérés dans le texte (par exemple, dans un modèle sur l'âge, différents chiffres sont substitués à « personne de _ ans », ou pour l'apparence, des adjectifs comme « corpulent »/« mince », etc.)[1]. En substituant différentes valeurs et en permutant l'ordre de mention des deux figures, chaque modèle est étendu à une multitude d'exemples concrets (au minimum 8 et jusqu'à ~200 variations)[1]. En général, un seul modèle génère au moins 100 questions finales, et dans certains cas, jusqu'à deux cents[1]. Au total, cela a abouti à un corpus de 58 492 exemples (combinaisons uniques de scénario, question et réponse)[4].
Contextes et types de questions
Une caractéristique clé de BBQ est que chaque situation est présentée avec deux variantes de contexte et deux formulations de question, formant un ensemble de quatre questions (appelé un cluster de 4)[1]. Ceci est fait pour séparer l'influence d'un manque d'information des stéréotypes propres au modèle. Dans chaque quatuor[1] :
- Contexte ambigu (under-informative or ambiguous context) : un texte décrivant une situation impliquant deux personnes de groupes différents, mais ne contenant pas suffisamment d'informations pour répondre de manière univoque à la question posée[1]. La bonne réponse dans de tels cas est toujours l'option « inconnu » (c'est-à-dire l'absence de données suffisantes)[1]. Ces exemples servent à vérifier si le modèle ne tire pas une conclusion basée sur un stéréotype.
- Contexte désambiguïsé (disambiguated context) : un scénario étendu où un détail clarifiant est ajouté, permettant de déterminer laquelle des deux personnes mentionnées correspond à la question[1]. Dans ce cas, l'un des deux personnages est délibérément la bonne réponse (et l'option « inconnu » est incorrecte). Le contexte désambiguïsé sert à vérifier si le modèle peut surmonter son biais éventuel et choisir la bonne réponse, même si le stéréotype suggère le contraire[1].
- Question négative (par exemple, « Qui connaît mal le sujet ? », « Qui a commis le crime ? »)[1]. Une telle question, combinée à un contexte ambigu, teste si le modèle est enclin à associer une action négative à un groupe particulier en l'absence de faits[1].
- Question non négative (contrastive) (par exemple, « Qui connaît bien le sujet ? » ou « Qui s'abstient de commettre une mauvaise action ? »)[1]. La question non négative est formulée de manière à ne pas paraître approuver directement un stéréotype, tout en permettant de vérifier l'équilibre des réponses du modèle[1]. La comparaison des réponses aux versions négatives et neutres révèle des déséquilibres systématiques.
Chacun de ces quatre exemples dans le cluster a trois options de réponse : deux réponses spécifiques (nommant chacun des deux groupes en présence) et une option indiquant un manque d'informations suffisantes (marquée comme « Unknown » et des phrases équivalentes)[1]. Par exemple, dans une scène impliquant un chrétien et un musulman fictifs, les options de réponse seraient : « le chrétien », « le musulman » ou « inconnu »[1]. De plus, le mot « inconnu » n'est pas toujours le même — 10 expressions synonymes sont utilisées[1].
De plus, dans chaque modèle, l' ordre de mention des deux groupes est automatiquement modifié[1]. Ceci est fait pour neutraliser l' effet d'ordre — un facteur connu où les modèles peuvent plus souvent choisir la première entité nommée, indépendamment du contenu[1].
Annotation et contrôle qualité
Chaque exemple de BBQ a été évalué par des annotateurs via le crowdsourcing : au moins 5 personnes indépendantes ont répondu aux questions, et seuls les exemples pour lesquels au moins 4 des 5 annotateurs étaient d'accord sur la bonne réponse (par vote) ont été inclus dans le jeu de données final[1]. Si une question ne passait pas ce seuil, l'ensemble du modèle était révisé et modifié[1]. Grâce à ce processus, la précision humaine sur BBQ est très élevée : les annotateurs individuels ont répondu correctement à ~95,7 % des questions, et en tenant compte du vote majoritaire, la précision de la référence (gold standard) atteint 99,7 %[1]. L'alpha de Krippendorff (critère de concordance) était de 0,883, ce qui indique une forte cohérence entre les humains concernant les bonnes réponses[1]. Ces mesures confirment que les tâches de BBQ sont compréhensibles pour les humains et ont des réponses objectivement correctes ; par conséquent, les erreurs des modèles sur ces exemples peuvent être interprétées de manière fondée comme des manifestations de biais, et non comme une ambiguïté des questions elles-mêmes.
Évaluation des biais des modèles
BBQ est conçu pour une évaluation multidimensionnelle du comportement des modèles dans des conditions qui provoquent des biais sociaux. Lors du test, un modèle de QA reçoit un contexte et une question, puis doit choisir l'une des trois options de réponse. L'analyse des résultats est effectuée à deux niveaux[1] :
Cas du contexte ambigu
On mesure la fréquence à laquelle le modèle répond incorrectement aux questions en l'absence des informations nécessaires, c'est-à-dire qu'il se fie à un stéréotype[1]. Idéalement, le modèle devrait répondre « inconnu » à toute question avec un contexte insuffisant, mais s'il choisit l'un des groupes, cela est considéré comme une projection d'un stéréotype sous-jacent[1]. La fréquence de ces erreurs et leur répartition par catégorie donnent un aperçu de la tendance du modèle à reproduire des stéréotypes néfastes.
Cas du contexte informatif
On évalue la précision avec laquelle le modèle répond lorsque le contexte contient une réponse explicitement correcte[1]. Ici, on calcule généralement la métrique standard de précision (accuracy) (pourcentage de bonnes réponses) – elle montre si le modèle maîtrise la tâche de question-réponse en général. Cependant, une attention particulière est accordée aux cas où la bonne réponse va à l'encontre du stéréotype[1]. Les développeurs de BBQ analysent si la précision du modèle diminue lorsque la bonne réponse contredit un stéréotype bien ancré (et, inversement, si la précision n'est pas plus élevée lorsque la vérité coïncide avec l'attente stéréotypée)[1]. Un tel effet indiquerait que même en présence de faits, le modèle peut commettre des erreurs à cause de ses biais.
Score de biais (Bias Score)
Pour quantifier le degré de préjugé, une métrique spéciale est introduite — le score de biais (bias score)[1]. En termes généraux, le score de biais reflète le pourcentage des réponses du modèle (parmi les réponses incorrectes ou toutes, selon la condition) qui coïncident avec le stéréotype[1].
- Une valeur de +100% signifierait que le modèle a dans tous les cas choisi l'option de réponse qui attribue stéréotypiquement une qualité négative au groupe cible.
- 0% — aucune manifestation de biais (le modèle répond toujours correctement/« inconnu », ou se trompe de manière égale dans les deux sens).
- Un score négatif (jusqu'à -100%) — une tendance opposée, où le modèle répond toujours à l'encontre de l'attente stéréotypée[1].
Les scores sont calculés séparément pour les contextes ambigus et désambiguïsés, car la nature des erreurs y est différente[1].
- Pour les questions ambiguës, le score de biais est déterminé par la proportion de cas où le modèle, au lieu de « inconnu », a choisi une réponse spécifique, et cette réponse coïncidait avec un stéréotype négatif[1]. Plus ces réponses sont fréquentes, plus le score positif est élevé. La précision est également prise en compte : si le modèle se trompe autant qu'il répond correctement (« inconnu »), alors même avec des erreurs stéréotypées partielles, le score sera plus bas que celui d'un modèle qui choisit toujours la réponse stéréotypée[1]. Ainsi, la fréquence et la confiance des réponses biaisées sont pénalisées (pour les contextes ambigus, la métrique est mise à l'échelle en tenant compte du pourcentage de réponses correctes « inconnu »)[1].
- Pour les questions désambiguïsées, le score de biais est calculé un peu différemment, car la bonne réponse est l'un des groupes[1]. Dans ces cas, on examine les réponses incorrectes du modèle : la proportion d'erreurs où le modèle a choisi non pas la bonne option, mais l'alternative qui coïncide avec le stéréotype[1]. En d'autres termes, si le modèle s'est trompé en privilégiant un préjugé (par exemple, en ne croyant pas aux faits et en répondant selon le stéréotype), cela augmente le score[1].
L'analyse du score de biais, parallèlement à la précision globale, permet de caractériser en détail le comportement du modèle sur BBQ. Les auteurs soulignent que des précisions (accuracy) identiques peuvent cacher des natures d'erreurs différentes[1]. Ainsi, cet indicateur montre la directionnalité des erreurs et révèle des cas subtils qui ne sont pas visibles avec la seule précision.
Résultats et tendances identifiées
Les premiers tests de plusieurs modèles de QA populaires sur l'ensemble de données BBQ ont démontré un certain nombre de manifestations claires de biais[1]. Dans l'étude de Parrish et al. (2022), des modèles universels de grande taille (comme UnifiedQA – un modèle généralisé pour le QA basé sur T5) ainsi que des modèles standardisés à choix multiples (comme RoBERTa affiné pour le QA) ont été testés[1].
Les principales conclusions des expériences sont les suivantes :
- Fortes erreurs stéréotypées en cas de manque d'information. Dans tous les systèmes testés, une tendance à répondre conformément aux stéréotypes a été observée lorsque le contexte ne fournissait pas les indices nécessaires[1]. En d'autres termes, les modèles n'ont souvent pas choisi l'option « inconnu », préférant une réponse spécifique correspondant à une attente stéréotypée[1]. Par exemple, dans les questions ambiguës sur un crime sans coupable évident, les modèles ont souvent désigné des personnes d'un groupe particulier (correspondant au préjugé)[1]. Le score de biais calculé pour les contextes ambigus s'est avéré significativement supérieur à zéro, approchant parfois +100 % dans certaines catégories pour certains modèles[1]. Les modèles ont montré une propension particulièrement élevée aux réponses stéréotypées dans les scènes liées à l' apparence physique (obésité, etc.) — cette catégorie a produit un biais nettement plus important que, par exemple, la race ou l'orientation sexuelle[1]. Cela indique une hétérogénéité du biais au sein d'un modèle — certains types de stéréotypes sont plus fortement « assimilés » que d'autres.
- Amélioration en présence de faits, mais persistance d'un biais caché. Lorsque les modèles recevaient un contexte désambiguïsé avec une indication claire de la bonne réponse, leur précision augmentait notablement (par rapport à la situation d'incertitude)[1]. Cependant, une analyse détaillée a révélé un effet subtil : la précision s'est avérée inégale en fonction de la relation entre la bonne réponse et le stéréotype[1]. En moyenne, les modèles atteignaient une précision supérieure de 3 à 3,5 points de pourcentage dans les exemples où la bonne réponse coïncidait avec un stéréotype répandu, par rapport aux exemples où la bonne réponse contredisait ce stéréotype[1]. En d'autres termes, lorsque les faits confirmaient le préjugé, les modèles donnaient la réponse presque sans erreur ; mais s'il fallait nommer l'option « atypique » pour le stéréotype, la probabilité d'erreur augmentait. Cet écart de performance, bien que non énorme, s'est manifesté statistiquement dans de nombreuses catégories[1]. L'écart le plus important a été enregistré pour les questions liées aux stéréotypes de genre : jusqu'à 5 points de pourcentage de différence[1]. Ainsi, une influence cachée du biais est perceptible : les modèles fonctionnent en moyenne légèrement moins bien « contre le stéréotype ».
- Comparaison des catégories et des modèles. Les chercheurs de BBQ ont analysé le score de biais par catégorie et ont constaté que dans les contextes ambigus, l'indicateur est positif dans toutes les catégories, mais sa magnitude varie[1]. Comme mentionné, les biais maximaux ont été observés dans les catégories de l'apparence physique, du statut socio-économique et dans certaines catégories intersectionnelles[1]. Des scores de biais plus faibles, bien que non nuls, ont été relevés pour les catégories de race/ethnicité et d'orientation sexuelle[1]. Dans les contextes désambiguïsés, le score de biais est globalement plus proche de zéro (car le modèle répond souvent correctement), mais reste positif pour certains modèles, reflétant un déséquilibre notable dans la nature des erreurs commises[1]. Par exemple, dans la catégorie de la religion, la plupart des erreurs allaient dans un seul sens — les modèles, lorsqu'ils se trompaient, choisissaient généralement la réponse basée sur le préjugé[1].
Dans l'ensemble, BBQ a démontré que même les modèles de langage modernes et performants ne sont manifestement pas exempts de préjugés sociaux[1]. Ils ont tendance à reproduire des stéréotypes lorsqu'ils sont placés dans des conditions d'incertitude et peuvent présenter des biais subtils même en présence de faits exigeant une réponse contraire[1]. De plus, l'ampleur de ces effets n'est pas la même pour tous les groupes : certains stéréotypes sont plus fortement « assimilés » par le modèle[1]. Les auteurs de BBQ soulignent que les différences observées, bien que notables, ne sont pas catastrophiques – les scores de biais de la plupart des modèles n'atteignent pas des valeurs extrêmes, se situant souvent dans la plage de quelques dizaines de pourcents[1]. Néanmoins, même de faibles écarts systématiques en faveur des stéréotypes sont potentiellement dangereux lors d'une utilisation à grande échelle des LLM. Par conséquent, l'identification et l'élimination de tels biais constituent une tâche importante[3]. BBQ a fourni aux chercheurs un moyen clair et quantifiable de suivre les progrès dans ce domaine[3].
Influence et recherches futures
Le jeu de données BBQ a rapidement été reconnu comme un outil standard pour évaluer les caractéristiques d'équité (fairness) des modèles de langage[4]. Son code source et ses données ouverts sont disponibles dans un dépôt (licence CC BY 4.0)[4], ce qui a permis à une large communauté de chercheurs d'utiliser BBQ pour le développement et le test de nouveaux modèles. Dans plusieurs revues de la littérature, BBQ est mentionné aux côtés d'autres benchmarks (par exemple, StereoSet, WinoBias, ToxiGen) comme une étape importante dans l'étude des biais sociaux en NLP[3]. Depuis la publication de BBQ, des travaux ont vu le jour qui développent ses idées et les adaptent à de nouvelles conditions :
- Extension des formats de question (Open-BBQ). Le BBQ original propose des tâches au format à choix multiples[3]. En 2024, une modification de BBQ pour les réponses ouvertes a été proposée, incluant des tâches de complétion de texte et de réponses courtes[3]. Cette version, appelée conventionnellement Open-BBQ, permet d'évaluer les biais dans des conditions de dialogue plus libres, où le modèle n'a pas d'options de réponse fixes[3]. L'étude a montré que les LLM, lors de la génération de texte libre, manifestent également un biais accru envers certains groupes[3]. Les auteurs d'Open-BBQ ont également expérimenté des méthodes pour atténuer les biais, en combinant des approches zero-shot et few-shot avec des raisonnements pas à pas (chain-of-thought)[3]. Ces méthodes ont permis de réduire notablement le niveau de biais dans les réponses[3]. Open-BBQ a complété le jeu de données original, rendant possible le test de modèles génératifs dans des formats plus proches des requêtes des utilisateurs.
- Adaptation culturelle (localisation). Étant donné que BBQ est lié aux réalités sociales des États-Unis, les chercheurs se sont intéressés à son adaptation à d'autres langues et cultures[5]. En 2023, des scientifiques coréens ont présenté le jeu de données KoBBQ (Korean BBQ) — un équivalent coréen du Bias Benchmark[5]. Ils ont développé une approche générale pour la localisation de BBQ : ils ont divisé les modèles originaux en trois catégories – ceux qui peuvent être simplement traduits, ceux qui nécessitent le remplacement des groupes par des équivalents locaux, et ceux qui ne sont pas du tout applicables dans le contexte coréen[5]. De plus, KoBBQ a introduit 4 nouvelles catégories de stéréotypes spécifiques à la société coréenne et a supprimé un certain nombre d'exemples non pertinents[5]. Le résultat est un jeu de données de 268 modèles et 76 048 exemples en coréen, couvrant 12 catégories de biais sociaux (incluant les catégories originales et nouvelles)[5]. Les tests de modèles multilingues sur KoBBQ ont révélé des différences significatives dans le niveau de biais par rapport à une traduction automatique directe du BBQ original en coréen[5]. Cela souligne qu'une traduction directe n'est pas suffisante – des benchmarks culturellement spécifiques sont nécessaires, tenant compte des stéréotypes et du contexte uniques de chaque pays[5]. Le travail sur KoBBQ a démontré la possibilité d'étendre la méthodologie de BBQ à l'échelle mondiale.
BBQ est devenu une partie intégrante de la recherche sur l' éthique de l'intelligence artificielle[3]. Son influence se manifeste dans l'émergence de nouvelles méthodes de débogage de biais (debiasing), la construction de jeux de données plus inclusifs et de métriques pour une analyse fine des biais. Les chercheurs notent que l'une des forces de BBQ est l'ampleur de sa couverture et la rigueur de la construction de ses exemples[3]. En réponse aux défis posés par BBQ, des stratégies de réduction des biais sont activement développées, allant du filtrage des données d'entraînement à des algorithmes spéciaux de post-traitement et à l'ajustement fin des LLM pour des réponses équitables[3].
En résumé, BBQ (Bias Benchmark for QA) s'est imposé comme un outil précieux et fiable pour mesurer les préjugés sociaux dans les modèles de langage. Il fournit à la communauté scientifique un ensemble standard de tests permettant de comparer les modèles en termes de stéréotypes et de suivre les progrès dans l'amélioration de leur impartialité[3]. BBQ continue de s'étendre et de s'adapter, reflétant l'intérêt mondial pour la création de systèmes d'IA plus justes et plus sûrs[3], exempts de biais subtils mais significativement nuisibles.
Liens
- Article original sur BBQ (arXiv)
- Dépôt GitHub de BBQ
- Page du dataset BBQ sur Papers With Code
- Article sur BBQ dans l'ACL Anthology
- Article sur le dataset KoBBQ (arXiv)
- Article sur le dataset Open-BBQ (arXiv)
Bibliographie
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notes
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. «BBQ: A Hand-Built Bias Benchmark for Question Answering». arXiv. [1]
- ↑ Parrish A. et al. «BBQ: A hand-built bias benchmark for question answering». ACL Anthology. [2]
- ↑ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). «Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings». arXiv preprint. [3]
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 «BBQ Dataset». Papers With Code. [4]
- ↑ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). «KoBBQ: Korean Bias Benchmark for Question Answering». arXiv preprint. [5]