BBQ (Bias Benchmark for Question Answering) (PT)
BBQ (Bias Benchmark for Question Answering) é um conjunto de dados para avaliar vieses sociais (bias) em sistemas de perguntas e respostas (QA)[1]. Foi desenvolvido por um grupo de pesquisadores da Universidade de Nova York, liderado por Alicia Parrish, e publicado em 2022 na conferência ACL Findings[1][2]. O objetivo do BBQ é identificar como grandes modelos de linguagem (LLMs) e outros modelos de QA manifestam estereótipos e preconceitos em suas respostas, especialmente em tarefas aplicadas de resposta a perguntas em linguagem natural[1]. O BBQ tornou-se um dos benchmarks mais abrangentes para a avaliação de viés social em PLN, cobrindo um amplo espectro de estereótipos em nove categorias sociais[3].
Este conjunto de dados complementa trabalhos anteriores, como o dataset UnQover (2020), que media o viés em um número limitado de características (gênero-profissão, nacionalidade, etnia, religião) e se baseava nas probabilidades dos modelos, em vez das respostas em si[3]. Diferentemente do UnQover, o BBQ analisa diretamente o conteúdo das respostas dos modelos e suas escolhas entre as opções oferecidas, o que permite avaliar o viés no nível dos resultados gerados[1].
Os autores do BBQ o posicionam como uma ferramenta para diagnosticar estereótipos sociais prejudiciais em modelos e reduzir o risco do impacto negativo de tais estereótipos em grupos vulneráveis da população[1]. O conjunto foca em estereótipos relevantes para a cultura anglófona dos EUA e não abrange todos os contextos culturais possíveis[1]. No entanto, o BBQ estabeleceu a base para trabalhos subsequentes na medição e mitigação do viés social em PLN e se tornou uma referência na comparação de modelos quanto à sua correção ética.
Composição e estrutura do conjunto de dados
O BBQ contém cerca de 58,5 mil perguntas e respostas, agrupadas em conjuntos especiais destinados a identificar estereótipos específicos[4]. Todos os exemplos foram elaborados manualmente pelos autores com base em casos documentados de preconceitos e estereótipos que prejudicam representantes de diversos grupos sociais[4]. Para a criação dos cenários, foram utilizados dados de pesquisas científicas, artigos da mídia, relatórios e outras fontes confiáveis que confirmam a existência de um determinado estereótipo e suas consequências prejudiciais[1]. Para cada situação, os autores indicam uma referência à fonte onde o estereótipo é descrito como negativo ou danoso (por exemplo, um artigo científico ou uma notícia)[1].
Categorias sociais
O BBQ abrange nove categorias sociais principais (a maioria correspondendo a grupos protegidos conforme a definição da Comissão de Igualdade de Oportunidades de Emprego dos EUA)[1]:
- Idade – preconceitos em relação a faixas etárias (por exemplo, o estereótipo de que as capacidades cognitivas diminuem em pessoas idosas)[1].
- Deficiência – estereótipos sobre as capacidades mentais ou outras qualidades de pessoas com deficiência (por exemplo, a ideia de que indivíduos com limitações físicas são menos competentes intelectualmente)[1].
- Identidade de gênero – estereótipos de gênero (por exemplo, a ideia de que "meninas não são boas em matemática")[1].
- Nacionalidade – preconceitos étnico-nacionais (por exemplo, o estereótipo da falta de conhecimento técnico de pessoas de origem africana)[1].
- Aparência física – discriminação com base na aparência ou tipo físico (por exemplo, a opinião de que pessoas com obesidade são menos inteligentes ou trabalhadoras)[1].
- Raça/Etnia – estereótipos raciais (por exemplo, a associação preconceituosa de uma determinada raça com criminalidade ou uso de drogas)[1].
- Religião – estereótipos religiosos (por exemplo, a representação de judeus como avarentos ou de muçulmanos como propensos à violência)[1].
- Status socioeconômico – preconceitos em relação a camadas pobres ou ricas da sociedade (por exemplo, a crença de que pessoas de famílias pobres serão maus pais)[1].
- Orientação sexual – estereótipos homofóbicos (por exemplo, a falsa associação da homossexualidade com a infecção por HIV)[1].
Além dessas nove categorias, o BBQ apresenta duas categorias interseccionais (intersectional biases), que combinam duas características: (1) gênero em conjunto com raça/etnia e (2) status socioeconômico em conjunto com raça[1]. Tais casos consideram estereótipos na intersecção de diferentes grupos (por exemplo, preconceitos especificamente contra mulheres negras ou contra certas etnias de baixa classe social).
Templates e geração de exemplos
Para cada categoria, a equipe escreveu templates de cenários — pequenas vinhetas com dois personagens que diferem na característica-alvo (por exemplo, jovem e idoso, homem e mulher, rico e pobre, etc.)[4]. O template estabelece uma situação que poderia confirmar ou refutar um estereótipo conhecido. A cada cenário estão associadas perguntas e opções de resposta.
Ao todo, foram desenvolvidos 25 templates únicos para cada uma das nove categorias principais, mais 25 templates adicionais para as categorias de raça e gênero usando nomes reais (para testar o viés no nível de nomes próprios)[1]. Também foram criados 25 templates para cada uma das duas direções interseccionais[1]. Assim, o número total de cenários base ultrapassa 300.
Cada template contém slots para variáveis — nomes de grupos ou descrições — que são inseridos no texto (por exemplo, em um template sobre idade, em vez de "uma pessoa de _ anos", são inseridos números diferentes, ou em aparência, adjetivos como "gordo"/"magro", etc.)[1]. Através da substituição de diferentes valores e da alteração da ordem de menção das duas figuras, cada template é expandido para múltiplos exemplos concretos (no mínimo 8 e até ~200 variações)[1]. Geralmente, de um template são geradas pelo menos 100 perguntas finais e, em alguns casos, até duzentas[1]. No total, foi criado um corpus de 58.492 exemplos (combinações únicas de cenário, pergunta e resposta)[4].
Contextos e tipos de perguntas
Uma característica fundamental do BBQ é que cada situação é apresentada com duas variantes de contexto e duas formulações de pergunta, formando um conjunto de quatro perguntas (o chamado cluster de 4)[1]. Isso é feito para separar a influência da falta de informação dos estereótipos do modelo em si. Em cada quarteto[1]:
- Contexto ambíguo (under-informative or ambiguous context): um texto que descreve uma situação envolvendo duas pessoas de grupos diferentes, mas não contém informações suficientes para responder à pergunta de forma inequívoca[1]. A resposta correta nesses casos é sempre a opção "desconhecido" (ou seja, ausência de dados suficientes)[1]. Esses exemplos são necessários para verificar se o modelo fará uma inferência baseada em um estereótipo.
- Contexto desambiguado (disambiguated context): um cenário estendido onde é adicionado um detalhe esclarecedor que permite determinar qual das duas pessoas mencionadas corresponde à pergunta[1]. Neste caso, um dos dois personagens é declaradamente a resposta correta (e a opção "desconhecido" já está incorreta). O contexto desambiguado serve para verificar se o modelo consegue superar seu possível viés e escolher a resposta correta, mesmo que o estereótipo sugira o contrário[1].
- Pergunta negativa (por exemplo, "Qual deles não conhece bem o assunto?", "Quem cometeu o crime?")[1]. Essa pergunta, combinada com um contexto ambíguo, verifica se o modelo tende a associar uma ação negativa a um grupo específico na ausência de fatos[1].
- Pergunta não negativa (contrastiva) (por exemplo, "Qual deles conhece bem o assunto?" ou "Quem se abstém de uma má ação?")[1]. A pergunta não negativa é formulada de modo a não soar como uma aprovação direta do estereótipo, mas ainda assim permite verificar o equilíbrio das respostas do modelo[1]. A comparação das respostas às versões negativas e neutras revela distorções sistemáticas.
Cada um desses quatro exemplos no cluster tem três opções de resposta: duas específicas (nomeando cada um dos dois grupos em questão) e uma opção que indica a falta de informação suficiente (marcada como "Unknown" e frases equivalentes)[1]. Por exemplo, em uma cena envolvendo um cristão e um muçulmano hipotéticos, as opções de resposta seriam: "o cristão", "o muçulmano" ou "desconhecido"[1]. Além disso, a palavra "desconhecido" não é sempre a mesma — são usadas 10 expressões sinônimas[1].
Adicionalmente, em cada template, a ordem de menção dos dois grupos é alterada automaticamente[1]. Isso é feito para neutralizar o efeito de ordem — um fator conhecido em que os modelos podem escolher com mais frequência a primeira entidade mencionada, independentemente do conteúdo[1].
Anotação e verificação de qualidade
Cada exemplo do BBQ foi avaliado por anotadores de crowdsourcing: pelo menos 5 pessoas independentes responderam às perguntas, e apenas os exemplos nos quais pelo menos 4 de 5 anotadores concordaram com a resposta correta (por votação) foram incluídos no dataset final[1]. Se alguma pergunta não atingisse esse limiar, todo o template era revisado e editado[1]. Graças a esse processo, a precisão humana no BBQ é muito alta: anotadores individuais responderam corretamente a ~95,7% das perguntas, e, considerando o voto da maioria, a precisão do padrão-ouro atinge 99,7%[1]. O coeficiente de concordância alfa de Krippendorff foi de 0,883, o que indica uma alta consistência entre os humanos em relação às respostas corretas[1]. Essas medidas confirmam que as tarefas do BBQ são compreensíveis para os humanos e têm respostas objetivamente corretas; consequentemente, os erros dos modelos nesses exemplos podem ser interpretados de forma justificada como manifestações de viés, e não como ambiguidade das próprias perguntas.
Avaliação do viés dos modelos
O BBQ foi projetado para uma avaliação multifacetada do comportamento dos modelos em condições que provocam viés social. Ao ser testado, um modelo de QA recebe um contexto e uma pergunta, e deve escolher uma das três opções de resposta. A análise dos resultados é realizada em dois níveis[1]:
Caso de contexto ambíguo
Mede-se a frequência com que o modelo responde incorretamente às perguntas na ausência de informações necessárias, ou seja, se baseia em um estereótipo[1]. Idealmente, o modelo deveria responder "desconhecido" a qualquer pergunta com contexto insuficiente. No entanto, se ele escolhe um dos grupos, isso é considerado uma projeção do estereótipo subjacente[1]. A frequência desses erros e sua distribuição por categorias fornecem uma visão da tendência do modelo de reproduzir estereótipos prejudiciais.
Caso de contexto informativo
Avalia-se a precisão com que o modelo responde quando o contexto contém uma resposta correta explícita[1]. Aqui, geralmente se calcula a métrica padrão de acurácia (percentual de respostas corretas) – que mostra se o modelo consegue realizar a tarefa de pergunta-resposta em princípio. No entanto, uma atenção especial é dada aos casos em que a resposta correta vai contra o estereótipo[1]. Os desenvolvedores do BBQ analisam se a acurácia do modelo diminui quando a resposta correta contradiz um estereótipo arraigado (e, inversamente, se a acurácia é maior quando a verdade coincide com a expectativa estereotipada)[1]. Tal efeito indicaria que, mesmo com fatos disponíveis, o modelo pode cometer erros devido ao viés.
Bias Score
Para uma avaliação quantitativa do grau de viés, é introduzida uma métrica especial — a pontuação de viés (bias score)[1]. De forma geral, o bias score reflete a porcentagem de respostas do modelo (entre as incorretas ou todas, dependendo da condição) que coincidem com o estereótipo[1].
- Um valor de +100% significaria que o modelo, em todos os casos, escolheu a opção de resposta que atribui estereotipadamente uma qualidade negativa ao grupo-alvo.
- 0% — nenhuma manifestação de viés (o modelo sempre responde corretamente/"desconhecido" ou erra igualmente em ambas as direções).
- Pontuação negativa (até -100%) — uma tendência oposta, quando o modelo sempre responde contra a expectativa do estereótipo[1].
As pontuações são calculadas separadamente para contextos ambíguos e desambiguados, pois a natureza dos erros é diferente em cada caso[1].
- Para perguntas ambíguas, o bias score é determinado pela proporção de casos em que o modelo, em vez de "desconhecido", escolheu uma resposta específica, e essa resposta coincidiu com um estereótipo negativo[1]. Quanto mais frequentes essas respostas, maior a pontuação positiva. A acurácia também é levada em conta: se o modelo erra e acerta ("desconhecido") na mesma proporção, a pontuação será menor do que a de um modelo que sempre escolhe a resposta estereotipada[1]. Assim, tanto a frequência quanto a confiança das respostas com viés são penalizadas (para contextos ambíguos, a métrica é escalonada com base na porcentagem de respostas corretas "desconhecido")[1].
- Para perguntas desambiguadas, o bias score é calculado de forma um pouco diferente, pois a resposta correta é um dos grupos[1]. Nesses casos, analisam-se as respostas incorretas do modelo: a proporção de erros em que o modelo escolheu não a opção correta, mas uma alternativa que coincide com o estereótipo[1]. Em outras palavras, se o modelo errou ao dar preferência a um preconceito (por exemplo, não acreditou nos fatos e respondeu com base no estereótipo), isso aumenta a pontuação[1].
A análise do bias score, juntamente com a acurácia geral, permite caracterizar detalhadamente o comportamento do modelo no BBQ. Os autores apontam que a mesma acurácia pode esconder diferentes tipos de erros[1]. Assim, essa métrica revela a direcionalidade dos erros e identifica casos sutis que não são visíveis apenas pela acurácia.
Resultados e padrões identificados
Os testes iniciais de vários modelos de QA populares no conjunto BBQ demonstraram uma série de manifestações claras de viés[1]. No estudo de Parrish et al. (2022), foram testados tanto modelos universais de grande porte (como o UnifiedQA – um modelo generalizado para QA baseado no T5) quanto modelos padronizados de múltipla escolha (como o ROBERTA com ajuste fino em QA)[1].
As principais conclusões dos experimentos foram:
- Fortes erros estereotipados na falta de informação. Em todos os sistemas testados, observou-se uma tendência de responder de acordo com estereótipos quando o contexto não fornecia as pistas necessárias[1]. Ou seja, os modelos frequentemente não escolhiam a opção "desconhecido", preferindo uma resposta específica que se alinhasse a alguma expectativa estereotipada[1]. Por exemplo, em perguntas ambíguas sobre um crime sem um culpado claro, os modelos frequentemente apontavam para indivíduos de um grupo específico (correspondente ao preconceito)[1]. O bias score calculado para contextos ambíguos foi significativamente maior que zero, às vezes se aproximando de +100% em certas categorias para alguns modelos[1]. Os modelos mostraram uma tendência particularmente alta para respostas estereotipadas em cenários relacionados à aparência física (obesidade, etc.) — essa categoria gerou um viés notavelmente maior do que, por exemplo, raça ou orientação sexual[1]. Isso indica a não uniformidade do viés dentro de um modelo — alguns tipos de estereótipos são "assimilados" mais fortemente do que outros.
- Melhora com a presença de fatos, mas persistência de viés oculto. Quando os modelos recebiam um contexto desambiguado com uma indicação clara da resposta correta, sua acurácia aumentava notavelmente (em comparação com a situação de incerteza)[1]. No entanto, uma análise detalhada revelou um efeito sutil: a acurácia era desigual dependendo da relação da resposta correta com o estereótipo[1]. Em média, os modelos alcançaram uma acurácia de 3 a 3,5 pontos percentuais maior nos exemplos em que a resposta correta coincidia com um estereótipo comum, em comparação com exemplos onde a resposta correta contradizia esse estereótipo[1]. Em outras palavras, quando os fatos confirmavam o preconceito, os modelos respondiam quase sem erros; mas se era necessário nomear uma opção "atípica" para o estereótipo, a probabilidade de erro aumentava. Embora essa diferença de desempenho não seja enorme, ela se manifestou estatisticamente em muitas categorias[1]. A maior discrepância foi registrada em perguntas relacionadas a estereótipos de gênero: até 5 pontos percentuais de diferença[1]. Assim, a influência oculta do viés é evidente: os modelos, em média, têm um desempenho ligeiramente pior "contra o estereótipo".
- Comparação de categorias e templates. Os pesquisadores do BBQ analisaram o bias score por cada uma das nove categorias e descobriram que, em contextos ambíguos, a pontuação é positiva em todas as categorias, mas sua magnitude varia[1]. Como mencionado, os maiores vieses foram observados nas categorias de aparência física, status socioeconômico e algumas categorias interseccionais[1]. Scores de viés mais baixos, embora ainda não nulos, foram encontrados nas categorias de raça/etnia e orientação sexual[1]. Em contextos desambiguados, o bias score geralmente está mais próximo de zero (pois o modelo frequentemente responde corretamente), mas para alguns templates, permanece positivo, refletindo uma distorção notável na natureza dos erros cometidos[1]. Por exemplo, na categoria de religião, a maioria dos erros foi em uma única direção — os modelos, ao errarem, tendiam a escolher a resposta baseada no preconceito[1].
No geral, o BBQ demonstrou que mesmo os modelos de linguagem modernos e poderosos claramente não estão livres de vieses sociais[1]. Eles tendem a reproduzir estereótipos quando colocados em condições de incerteza e podem exibir vieses sutis mesmo na presença de fatos que exigem uma resposta contrária[1]. Além disso, a magnitude desses efeitos não é a mesma para diferentes grupos: alguns estereótipos são "assimilados" mais fortemente pelo modelo[1]. Os autores do BBQ ressaltam que as diferenças encontradas, embora notáveis, não são catastroficamente grandes — o bias score da maioria dos modelos não atinge valores extremos, muitas vezes ficando na casa de algumas dezenas de por cento[1]. No entanto, mesmo pequenos desvios sistemáticos em direção a estereótipos são potencialmente perigosos no uso em larga escala de LLMs, tornando a identificação e eliminação de tais vieses uma tarefa importante[3]. O BBQ forneceu aos pesquisadores uma maneira clara e quantitativamente mensurável de acompanhar o progresso nessa área[3].
Impacto e pesquisas futuras
O conjunto BBQ rapidamente ganhou reconhecimento como uma ferramenta padrão para avaliar as características de equidade (fairness) dos modelos de linguagem[4]. Seu código-fonte e dados abertos estão disponíveis em um repositório (licença CC BY 4.0)[4], o que permitiu que uma ampla comunidade de pesquisadores aplicasse o BBQ no desenvolvimento e teste de novos modelos. Em várias revisões, o BBQ é mencionado juntamente com outros benchmarks (como StereoSet, WinoBias, ToxiGen) como um marco importante no estudo do viés social em PLN[3]. Desde a publicação do BBQ, surgiram trabalhos que desenvolvem suas ideias e as adaptam a novas condições:
- Expansão dos formatos de perguntas (Open-BBQ). O BBQ original oferece tarefas no formato de múltipla escolha[3]. Em 2024, foi proposta uma modificação do BBQ para respostas abertas, incluindo tarefas de preenchimento de lacunas e texto de resposta curta[3]. Essa versão, convencionalmente chamada de Open-BBQ, permite avaliar o viés em condições de diálogo mais livres, onde o modelo não tem opções de resposta fixas[3]. O estudo mostrou que os LLMs, ao gerar texto livre, também demonstram um viés elevado contra vários grupos[3]. Os autores do Open-BBQ também experimentaram métodos de mitigação de viés, combinando prompts de zero-shot e few-shot e chain-of-thought (raciocínio passo a passo)[3]. Esses métodos permitiram reduzir significativamente o nível de viés nas respostas[3]. O Open-BBQ complementou o conjunto original, tornando possível testar modelos geradores em formatos mais próximos às consultas dos usuários.
- Adaptação cultural (localização). Como o BBQ está ligado às realidades sociais dos EUA, pesquisadores se interessaram em adaptá-lo para outros idiomas e culturas[5]. Em 2023, cientistas coreanos apresentaram o dataset KoBBQ (Korean BBQ) — um análogo coreano do Bias Benchmark[5]. Eles desenvolveram uma abordagem geral para a localização do BBQ: dividiram os templates originais em três categorias – aqueles que podiam ser simplesmente traduzidos, aqueles que exigiam a substituição de grupos por equivalentes locais e aqueles que não eram aplicáveis no contexto coreano[5]. Adicionalmente, o KoBBQ introduziu 4 novas categorias de estereótipos específicos da sociedade coreana e removeu vários exemplos inadequados[5]. O resultado foi um conjunto de 268 templates e 76.048 exemplos em coreano, abrangendo 12 categorias de viés social (incluindo as originais e novas)[5]. Testes de modelos multilíngues no KoBBQ revelaram diferenças significativas no nível de viés em comparação com a tradução automática direta do BBQ original para o coreano[5]. Isso destaca que a tradução direta não é suficiente – são necessários benchmarks culturalmente específicos que levem em conta os estereótipos e o contexto únicos de cada país[5]. O trabalho no KoBBQ demonstrou a possibilidade de escalar a metodologia do BBQ globalmente.
O BBQ tornou-se parte integrante da pesquisa sobre a ética da inteligência artificial[3]. Sua influência pode ser vista no surgimento de novas técnicas de debiasing de modelos, na construção de datasets mais inclusivos e em métricas para a análise sutil de viés. Pesquisadores observam que um dos pontos fortes do BBQ é a amplitude de sua cobertura e o cuidado na construção dos exemplos[3]. Em resposta aos desafios apontados pelo BBQ, recentemente têm sido desenvolvidas ativamente estratégias de mitigação de viés, desde a filtragem de dados de treinamento até algoritmos especiais de pós-processamento e ajuste fino de LLMs para respostas justas[3].
Em resumo, o BBQ (Bias Benchmark for QA) se estabeleceu como uma ferramenta valiosa e confiável para medir vieses sociais em modelos de linguagem. Ele fornece à comunidade de pesquisa um conjunto padrão de testes que permite comparar modelos quanto à estereotipia e acompanhar o progresso na melhoria de sua imparcialidade[3]. O BBQ continua a se expandir e adaptar, refletindo o interesse global na criação de sistemas de IA mais justos e seguros[3], livres de vieses prejudiciais, sutis mas significativos.
Links
- Artigo original do BBQ (arXiv)
- Repositório do BBQ no GitHub
- Página do dataset BBQ no Papers With Code
- Artigo do BBQ na ACL Anthology
- Artigo sobre o dataset KoBBQ (arXiv)
- Artigo sobre o dataset Open-BBQ (arXiv)
Literatura
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Notas
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. "BBQ: A Hand-Built Bias Benchmark for Question Answering". arXiv. [1]
- ↑ Parrish A. et al. "BBQ: A hand-built bias benchmark for question answering". ACL Anthology. [2]
- ↑ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). "Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings". arXiv preprint. [3]
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 "BBQ Dataset". Papers With Code. [4]
- ↑ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). "KoBBQ: Korean Bias Benchmark for Question Answering". arXiv preprint. [5]