BBQ (Bias Benchmark for Question Answering) (PT)

From Systems analysis wiki
Jump to navigation Jump to search

BBQ (Bias Benchmark for Question Answering) é um conjunto de dados para avaliar vieses sociais (bias) em sistemas de perguntas e respostas (QA)[1]. Foi desenvolvido por um grupo de pesquisadores da Universidade de Nova York, liderado por Alicia Parrish, e publicado em 2022 na conferência ACL Findings[1][2]. O objetivo do BBQ é identificar como grandes modelos de linguagem (LLMs) e outros modelos de QA manifestam estereótipos e preconceitos em suas respostas, especialmente em tarefas aplicadas de resposta a perguntas em linguagem natural[1]. O BBQ tornou-se um dos benchmarks mais abrangentes para a avaliação de viés social em PLN, cobrindo um amplo espectro de estereótipos em nove categorias sociais[3].

Este conjunto de dados complementa trabalhos anteriores, como o dataset UnQover (2020), que media o viés em um número limitado de características (gênero-profissão, nacionalidade, etnia, religião) e se baseava nas probabilidades dos modelos, em vez das respostas em si[3]. Diferentemente do UnQover, o BBQ analisa diretamente o conteúdo das respostas dos modelos e suas escolhas entre as opções oferecidas, o que permite avaliar o viés no nível dos resultados gerados[1].

Os autores do BBQ o posicionam como uma ferramenta para diagnosticar estereótipos sociais prejudiciais em modelos e reduzir o risco do impacto negativo de tais estereótipos em grupos vulneráveis da população[1]. O conjunto foca em estereótipos relevantes para a cultura anglófona dos EUA e não abrange todos os contextos culturais possíveis[1]. No entanto, o BBQ estabeleceu a base para trabalhos subsequentes na medição e mitigação do viés social em PLN e se tornou uma referência na comparação de modelos quanto à sua correção ética.

Composição e estrutura do conjunto de dados

O BBQ contém cerca de 58,5 mil perguntas e respostas, agrupadas em conjuntos especiais destinados a identificar estereótipos específicos[4]. Todos os exemplos foram elaborados manualmente pelos autores com base em casos documentados de preconceitos e estereótipos que prejudicam representantes de diversos grupos sociais[4]. Para a criação dos cenários, foram utilizados dados de pesquisas científicas, artigos da mídia, relatórios e outras fontes confiáveis que confirmam a existência de um determinado estereótipo e suas consequências prejudiciais[1]. Para cada situação, os autores indicam uma referência à fonte onde o estereótipo é descrito como negativo ou danoso (por exemplo, um artigo científico ou uma notícia)[1].

Categorias sociais

O BBQ abrange nove categorias sociais principais (a maioria correspondendo a grupos protegidos conforme a definição da Comissão de Igualdade de Oportunidades de Emprego dos EUA)[1]:

  • Idade – preconceitos em relação a faixas etárias (por exemplo, o estereótipo de que as capacidades cognitivas diminuem em pessoas idosas)[1].
  • Deficiência – estereótipos sobre as capacidades mentais ou outras qualidades de pessoas com deficiência (por exemplo, a ideia de que indivíduos com limitações físicas são menos competentes intelectualmente)[1].
  • Identidade de gênero – estereótipos de gênero (por exemplo, a ideia de que "meninas não são boas em matemática")[1].
  • Nacionalidade – preconceitos étnico-nacionais (por exemplo, o estereótipo da falta de conhecimento técnico de pessoas de origem africana)[1].
  • Aparência física – discriminação com base na aparência ou tipo físico (por exemplo, a opinião de que pessoas com obesidade são menos inteligentes ou trabalhadoras)[1].
  • Raça/Etnia – estereótipos raciais (por exemplo, a associação preconceituosa de uma determinada raça com criminalidade ou uso de drogas)[1].
  • Religião – estereótipos religiosos (por exemplo, a representação de judeus como avarentos ou de muçulmanos como propensos à violência)[1].
  • Status socioeconômico – preconceitos em relação a camadas pobres ou ricas da sociedade (por exemplo, a crença de que pessoas de famílias pobres serão maus pais)[1].
  • Orientação sexual – estereótipos homofóbicos (por exemplo, a falsa associação da homossexualidade com a infecção por HIV)[1].

Além dessas nove categorias, o BBQ apresenta duas categorias interseccionais (intersectional biases), que combinam duas características: (1) gênero em conjunto com raça/etnia e (2) status socioeconômico em conjunto com raça[1]. Tais casos consideram estereótipos na intersecção de diferentes grupos (por exemplo, preconceitos especificamente contra mulheres negras ou contra certas etnias de baixa classe social).

Templates e geração de exemplos

Para cada categoria, a equipe escreveu templates de cenários — pequenas vinhetas com dois personagens que diferem na característica-alvo (por exemplo, jovem e idoso, homem e mulher, rico e pobre, etc.)[4]. O template estabelece uma situação que poderia confirmar ou refutar um estereótipo conhecido. A cada cenário estão associadas perguntas e opções de resposta.

Ao todo, foram desenvolvidos 25 templates únicos para cada uma das nove categorias principais, mais 25 templates adicionais para as categorias de raça e gênero usando nomes reais (para testar o viés no nível de nomes próprios)[1]. Também foram criados 25 templates para cada uma das duas direções interseccionais[1]. Assim, o número total de cenários base ultrapassa 300.

Cada template contém slots para variáveis — nomes de grupos ou descrições — que são inseridos no texto (por exemplo, em um template sobre idade, em vez de "uma pessoa de _ anos", são inseridos números diferentes, ou em aparência, adjetivos como "gordo"/"magro", etc.)[1]. Através da substituição de diferentes valores e da alteração da ordem de menção das duas figuras, cada template é expandido para múltiplos exemplos concretos (no mínimo 8 e até ~200 variações)[1]. Geralmente, de um template são geradas pelo menos 100 perguntas finais e, em alguns casos, até duzentas[1]. No total, foi criado um corpus de 58.492 exemplos (combinações únicas de cenário, pergunta e resposta)[4].

Contextos e tipos de perguntas

Uma característica fundamental do BBQ é que cada situação é apresentada com duas variantes de contexto e duas formulações de pergunta, formando um conjunto de quatro perguntas (o chamado cluster de 4)[1]. Isso é feito para separar a influência da falta de informação dos estereótipos do modelo em si. Em cada quarteto[1]:

  • Contexto ambíguo (under-informative or ambiguous context): um texto que descreve uma situação envolvendo duas pessoas de grupos diferentes, mas não contém informações suficientes para responder à pergunta de forma inequívoca[1]. A resposta correta nesses casos é sempre a opção "desconhecido" (ou seja, ausência de dados suficientes)[1]. Esses exemplos são necessários para verificar se o modelo fará uma inferência baseada em um estereótipo.
  • Contexto desambiguado (disambiguated context): um cenário estendido onde é adicionado um detalhe esclarecedor que permite determinar qual das duas pessoas mencionadas corresponde à pergunta[1]. Neste caso, um dos dois personagens é declaradamente a resposta correta (e a opção "desconhecido" já está incorreta). O contexto desambiguado serve para verificar se o modelo consegue superar seu possível viés e escolher a resposta correta, mesmo que o estereótipo sugira o contrário[1].
  • Pergunta negativa (por exemplo, "Qual deles não conhece bem o assunto?", "Quem cometeu o crime?")[1]. Essa pergunta, combinada com um contexto ambíguo, verifica se o modelo tende a associar uma ação negativa a um grupo específico na ausência de fatos[1].
  • Pergunta não negativa (contrastiva) (por exemplo, "Qual deles conhece bem o assunto?" ou "Quem se abstém de uma má ação?")[1]. A pergunta não negativa é formulada de modo a não soar como uma aprovação direta do estereótipo, mas ainda assim permite verificar o equilíbrio das respostas do modelo[1]. A comparação das respostas às versões negativas e neutras revela distorções sistemáticas.

Cada um desses quatro exemplos no cluster tem três opções de resposta: duas específicas (nomeando cada um dos dois grupos em questão) e uma opção que indica a falta de informação suficiente (marcada como "Unknown" e frases equivalentes)[1]. Por exemplo, em uma cena envolvendo um cristão e um muçulmano hipotéticos, as opções de resposta seriam: "o cristão", "o muçulmano" ou "desconhecido"[1]. Além disso, a palavra "desconhecido" não é sempre a mesma — são usadas 10 expressões sinônimas[1].

Adicionalmente, em cada template, a ordem de menção dos dois grupos é alterada automaticamente[1]. Isso é feito para neutralizar o efeito de ordem — um fator conhecido em que os modelos podem escolher com mais frequência a primeira entidade mencionada, independentemente do conteúdo[1].

Anotação e verificação de qualidade

Cada exemplo do BBQ foi avaliado por anotadores de crowdsourcing: pelo menos 5 pessoas independentes responderam às perguntas, e apenas os exemplos nos quais pelo menos 4 de 5 anotadores concordaram com a resposta correta (por votação) foram incluídos no dataset final[1]. Se alguma pergunta não atingisse esse limiar, todo o template era revisado e editado[1]. Graças a esse processo, a precisão humana no BBQ é muito alta: anotadores individuais responderam corretamente a ~95,7% das perguntas, e, considerando o voto da maioria, a precisão do padrão-ouro atinge 99,7%[1]. O coeficiente de concordância alfa de Krippendorff foi de 0,883, o que indica uma alta consistência entre os humanos em relação às respostas corretas[1]. Essas medidas confirmam que as tarefas do BBQ são compreensíveis para os humanos e têm respostas objetivamente corretas; consequentemente, os erros dos modelos nesses exemplos podem ser interpretados de forma justificada como manifestações de viés, e não como ambiguidade das próprias perguntas.

Avaliação do viés dos modelos

O BBQ foi projetado para uma avaliação multifacetada do comportamento dos modelos em condições que provocam viés social. Ao ser testado, um modelo de QA recebe um contexto e uma pergunta, e deve escolher uma das três opções de resposta. A análise dos resultados é realizada em dois níveis[1]:

Caso de contexto ambíguo

Mede-se a frequência com que o modelo responde incorretamente às perguntas na ausência de informações necessárias, ou seja, se baseia em um estereótipo[1]. Idealmente, o modelo deveria responder "desconhecido" a qualquer pergunta com contexto insuficiente. No entanto, se ele escolhe um dos grupos, isso é considerado uma projeção do estereótipo subjacente[1]. A frequência desses erros e sua distribuição por categorias fornecem uma visão da tendência do modelo de reproduzir estereótipos prejudiciais.

Caso de contexto informativo

Avalia-se a precisão com que o modelo responde quando o contexto contém uma resposta correta explícita[1]. Aqui, geralmente se calcula a métrica padrão de acurácia (percentual de respostas corretas) – que mostra se o modelo consegue realizar a tarefa de pergunta-resposta em princípio. No entanto, uma atenção especial é dada aos casos em que a resposta correta vai contra o estereótipo[1]. Os desenvolvedores do BBQ analisam se a acurácia do modelo diminui quando a resposta correta contradiz um estereótipo arraigado (e, inversamente, se a acurácia é maior quando a verdade coincide com a expectativa estereotipada)[1]. Tal efeito indicaria que, mesmo com fatos disponíveis, o modelo pode cometer erros devido ao viés.

Bias Score

Para uma avaliação quantitativa do grau de viés, é introduzida uma métrica especial — a pontuação de viés (bias score)[1]. De forma geral, o bias score reflete a porcentagem de respostas do modelo (entre as incorretas ou todas, dependendo da condição) que coincidem com o estereótipo[1].

  • Um valor de +100% significaria que o modelo, em todos os casos, escolheu a opção de resposta que atribui estereotipadamente uma qualidade negativa ao grupo-alvo.
  • 0% — nenhuma manifestação de viés (o modelo sempre responde corretamente/"desconhecido" ou erra igualmente em ambas as direções).
  • Pontuação negativa (até -100%) — uma tendência oposta, quando o modelo sempre responde contra a expectativa do estereótipo[1].

As pontuações são calculadas separadamente para contextos ambíguos e desambiguados, pois a natureza dos erros é diferente em cada caso[1].

  • Para perguntas ambíguas, o bias score é determinado pela proporção de casos em que o modelo, em vez de "desconhecido", escolheu uma resposta específica, e essa resposta coincidiu com um estereótipo negativo[1]. Quanto mais frequentes essas respostas, maior a pontuação positiva. A acurácia também é levada em conta: se o modelo erra e acerta ("desconhecido") na mesma proporção, a pontuação será menor do que a de um modelo que sempre escolhe a resposta estereotipada[1]. Assim, tanto a frequência quanto a confiança das respostas com viés são penalizadas (para contextos ambíguos, a métrica é escalonada com base na porcentagem de respostas corretas "desconhecido")[1].
  • Para perguntas desambiguadas, o bias score é calculado de forma um pouco diferente, pois a resposta correta é um dos grupos[1]. Nesses casos, analisam-se as respostas incorretas do modelo: a proporção de erros em que o modelo escolheu não a opção correta, mas uma alternativa que coincide com o estereótipo[1]. Em outras palavras, se o modelo errou ao dar preferência a um preconceito (por exemplo, não acreditou nos fatos e respondeu com base no estereótipo), isso aumenta a pontuação[1].

A análise do bias score, juntamente com a acurácia geral, permite caracterizar detalhadamente o comportamento do modelo no BBQ. Os autores apontam que a mesma acurácia pode esconder diferentes tipos de erros[1]. Assim, essa métrica revela a direcionalidade dos erros e identifica casos sutis que não são visíveis apenas pela acurácia.

Resultados e padrões identificados

Os testes iniciais de vários modelos de QA populares no conjunto BBQ demonstraram uma série de manifestações claras de viés[1]. No estudo de Parrish et al. (2022), foram testados tanto modelos universais de grande porte (como o UnifiedQA – um modelo generalizado para QA baseado no T5) quanto modelos padronizados de múltipla escolha (como o ROBERTA com ajuste fino em QA)[1].

As principais conclusões dos experimentos foram:

  • Fortes erros estereotipados na falta de informação. Em todos os sistemas testados, observou-se uma tendência de responder de acordo com estereótipos quando o contexto não fornecia as pistas necessárias[1]. Ou seja, os modelos frequentemente não escolhiam a opção "desconhecido", preferindo uma resposta específica que se alinhasse a alguma expectativa estereotipada[1]. Por exemplo, em perguntas ambíguas sobre um crime sem um culpado claro, os modelos frequentemente apontavam para indivíduos de um grupo específico (correspondente ao preconceito)[1]. O bias score calculado para contextos ambíguos foi significativamente maior que zero, às vezes se aproximando de +100% em certas categorias para alguns modelos[1]. Os modelos mostraram uma tendência particularmente alta para respostas estereotipadas em cenários relacionados à aparência física (obesidade, etc.) — essa categoria gerou um viés notavelmente maior do que, por exemplo, raça ou orientação sexual[1]. Isso indica a não uniformidade do viés dentro de um modelo — alguns tipos de estereótipos são "assimilados" mais fortemente do que outros.
  • Melhora com a presença de fatos, mas persistência de viés oculto. Quando os modelos recebiam um contexto desambiguado com uma indicação clara da resposta correta, sua acurácia aumentava notavelmente (em comparação com a situação de incerteza)[1]. No entanto, uma análise detalhada revelou um efeito sutil: a acurácia era desigual dependendo da relação da resposta correta com o estereótipo[1]. Em média, os modelos alcançaram uma acurácia de 3 a 3,5 pontos percentuais maior nos exemplos em que a resposta correta coincidia com um estereótipo comum, em comparação com exemplos onde a resposta correta contradizia esse estereótipo[1]. Em outras palavras, quando os fatos confirmavam o preconceito, os modelos respondiam quase sem erros; mas se era necessário nomear uma opção "atípica" para o estereótipo, a probabilidade de erro aumentava. Embora essa diferença de desempenho não seja enorme, ela se manifestou estatisticamente em muitas categorias[1]. A maior discrepância foi registrada em perguntas relacionadas a estereótipos de gênero: até 5 pontos percentuais de diferença[1]. Assim, a influência oculta do viés é evidente: os modelos, em média, têm um desempenho ligeiramente pior "contra o estereótipo".
  • Comparação de categorias e templates. Os pesquisadores do BBQ analisaram o bias score por cada uma das nove categorias e descobriram que, em contextos ambíguos, a pontuação é positiva em todas as categorias, mas sua magnitude varia[1]. Como mencionado, os maiores vieses foram observados nas categorias de aparência física, status socioeconômico e algumas categorias interseccionais[1]. Scores de viés mais baixos, embora ainda não nulos, foram encontrados nas categorias de raça/etnia e orientação sexual[1]. Em contextos desambiguados, o bias score geralmente está mais próximo de zero (pois o modelo frequentemente responde corretamente), mas para alguns templates, permanece positivo, refletindo uma distorção notável na natureza dos erros cometidos[1]. Por exemplo, na categoria de religião, a maioria dos erros foi em uma única direção — os modelos, ao errarem, tendiam a escolher a resposta baseada no preconceito[1].

No geral, o BBQ demonstrou que mesmo os modelos de linguagem modernos e poderosos claramente não estão livres de vieses sociais[1]. Eles tendem a reproduzir estereótipos quando colocados em condições de incerteza e podem exibir vieses sutis mesmo na presença de fatos que exigem uma resposta contrária[1]. Além disso, a magnitude desses efeitos não é a mesma para diferentes grupos: alguns estereótipos são "assimilados" mais fortemente pelo modelo[1]. Os autores do BBQ ressaltam que as diferenças encontradas, embora notáveis, não são catastroficamente grandes — o bias score da maioria dos modelos não atinge valores extremos, muitas vezes ficando na casa de algumas dezenas de por cento[1]. No entanto, mesmo pequenos desvios sistemáticos em direção a estereótipos são potencialmente perigosos no uso em larga escala de LLMs, tornando a identificação e eliminação de tais vieses uma tarefa importante[3]. O BBQ forneceu aos pesquisadores uma maneira clara e quantitativamente mensurável de acompanhar o progresso nessa área[3].

Impacto e pesquisas futuras

O conjunto BBQ rapidamente ganhou reconhecimento como uma ferramenta padrão para avaliar as características de equidade (fairness) dos modelos de linguagem[4]. Seu código-fonte e dados abertos estão disponíveis em um repositório (licença CC BY 4.0)[4], o que permitiu que uma ampla comunidade de pesquisadores aplicasse o BBQ no desenvolvimento e teste de novos modelos. Em várias revisões, o BBQ é mencionado juntamente com outros benchmarks (como StereoSet, WinoBias, ToxiGen) como um marco importante no estudo do viés social em PLN[3]. Desde a publicação do BBQ, surgiram trabalhos que desenvolvem suas ideias e as adaptam a novas condições:

  • Expansão dos formatos de perguntas (Open-BBQ). O BBQ original oferece tarefas no formato de múltipla escolha[3]. Em 2024, foi proposta uma modificação do BBQ para respostas abertas, incluindo tarefas de preenchimento de lacunas e texto de resposta curta[3]. Essa versão, convencionalmente chamada de Open-BBQ, permite avaliar o viés em condições de diálogo mais livres, onde o modelo não tem opções de resposta fixas[3]. O estudo mostrou que os LLMs, ao gerar texto livre, também demonstram um viés elevado contra vários grupos[3]. Os autores do Open-BBQ também experimentaram métodos de mitigação de viés, combinando prompts de zero-shot e few-shot e chain-of-thought (raciocínio passo a passo)[3]. Esses métodos permitiram reduzir significativamente o nível de viés nas respostas[3]. O Open-BBQ complementou o conjunto original, tornando possível testar modelos geradores em formatos mais próximos às consultas dos usuários.
  • Adaptação cultural (localização). Como o BBQ está ligado às realidades sociais dos EUA, pesquisadores se interessaram em adaptá-lo para outros idiomas e culturas[5]. Em 2023, cientistas coreanos apresentaram o dataset KoBBQ (Korean BBQ) — um análogo coreano do Bias Benchmark[5]. Eles desenvolveram uma abordagem geral para a localização do BBQ: dividiram os templates originais em três categorias – aqueles que podiam ser simplesmente traduzidos, aqueles que exigiam a substituição de grupos por equivalentes locais e aqueles que não eram aplicáveis no contexto coreano[5]. Adicionalmente, o KoBBQ introduziu 4 novas categorias de estereótipos específicos da sociedade coreana e removeu vários exemplos inadequados[5]. O resultado foi um conjunto de 268 templates e 76.048 exemplos em coreano, abrangendo 12 categorias de viés social (incluindo as originais e novas)[5]. Testes de modelos multilíngues no KoBBQ revelaram diferenças significativas no nível de viés em comparação com a tradução automática direta do BBQ original para o coreano[5]. Isso destaca que a tradução direta não é suficiente – são necessários benchmarks culturalmente específicos que levem em conta os estereótipos e o contexto únicos de cada país[5]. O trabalho no KoBBQ demonstrou a possibilidade de escalar a metodologia do BBQ globalmente.

O BBQ tornou-se parte integrante da pesquisa sobre a ética da inteligência artificial[3]. Sua influência pode ser vista no surgimento de novas técnicas de debiasing de modelos, na construção de datasets mais inclusivos e em métricas para a análise sutil de viés. Pesquisadores observam que um dos pontos fortes do BBQ é a amplitude de sua cobertura e o cuidado na construção dos exemplos[3]. Em resposta aos desafios apontados pelo BBQ, recentemente têm sido desenvolvidas ativamente estratégias de mitigação de viés, desde a filtragem de dados de treinamento até algoritmos especiais de pós-processamento e ajuste fino de LLMs para respostas justas[3].

Em resumo, o BBQ (Bias Benchmark for QA) se estabeleceu como uma ferramenta valiosa e confiável para medir vieses sociais em modelos de linguagem. Ele fornece à comunidade de pesquisa um conjunto padrão de testes que permite comparar modelos quanto à estereotipia e acompanhar o progresso na melhoria de sua imparcialidade[3]. O BBQ continua a se expandir e adaptar, refletindo o interesse global na criação de sistemas de IA mais justos e seguros[3], livres de vieses prejudiciais, sutis mas significativos.

Literatura

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. "BBQ: A Hand-Built Bias Benchmark for Question Answering". arXiv. [1]
  2. Parrish A. et al. "BBQ: A hand-built bias benchmark for question answering". ACL Anthology. [2]
  3. 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). "Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings". arXiv preprint. [3]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 "BBQ Dataset". Papers With Code. [4]
  5. 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). "KoBBQ: Korean Bias Benchmark for Question Answering". arXiv preprint. [5]