BBQ (Bias Benchmark for Question Answering) (PT)

BBQ (Bias Benchmark for Question Answering) é um conjunto de dados para avaliar vieses sociais (bias) em sistemas de perguntas e respostas (QA)^[1]. Foi desenvolvido por um grupo de pesquisadores da Universidade de Nova York, liderado por Alicia Parrish, e publicado em 2022 na conferência ACL Findings^[1]^[2]. O objetivo do BBQ é identificar como grandes modelos de linguagem (LLMs) e outros modelos de QA manifestam estereótipos e preconceitos em suas respostas, especialmente em tarefas aplicadas de resposta a perguntas em linguagem natural^[1]. O BBQ tornou-se um dos benchmarks mais abrangentes para a avaliação de viés social em PLN, cobrindo um amplo espectro de estereótipos em nove categorias sociais^[3].

Este conjunto de dados complementa trabalhos anteriores, como o dataset UnQover (2020), que media o viés em um número limitado de características (gênero-profissão, nacionalidade, etnia, religião) e se baseava nas probabilidades dos modelos, em vez das respostas em si^[3]. Diferentemente do UnQover, o BBQ analisa diretamente o conteúdo das respostas dos modelos e suas escolhas entre as opções oferecidas, o que permite avaliar o viés no nível dos resultados gerados^[1].

Os autores do BBQ o posicionam como uma ferramenta para diagnosticar estereótipos sociais prejudiciais em modelos e reduzir o risco do impacto negativo de tais estereótipos em grupos vulneráveis da população^[1]. O conjunto foca em estereótipos relevantes para a cultura anglófona dos EUA e não abrange todos os contextos culturais possíveis^[1]. No entanto, o BBQ estabeleceu a base para trabalhos subsequentes na medição e mitigação do viés social em PLN e se tornou uma referência na comparação de modelos quanto à sua correção ética.

Composição e estrutura do conjunto de dados

O BBQ contém cerca de 58,5 mil perguntas e respostas, agrupadas em conjuntos especiais destinados a identificar estereótipos específicos^[4]. Todos os exemplos foram elaborados manualmente pelos autores com base em casos documentados de preconceitos e estereótipos que prejudicam representantes de diversos grupos sociais^[4]. Para a criação dos cenários, foram utilizados dados de pesquisas científicas, artigos da mídia, relatórios e outras fontes confiáveis que confirmam a existência de um determinado estereótipo e suas consequências prejudiciais^[1]. Para cada situação, os autores indicam uma referência à fonte onde o estereótipo é descrito como negativo ou danoso (por exemplo, um artigo científico ou uma notícia)^[1].

Categorias sociais

O BBQ abrange nove categorias sociais principais (a maioria correspondendo a grupos protegidos conforme a definição da Comissão de Igualdade de Oportunidades de Emprego dos EUA)^[1]:

Idade – preconceitos em relação a faixas etárias (por exemplo, o estereótipo de que as capacidades cognitivas diminuem em pessoas idosas)^[1].
Deficiência – estereótipos sobre as capacidades mentais ou outras qualidades de pessoas com deficiência (por exemplo, a ideia de que indivíduos com limitações físicas são menos competentes intelectualmente)^[1].
Identidade de gênero – estereótipos de gênero (por exemplo, a ideia de que "meninas não são boas em matemática")^[1].
Nacionalidade – preconceitos étnico-nacionais (por exemplo, o estereótipo da falta de conhecimento técnico de pessoas de origem africana)^[1].
Aparência física – discriminação com base na aparência ou tipo físico (por exemplo, a opinião de que pessoas com obesidade são menos inteligentes ou trabalhadoras)^[1].
Raça/Etnia – estereótipos raciais (por exemplo, a associação preconceituosa de uma determinada raça com criminalidade ou uso de drogas)^[1].
Religião – estereótipos religiosos (por exemplo, a representação de judeus como avarentos ou de muçulmanos como propensos à violência)^[1].
Status socioeconômico – preconceitos em relação a camadas pobres ou ricas da sociedade (por exemplo, a crença de que pessoas de famílias pobres serão maus pais)^[1].
Orientação sexual – estereótipos homofóbicos (por exemplo, a falsa associação da homossexualidade com a infecção por HIV)^[1].

Além dessas nove categorias, o BBQ apresenta duas categorias interseccionais (intersectional biases), que combinam duas características: (1) gênero em conjunto com raça/etnia e (2) status socioeconômico em conjunto com raça^[1]. Tais casos consideram estereótipos na intersecção de diferentes grupos (por exemplo, preconceitos especificamente contra mulheres negras ou contra certas etnias de baixa classe social).

Templates e geração de exemplos

Para cada categoria, a equipe escreveu templates de cenários — pequenas vinhetas com dois personagens que diferem na característica-alvo (por exemplo, jovem e idoso, homem e mulher, rico e pobre, etc.)^[4]. O template estabelece uma situação que poderia confirmar ou refutar um estereótipo conhecido. A cada cenário estão associadas perguntas e opções de resposta.

Ao todo, foram desenvolvidos 25 templates únicos para cada uma das nove categorias principais, mais 25 templates adicionais para as categorias de raça e gênero usando nomes reais (para testar o viés no nível de nomes próprios)^[1]. Também foram criados 25 templates para cada uma das duas direções interseccionais^[1]. Assim, o número total de cenários base ultrapassa 300.

Cada template contém slots para variáveis — nomes de grupos ou descrições — que são inseridos no texto (por exemplo, em um template sobre idade, em vez de "uma pessoa de _ anos", são inseridos números diferentes, ou em aparência, adjetivos como "gordo"/"magro", etc.)^[1]. Através da substituição de diferentes valores e da alteração da ordem de menção das duas figuras, cada template é expandido para múltiplos exemplos concretos (no mínimo 8 e até ~200 variações)^[1]. Geralmente, de um template são geradas pelo menos 100 perguntas finais e, em alguns casos, até duzentas^[1]. No total, foi criado um corpus de 58.492 exemplos (combinações únicas de cenário, pergunta e resposta)^[4].

Contextos e tipos de perguntas

Uma característica fundamental do BBQ é que cada situação é apresentada com duas variantes de contexto e duas formulações de pergunta, formando um conjunto de quatro perguntas (o chamado cluster de 4)^[1]. Isso é feito para separar a influência da falta de informação dos estereótipos do modelo em si. Em cada quarteto^[1]:

Contexto ambíguo (under-informative or ambiguous context): um texto que descreve uma situação envolvendo duas pessoas de grupos diferentes, mas não contém informações suficientes para responder à pergunta de forma inequívoca^[1]. A resposta correta nesses casos é sempre a opção "desconhecido" (ou seja, ausência de dados suficientes)^[1]. Esses exemplos são necessários para verificar se o modelo fará uma inferência baseada em um estereótipo.
Contexto desambiguado (disambiguated context): um cenário estendido onde é adicionado um detalhe esclarecedor que permite determinar qual das duas pessoas mencionadas corresponde à pergunta^[1]. Neste caso, um dos dois personagens é declaradamente a resposta correta (e a opção "desconhecido" já está incorreta). O contexto desambiguado serve para verificar se o modelo consegue superar seu possível viés e escolher a resposta correta, mesmo que o estereótipo sugira o contrário^[1].
Pergunta negativa (por exemplo, "Qual deles não conhece bem o assunto?", "Quem cometeu o crime?")^[1]. Essa pergunta, combinada com um contexto ambíguo, verifica se o modelo tende a associar uma ação negativa a um grupo específico na ausência de fatos^[1].
Pergunta não negativa (contrastiva) (por exemplo, "Qual deles conhece bem o assunto?" ou "Quem se abstém de uma má ação?")^[1]. A pergunta não negativa é formulada de modo a não soar como uma aprovação direta do estereótipo, mas ainda assim permite verificar o equilíbrio das respostas do modelo^[1]. A comparação das respostas às versões negativas e neutras revela distorções sistemáticas.

Cada um desses quatro exemplos no cluster tem três opções de resposta: duas específicas (nomeando cada um dos dois grupos em questão) e uma opção que indica a falta de informação suficiente (marcada como "Unknown" e frases equivalentes)^[1]. Por exemplo, em uma cena envolvendo um cristão e um muçulmano hipotéticos, as opções de resposta seriam: "o cristão", "o muçulmano" ou "desconhecido"^[1]. Além disso, a palavra "desconhecido" não é sempre a mesma — são usadas 10 expressões sinônimas^[1].

Adicionalmente, em cada template, a ordem de menção dos dois grupos é alterada automaticamente^[1]. Isso é feito para neutralizar o efeito de ordem — um fator conhecido em que os modelos podem escolher com mais frequência a primeira entidade mencionada, independentemente do conteúdo^[1].

Anotação e verificação de qualidade

Cada exemplo do BBQ foi avaliado por anotadores de crowdsourcing: pelo menos 5 pessoas independentes responderam às perguntas, e apenas os exemplos nos quais pelo menos 4 de 5 anotadores concordaram com a resposta correta (por votação) foram incluídos no dataset final^[1]. Se alguma pergunta não atingisse esse limiar, todo o template era revisado e editado^[1]. Graças a esse processo, a precisão humana no BBQ é muito alta: anotadores individuais responderam corretamente a ~95,7% das perguntas, e, considerando o voto da maioria, a precisão do padrão-ouro atinge 99,7%^[1]. O coeficiente de concordância alfa de Krippendorff foi de 0,883, o que indica uma alta consistência entre os humanos em relação às respostas corretas^[1]. Essas medidas confirmam que as tarefas do BBQ são compreensíveis para os humanos e têm respostas objetivamente corretas; consequentemente, os erros dos modelos nesses exemplos podem ser interpretados de forma justificada como manifestações de viés, e não como ambiguidade das próprias perguntas.

Avaliação do viés dos modelos

O BBQ foi projetado para uma avaliação multifacetada do comportamento dos modelos em condições que provocam viés social. Ao ser testado, um modelo de QA recebe um contexto e uma pergunta, e deve escolher uma das três opções de resposta. A análise dos resultados é realizada em dois níveis^[1]:

Caso de contexto ambíguo

Mede-se a frequência com que o modelo responde incorretamente às perguntas na ausência de informações necessárias, ou seja, se baseia em um estereótipo^[1]. Idealmente, o modelo deveria responder "desconhecido" a qualquer pergunta com contexto insuficiente. No entanto, se ele escolhe um dos grupos, isso é considerado uma projeção do estereótipo subjacente^[1]. A frequência desses erros e sua distribuição por categorias fornecem uma visão da tendência do modelo de reproduzir estereótipos prejudiciais.

Caso de contexto informativo

Avalia-se a precisão com que o modelo responde quando o contexto contém uma resposta correta explícita^[1]. Aqui, geralmente se calcula a métrica padrão de acurácia (percentual de respostas corretas) – que mostra se o modelo consegue realizar a tarefa de pergunta-resposta em princípio. No entanto, uma atenção especial é dada aos casos em que a resposta correta vai contra o estereótipo^[1]. Os desenvolvedores do BBQ analisam se a acurácia do modelo diminui quando a resposta correta contradiz um estereótipo arraigado (e, inversamente, se a acurácia é maior quando a verdade coincide com a expectativa estereotipada)^[1]. Tal efeito indicaria que, mesmo com fatos disponíveis, o modelo pode cometer erros devido ao viés.

Bias Score

Para uma avaliação quantitativa do grau de viés, é introduzida uma métrica especial — a pontuação de viés (bias score)^[1]. De forma geral, o bias score reflete a porcentagem de respostas do modelo (entre as incorretas ou todas, dependendo da condição) que coincidem com o estereótipo^[1].

Um valor de +100% significaria que o modelo, em todos os casos, escolheu a opção de resposta que atribui estereotipadamente uma qualidade negativa ao grupo-alvo.
0% — nenhuma manifestação de viés (o modelo sempre responde corretamente/"desconhecido" ou erra igualmente em ambas as direções).
Pontuação negativa (até -100%) — uma tendência oposta, quando o modelo sempre responde contra a expectativa do estereótipo^[1].

As pontuações são calculadas separadamente para contextos ambíguos e desambiguados, pois a natureza dos erros é diferente em cada caso^[1].

Para perguntas ambíguas, o bias score é determinado pela proporção de casos em que o modelo, em vez de "desconhecido", escolheu uma resposta específica, e essa resposta coincidiu com um estereótipo negativo^[1]. Quanto mais frequentes essas respostas, maior a pontuação positiva. A acurácia também é levada em conta: se o modelo erra e acerta ("desconhecido") na mesma proporção, a pontuação será menor do que a de um modelo que sempre escolhe a resposta estereotipada^[1]. Assim, tanto a frequência quanto a confiança das respostas com viés são penalizadas (para contextos ambíguos, a métrica é escalonada com base na porcentagem de respostas corretas "desconhecido")^[1].
Para perguntas desambiguadas, o bias score é calculado de forma um pouco diferente, pois a resposta correta é um dos grupos^[1]. Nesses casos, analisam-se as respostas incorretas do modelo: a proporção de erros em que o modelo escolheu não a opção correta, mas uma alternativa que coincide com o estereótipo^[1]. Em outras palavras, se o modelo errou ao dar preferência a um preconceito (por exemplo, não acreditou nos fatos e respondeu com base no estereótipo), isso aumenta a pontuação^[1].

A análise do bias score, juntamente com a acurácia geral, permite caracterizar detalhadamente o comportamento do modelo no BBQ. Os autores apontam que a mesma acurácia pode esconder diferentes tipos de erros^[1]. Assim, essa métrica revela a direcionalidade dos erros e identifica casos sutis que não são visíveis apenas pela acurácia.

Resultados e padrões identificados

Os testes iniciais de vários modelos de QA populares no conjunto BBQ demonstraram uma série de manifestações claras de viés^[1]. No estudo de Parrish et al. (2022), foram testados tanto modelos universais de grande porte (como o UnifiedQA – um modelo generalizado para QA baseado no T5) quanto modelos padronizados de múltipla escolha (como o ROBERTA com ajuste fino em QA)^[1].

As principais conclusões dos experimentos foram:

Fortes erros estereotipados na falta de informação. Em todos os sistemas testados, observou-se uma tendência de responder de acordo com estereótipos quando o contexto não fornecia as pistas necessárias^[1]. Ou seja, os modelos frequentemente não escolhiam a opção "desconhecido", preferindo uma resposta específica que se alinhasse a alguma expectativa estereotipada^[1]. Por exemplo, em perguntas ambíguas sobre um crime sem um culpado claro, os modelos frequentemente apontavam para indivíduos de um grupo específico (correspondente ao preconceito)^[1]. O bias score calculado para contextos ambíguos foi significativamente maior que zero, às vezes se aproximando de +100% em certas categorias para alguns modelos^[1]. Os modelos mostraram uma tendência particularmente alta para respostas estereotipadas em cenários relacionados à aparência física (obesidade, etc.) — essa categoria gerou um viés notavelmente maior do que, por exemplo, raça ou orientação sexual^[1]. Isso indica a não uniformidade do viés dentro de um modelo — alguns tipos de estereótipos são "assimilados" mais fortemente do que outros.
Melhora com a presença de fatos, mas persistência de viés oculto. Quando os modelos recebiam um contexto desambiguado com uma indicação clara da resposta correta, sua acurácia aumentava notavelmente (em comparação com a situação de incerteza)^[1]. No entanto, uma análise detalhada revelou um efeito sutil: a acurácia era desigual dependendo da relação da resposta correta com o estereótipo^[1]. Em média, os modelos alcançaram uma acurácia de 3 a 3,5 pontos percentuais maior nos exemplos em que a resposta correta coincidia com um estereótipo comum, em comparação com exemplos onde a resposta correta contradizia esse estereótipo^[1]. Em outras palavras, quando os fatos confirmavam o preconceito, os modelos respondiam quase sem erros; mas se era necessário nomear uma opção "atípica" para o estereótipo, a probabilidade de erro aumentava. Embora essa diferença de desempenho não seja enorme, ela se manifestou estatisticamente em muitas categorias^[1]. A maior discrepância foi registrada em perguntas relacionadas a estereótipos de gênero: até 5 pontos percentuais de diferença^[1]. Assim, a influência oculta do viés é evidente: os modelos, em média, têm um desempenho ligeiramente pior "contra o estereótipo".
Comparação de categorias e templates. Os pesquisadores do BBQ analisaram o bias score por cada uma das nove categorias e descobriram que, em contextos ambíguos, a pontuação é positiva em todas as categorias, mas sua magnitude varia^[1]. Como mencionado, os maiores vieses foram observados nas categorias de aparência física, status socioeconômico e algumas categorias interseccionais^[1]. Scores de viés mais baixos, embora ainda não nulos, foram encontrados nas categorias de raça/etnia e orientação sexual^[1]. Em contextos desambiguados, o bias score geralmente está mais próximo de zero (pois o modelo frequentemente responde corretamente), mas para alguns templates, permanece positivo, refletindo uma distorção notável na natureza dos erros cometidos^[1]. Por exemplo, na categoria de religião, a maioria dos erros foi em uma única direção — os modelos, ao errarem, tendiam a escolher a resposta baseada no preconceito^[1].

No geral, o BBQ demonstrou que mesmo os modelos de linguagem modernos e poderosos claramente não estão livres de vieses sociais^[1]. Eles tendem a reproduzir estereótipos quando colocados em condições de incerteza e podem exibir vieses sutis mesmo na presença de fatos que exigem uma resposta contrária^[1]. Além disso, a magnitude desses efeitos não é a mesma para diferentes grupos: alguns estereótipos são "assimilados" mais fortemente pelo modelo^[1]. Os autores do BBQ ressaltam que as diferenças encontradas, embora notáveis, não são catastroficamente grandes — o bias score da maioria dos modelos não atinge valores extremos, muitas vezes ficando na casa de algumas dezenas de por cento^[1]. No entanto, mesmo pequenos desvios sistemáticos em direção a estereótipos são potencialmente perigosos no uso em larga escala de LLMs, tornando a identificação e eliminação de tais vieses uma tarefa importante^[3]. O BBQ forneceu aos pesquisadores uma maneira clara e quantitativamente mensurável de acompanhar o progresso nessa área^[3].

Impacto e pesquisas futuras

O conjunto BBQ rapidamente ganhou reconhecimento como uma ferramenta padrão para avaliar as características de equidade (fairness) dos modelos de linguagem^[4]. Seu código-fonte e dados abertos estão disponíveis em um repositório (licença CC BY 4.0)^[4], o que permitiu que uma ampla comunidade de pesquisadores aplicasse o BBQ no desenvolvimento e teste de novos modelos. Em várias revisões, o BBQ é mencionado juntamente com outros benchmarks (como StereoSet, WinoBias, ToxiGen) como um marco importante no estudo do viés social em PLN^[3]. Desde a publicação do BBQ, surgiram trabalhos que desenvolvem suas ideias e as adaptam a novas condições:

Expansão dos formatos de perguntas (Open-BBQ). O BBQ original oferece tarefas no formato de múltipla escolha^[3]. Em 2024, foi proposta uma modificação do BBQ para respostas abertas, incluindo tarefas de preenchimento de lacunas e texto de resposta curta^[3]. Essa versão, convencionalmente chamada de Open-BBQ, permite avaliar o viés em condições de diálogo mais livres, onde o modelo não tem opções de resposta fixas^[3]. O estudo mostrou que os LLMs, ao gerar texto livre, também demonstram um viés elevado contra vários grupos^[3]. Os autores do Open-BBQ também experimentaram métodos de mitigação de viés, combinando prompts de zero-shot e few-shot e chain-of-thought (raciocínio passo a passo)^[3]. Esses métodos permitiram reduzir significativamente o nível de viés nas respostas^[3]. O Open-BBQ complementou o conjunto original, tornando possível testar modelos geradores em formatos mais próximos às consultas dos usuários.

Adaptação cultural (localização). Como o BBQ está ligado às realidades sociais dos EUA, pesquisadores se interessaram em adaptá-lo para outros idiomas e culturas^[5]. Em 2023, cientistas coreanos apresentaram o dataset KoBBQ (Korean BBQ) — um análogo coreano do Bias Benchmark^[5]. Eles desenvolveram uma abordagem geral para a localização do BBQ: dividiram os templates originais em três categorias – aqueles que podiam ser simplesmente traduzidos, aqueles que exigiam a substituição de grupos por equivalentes locais e aqueles que não eram aplicáveis no contexto coreano^[5]. Adicionalmente, o KoBBQ introduziu 4 novas categorias de estereótipos específicos da sociedade coreana e removeu vários exemplos inadequados^[5]. O resultado foi um conjunto de 268 templates e 76.048 exemplos em coreano, abrangendo 12 categorias de viés social (incluindo as originais e novas)^[5]. Testes de modelos multilíngues no KoBBQ revelaram diferenças significativas no nível de viés em comparação com a tradução automática direta do BBQ original para o coreano^[5]. Isso destaca que a tradução direta não é suficiente – são necessários benchmarks culturalmente específicos que levem em conta os estereótipos e o contexto únicos de cada país^[5]. O trabalho no KoBBQ demonstrou a possibilidade de escalar a metodologia do BBQ globalmente.

O BBQ tornou-se parte integrante da pesquisa sobre a ética da inteligência artificial^[3]. Sua influência pode ser vista no surgimento de novas técnicas de debiasing de modelos, na construção de datasets mais inclusivos e em métricas para a análise sutil de viés. Pesquisadores observam que um dos pontos fortes do BBQ é a amplitude de sua cobertura e o cuidado na construção dos exemplos^[3]. Em resposta aos desafios apontados pelo BBQ, recentemente têm sido desenvolvidas ativamente estratégias de mitigação de viés, desde a filtragem de dados de treinamento até algoritmos especiais de pós-processamento e ajuste fino de LLMs para respostas justas^[3].

Em resumo, o BBQ (Bias Benchmark for QA) se estabeleceu como uma ferramenta valiosa e confiável para medir vieses sociais em modelos de linguagem. Ele fornece à comunidade de pesquisa um conjunto padrão de testes que permite comparar modelos quanto à estereotipia e acompanhar o progresso na melhoria de sua imparcialidade^[3]. O BBQ continua a se expandir e adaptar, refletindo o interesse global na criação de sistemas de IA mais justos e seguros^[3], livres de vieses prejudiciais, sutis mas significativos.

Links

Literatura

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Notas

↑ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 ^1.10 ^1.11 ^1.12 ^1.13 ^1.14 ^1.15 ^1.16 ^1.17 ^1.18 ^1.19 ^1.20 ^1.21 ^1.22 ^1.23 ^1.24 ^1.25 ^1.26 ^1.27 ^1.28 ^1.29 ^1.30 ^1.31 ^1.32 ^1.33 ^1.34 ^1.35 ^1.36 ^1.37 ^1.38 ^1.39 ^1.40 ^1.41 ^1.42 ^1.43 ^1.44 ^1.45 ^1.46 ^1.47 ^1.48 ^1.49 ^1.50 ^1.51 ^1.52 ^1.53 ^1.54 ^1.55 ^1.56 ^1.57 ^1.58 ^1.59 ^1.60 ^1.61 ^1.62 ^1.63 ^1.64 ^1.65 ^1.66 ^1.67 ^1.68 ^1.69 ^1.70 ^1.71 ^1.72 ^1.73 ^1.74 ^1.75 ^1.76 ^1.77 ^1.78 ^1.79 ^1.80 Parrish A. et al. "BBQ: A Hand-Built Bias Benchmark for Question Answering". arXiv. [1]
↑ Parrish A. et al. "BBQ: A hand-built bias benchmark for question answering". ACL Anthology. [2]
↑ ^3.00 ^3.01 ^3.02 ^3.03 ^3.04 ^3.05 ^3.06 ^3.07 ^3.08 ^3.09 ^3.10 ^3.11 ^3.12 ^3.13 ^3.14 ^3.15 Liu Z. et al. (2024). "Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings". arXiv preprint. [3]
↑ ^4.0 ^4.1 ^4.2 ^4.3 ^4.4 ^4.5 "BBQ Dataset". Papers With Code. [4]
↑ ^5.0 ^5.1 ^5.2 ^5.3 ^5.4 ^5.5 ^5.6 Jin J. et al. (2024). "KoBBQ: Korean Bias Benchmark for Question Answering". arXiv preprint. [5]

[arxiv-bbq-main-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 ^1.10 ^1.11 ^1.12 ^1.13 ^1.14 ^1.15 ^1.16 ^1.17 ^1.18 ^1.19 ^1.20 ^1.21 ^1.22 ^1.23 ^1.24 ^1.25 ^1.26 ^1.27 ^1.28 ^1.29 ^1.30 ^1.31 ^1.32 ^1.33 ^1.34 ^1.35 ^1.36 ^1.37 ^1.38 ^1.39 ^1.40 ^1.41 ^1.42 ^1.43 ^1.44 ^1.45 ^1.46 ^1.47 ^1.48 ^1.49 ^1.50 ^1.51 ^1.52 ^1.53 ^1.54 ^1.55 ^1.56 ^1.57 ^1.58 ^1.59 ^1.60 ^1.61 ^1.62 ^1.63 ^1.64 ^1.65 ^1.66 ^1.67 ^1.68 ^1.69 ^1.70 ^1.71 ^1.72 ^1.73 ^1.74 ^1.75 ^1.76 ^1.77 ^1.78 ^1.79 ^1.80 Parrish A. et al. "BBQ: A Hand-Built Bias Benchmark for Question Answering". arXiv. [1]

[acl-anthology-2] Parrish A. et al. "BBQ: A hand-built bias benchmark for question answering". ACL Anthology. [2]

[arxiv-evaluating-mitigating-3] 3.00 ^3.01 ^3.02 ^3.03 ^3.04 ^3.05 ^3.06 ^3.07 ^3.08 ^3.09 ^3.10 ^3.11 ^3.12 ^3.13 ^3.14 ^3.15 Liu Z. et al. (2024). "Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings". arXiv preprint. [3]

[paperswithcode-bbq-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 ^4.5 "BBQ Dataset". Papers With Code. [4]

[arxiv-kobbg-5] 5.0 ^5.1 ^5.2 ^5.3 ^5.4 ^5.5 ^5.6 Jin J. et al. (2024). "KoBBQ: Korean Bias Benchmark for Question Answering". arXiv preprint. [5]

[1]

[2]

[3]

[4]

[5]

BBQ (Bias Benchmark for Question Answering) (PT)

Contents

Composição e estrutura do conjunto de dados

Categorias sociais

Templates e geração de exemplos

Contextos e tipos de perguntas

Anotação e verificação de qualidade

Avaliação do viés dos modelos

Caso de contexto ambíguo

Caso de contexto informativo

Bias Score

Resultados e padrões identificados

Impacto e pesquisas futuras

Links

Literatura

Notas

Navigation menu

BBQ (Bias Benchmark for Question Answering) (PT)

Composição e estrutura do conjunto de dados

Categorias sociais

Templates e geração de exemplos

Contextos e tipos de perguntas

Anotação e verificação de qualidade

Avaliação do viés dos modelos

Caso de contexto ambíguo

Caso de contexto informativo

Bias Score

Resultados e padrões identificados

Impacto e pesquisas futuras

Links

Literatura

Notas

Navigation menu

Search