Viés na Geração

Viés em grandes modelos de linguagem (LLMs) é a distorção sistemática de textos gerados, na qual o modelo reflete ou amplifica estereótipos e preconceitos existentes na sociedade, relacionados a gênero, raça, cultura, visões políticas e outras categorias sociais. Esse fenômeno ocorre porque os LLMs são treinados em enormes volumes de dados humanos, que inevitavelmente contêm informações enviesadas^[1].

O viés é um dos principais problemas éticos e técnicos no desenvolvimento de IA, pois pode levar à discriminação, à disseminação de desinformação e à perda de confiança na tecnologia.

Tipos de viés em LLMs

O viés em LLMs pode se manifestar de várias formas.

Viés de gênero

Os modelos tendem a reproduzir estereótipos de gênero tradicionais, associando profissões e características a um determinado gênero.

Um estudo da UNESCO de 2024 mostrou que LLMs têm quatro vezes mais probabilidade de descrever mulheres em papéis domésticos («casa», «família», «filhos») do que homens, enquanto os homens são associados a conceitos como «negócios» e «carreira»^[2].
Uma pesquisa na Nature Scientific Reports revelou um viés significativo de gênero e raça no conteúdo gerado por sete dos principais LLMs, incluindo ChatGPT e LLaMA^[3].
No contexto da língua russa, os modelos frequentemente usam o gênero masculino por padrão para papéis neutros (por exemplo, «médico», «diretor») e têm dificuldade em gerar formas femininas^[4].

Viés racial e étnico

LLMs podem exibir discriminação latente em relação a diferentes grupos étnicos.

Um estudo da Bloomberg mostrou que o ChatGPT 3.5 deu preferência a currículos de candidatos de ascendência asiática em comparação com candidatos negros^[5].
No contexto da língua russa, o dataset RuBia revelou que os modelos podem reproduzir estereótipos antissemitas e anti-imigrantes (por exemplo, concordando com a afirmação «imigrantes são preguiçosos»), se estes estiverem presentes no corpus de treinamento^[6].

Viés político e ideológico

Apesar das alegações de neutralidade, muitos LLMs demonstram uma inclinação para um espectro político específico.

Um estudo do Centre for Policy Studies revelou um viés de esquerda-liberal em 23 dos 24 LLMs testados^[7].
Testes da Universidade de Washington e da Carnegie Mellon mostraram que o ChatGPT e o GPT-4 eram os mais de esquerda-libertários, enquanto o LLaMA da Meta era o mais de direita-autoritário^[8].

Mecanismos de surgimento do viés

Dados de treinamento: A principal fonte. Os LLMs são treinados em enormes corpora de textos da internet, que são um «espelho» da sociedade com todos os seus estereótipos^[9].
Arquitetura e algoritmos de treinamento: A própria arquitetura dos transformadores pode amplificar as correlações existentes nos dados.
Ajuste fino e RLHF: A etapa de aprendizado por reforço com feedback humano (RLHF) também pode introduzir viés, já que os avaliadores humanos são inevitavelmente guiados por suas próprias visões.

Métodos de detecção e mitigação

Detecção de viés

Conjuntos de testes de estereótipos: São utilizados datasets especializados, como:
- CrowS-Pairs: Abrange nove tipos de viés, incluindo raça, religião e idade^[10].
- StereoSet: Mede o viés estereotipado em quatro domínios: gênero, profissão, raça e religião^[11].
- RuBia: Um dataset especializado para detectar viés em modelos de língua russa^[12].
- Recursos multilíngues: Adaptações como o French CrowS-Pairs^[13] e o Chinese Bias Benchmark (CBBQ)^[14].
- Análise em áreas específicas: Estudos de viés em recrutamento^[15], medicina^[16] e outras áreas.

Mitigação de viés

No nível dos dados (Pré-processamento): Limpeza, filtragem e rebalanceamento dos corpora de treinamento. Os métodos são descritos na documentação da Holistic AI^[17].
No nível do treinamento (In-processing): Modificação dos algoritmos de treinamento para considerar a justiça (fairness).
No nível da saída (Pós-processamento): Filtragem e moderação das respostas já geradas.

Consequências jurídicas e éticas

O viés em IA tem consequências sérias, incluindo discriminação em áreas críticas e a disseminação de desinformação.

Regulamentação: Governos ao redor do mundo estão começando a introduzir normas para controlar a IA.
Na Europa, foi adotado o AI Act, que entra em vigor em fases a partir de 1º de agosto de 2024. Ele impõe requisitos rigorosos para sistemas de alto risco, incluindo a avaliação obrigatória de viés, e prevê multas de até 7% do faturamento global da empresa^[18].
Na Rússia, em 2021, as principais empresas de tecnologia assinaram voluntariamente o Código de Ética em IA, comprometendo-se a minimizar a discriminação. Até o final de 2021, mais de 100 organizações o haviam assinado^[19].

O combate ao viés é um compromisso constante. Uma filtragem excessivamente agressiva pode levar a um "excesso de politicamente correto", no qual o modelo se recusa a discutir qualquer tópico sensível. Portanto, os desenvolvedores buscam um equilíbrio entre segurança, objetividade e a capacidade informativa do modelo.

Referências bibliográficas

Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. doi:10.1145/3442188.3445922.
Nadeem, M. et al. (2020). StereoSet: Measuring Stereotypical Bias in Pretrained Language Models. arXiv:2004.09456.
Nangia, N. et al. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. ACL 2020.
Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
Hofmann, V. et al. (2024). AI Generates Covertly Racist Decisions about People Based on Their Dialect. Nature, 633, 147-154. Full text.
Fang, X. et al. (2024). Bias of AI-Generated Content: An Examination of News Produced by Large Language Models. Scientific Reports, 14, 5224. Full text.
Grigoreva, V. et al. (2024). RuBia: A Russian Language Bias Detection Dataset. arXiv:2403.17553.
Du, L. et al. (2024). Causal-Guided Active Learning for Debiasing Large Language Models. arXiv:2408.12942.
Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.

Ver também

Grandes modelos de linguagem

Notas

↑ «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]
↑ «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]
↑ «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]
↑ «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]
↑ «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]
↑ «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]
↑ «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]
↑ «AI language models are rife with political biases». MIT Technology Review. [8]
↑ «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]
↑ «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]
↑ «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]
↑ «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]
↑ «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]
↑ «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]
↑ «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]
↑ «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]
↑ «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]
↑ «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]
↑ «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]

[arxiv-bias-origin-1] «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]

[unesco-gender-bias-2] «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]

[nature-gender-race-bias-3] «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]

[habr-bias-experiment-4] «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]

[bloomberg-hiring-bias-5] «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]

[rubia-dataset-themoonlight-6] «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]

[cps-left-leaning-bias-7] «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]

[mit-review-political-bias-8] «AI language models are rife with political biases». MIT Technology Review. [8]

[rbc-bias-safety-9] «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]

[crows-pairs-acl-10] «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]

[stereoset-arxiv-11] «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]

[rubia-dataset-arxiv-12] «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]

[13] «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]

[14] «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]

[stanford-law-bias-15] «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]

[nature-digital-medicine-bias-16] «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]

[holistic-ai-docs-17] «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]

[jonesday-ai-act-18] «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]

[tass-ethics-code-19] «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Viés na Geração

Contents

Tipos de viés em LLMs

Viés de gênero

Viés racial e étnico

Viés político e ideológico

Mecanismos de surgimento do viés

Métodos de detecção e mitigação

Detecção de viés

Mitigação de viés

Consequências jurídicas e éticas

Referências bibliográficas

Ver também

Notas

Navigation menu

Viés na Geração

Tipos de viés em LLMs

Viés de gênero

Viés racial e étnico

Viés político e ideológico

Mecanismos de surgimento do viés

Métodos de detecção e mitigação

Detecção de viés

Mitigação de viés

Consequências jurídicas e éticas

Referências bibliográficas

Ver também

Notas

Navigation menu

Search