Viés na Geração

From Systems analysis wiki
Jump to navigation Jump to search

Viés em grandes modelos de linguagem (LLMs) é a distorção sistemática de textos gerados, na qual o modelo reflete ou amplifica estereótipos e preconceitos existentes na sociedade, relacionados a gênero, raça, cultura, visões políticas e outras categorias sociais. Esse fenômeno ocorre porque os LLMs são treinados em enormes volumes de dados humanos, que inevitavelmente contêm informações enviesadas[1].

O viés é um dos principais problemas éticos e técnicos no desenvolvimento de IA, pois pode levar à discriminação, à disseminação de desinformação e à perda de confiança na tecnologia.

Tipos de viés em LLMs

O viés em LLMs pode se manifestar de várias formas.

Viés de gênero

Os modelos tendem a reproduzir estereótipos de gênero tradicionais, associando profissões e características a um determinado gênero.

  • Um estudo da UNESCO de 2024 mostrou que LLMs têm quatro vezes mais probabilidade de descrever mulheres em papéis domésticos («casa», «família», «filhos») do que homens, enquanto os homens são associados a conceitos como «negócios» e «carreira»[2].
  • Uma pesquisa na Nature Scientific Reports revelou um viés significativo de gênero e raça no conteúdo gerado por sete dos principais LLMs, incluindo ChatGPT e LLaMA[3].
  • No contexto da língua russa, os modelos frequentemente usam o gênero masculino por padrão para papéis neutros (por exemplo, «médico», «diretor») e têm dificuldade em gerar formas femininas[4].

Viés racial e étnico

LLMs podem exibir discriminação latente em relação a diferentes grupos étnicos.

  • Um estudo da Bloomberg mostrou que o ChatGPT 3.5 deu preferência a currículos de candidatos de ascendência asiática em comparação com candidatos negros[5].
  • No contexto da língua russa, o dataset RuBia revelou que os modelos podem reproduzir estereótipos antissemitas e anti-imigrantes (por exemplo, concordando com a afirmação «imigrantes são preguiçosos»), se estes estiverem presentes no corpus de treinamento[6].

Viés político e ideológico

Apesar das alegações de neutralidade, muitos LLMs demonstram uma inclinação para um espectro político específico.

  • Um estudo do Centre for Policy Studies revelou um viés de esquerda-liberal em 23 dos 24 LLMs testados[7].
  • Testes da Universidade de Washington e da Carnegie Mellon mostraram que o ChatGPT e o GPT-4 eram os mais de esquerda-libertários, enquanto o LLaMA da Meta era o mais de direita-autoritário[8].

Mecanismos de surgimento do viés

  • Dados de treinamento: A principal fonte. Os LLMs são treinados em enormes corpora de textos da internet, que são um «espelho» da sociedade com todos os seus estereótipos[9].
  • Arquitetura e algoritmos de treinamento: A própria arquitetura dos transformadores pode amplificar as correlações existentes nos dados.
  • Ajuste fino e RLHF: A etapa de aprendizado por reforço com feedback humano (RLHF) também pode introduzir viés, já que os avaliadores humanos são inevitavelmente guiados por suas próprias visões.

Métodos de detecção e mitigação

Detecção de viés

  • Conjuntos de testes de estereótipos: São utilizados datasets especializados, como:
    • CrowS-Pairs: Abrange nove tipos de viés, incluindo raça, religião e idade[10].
    • StereoSet: Mede o viés estereotipado em quatro domínios: gênero, profissão, raça e religião[11].
    • RuBia: Um dataset especializado para detectar viés em modelos de língua russa[12].
    • Recursos multilíngues: Adaptações como o French CrowS-Pairs[13] e o Chinese Bias Benchmark (CBBQ)[14].
    • Análise em áreas específicas: Estudos de viés em recrutamento[15], medicina[16] e outras áreas.

Mitigação de viés

  • No nível dos dados (Pré-processamento): Limpeza, filtragem e rebalanceamento dos corpora de treinamento. Os métodos são descritos na documentação da Holistic AI[17].
  • No nível do treinamento (In-processing): Modificação dos algoritmos de treinamento para considerar a justiça (fairness).
  • No nível da saída (Pós-processamento): Filtragem e moderação das respostas já geradas.

Consequências jurídicas e éticas

O viés em IA tem consequências sérias, incluindo discriminação em áreas críticas e a disseminação de desinformação.

  • Regulamentação: Governos ao redor do mundo estão começando a introduzir normas para controlar a IA.
  • Na Europa, foi adotado o AI Act, que entra em vigor em fases a partir de 1º de agosto de 2024. Ele impõe requisitos rigorosos para sistemas de alto risco, incluindo a avaliação obrigatória de viés, e prevê multas de até 7% do faturamento global da empresa[18].
  • Na Rússia, em 2021, as principais empresas de tecnologia assinaram voluntariamente o Código de Ética em IA, comprometendo-se a minimizar a discriminação. Até o final de 2021, mais de 100 organizações o haviam assinado[19].

O combate ao viés é um compromisso constante. Uma filtragem excessivamente agressiva pode levar a um "excesso de politicamente correto", no qual o modelo se recusa a discutir qualquer tópico sensível. Portanto, os desenvolvedores buscam um equilíbrio entre segurança, objetividade e a capacidade informativa do modelo.

Referências bibliográficas

  • Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
  • Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
  • Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. doi:10.1145/3442188.3445922.
  • Nadeem, M. et al. (2020). StereoSet: Measuring Stereotypical Bias in Pretrained Language Models. arXiv:2004.09456.
  • Nangia, N. et al. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. ACL 2020.
  • Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
  • Hofmann, V. et al. (2024). AI Generates Covertly Racist Decisions about People Based on Their Dialect. Nature, 633, 147-154. Full text.
  • Fang, X. et al. (2024). Bias of AI-Generated Content: An Examination of News Produced by Large Language Models. Scientific Reports, 14, 5224. Full text.
  • Grigoreva, V. et al. (2024). RuBia: A Russian Language Bias Detection Dataset. arXiv:2403.17553.
  • Du, L. et al. (2024). Causal-Guided Active Learning for Debiasing Large Language Models. arXiv:2408.12942.
  • Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.

Ver também

  • Grandes modelos de linguagem

Notas

  1. «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]
  2. «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]
  3. «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]
  4. «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]
  5. «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]
  6. «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]
  7. «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]
  8. «AI language models are rife with political biases». MIT Technology Review. [8]
  9. «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]
  10. «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]
  11. «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]
  12. «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]
  13. «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]
  14. «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]
  15. «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]
  16. «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]
  17. «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]
  18. «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]
  19. «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]