Предвзятость в генерации

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Предвзятость в больших языковых моделях (LLM) — это систематическое искажение генерируемых текстов, при котором модель отражает или усиливает существующие в обществе стереотипы и предубеждения, связанные с гендером, расой, культурой, политическими взглядами и другими социальными категориями. Это явление возникает из-за того, что LLM обучаются на огромных массивах человеческих данных, которые неизбежно содержат предвзятую информацию[1].

Предвзятость является одной из ключевых этических и технических проблем в разработке ИИ, поскольку она может приводить к дискриминации, распространению дезинформации и подрыву доверия к технологиям.

Виды предвзятости в LLM

Предвзятость в LLM может проявляться в различных формах.

Гендерная предвзятость

Модели склонны воспроизводить традиционные гендерные стереотипы, ассоциируя профессии и характеристики с определённым полом.

  • Исследование ЮНЕСКО 2024 года показало, что LLM в четыре раза чаще описывают женщин в домашних ролях («дом», «семья», «дети»), чем мужчин, а мужчин связывают с понятиями «бизнес» и «карьера»[2].
  • Исследование в Nature Scientific Reports выявило существенную гендерную и расовую предвзятость в контенте, генерируемом семью ведущими LLM, включая ChatGPT и LLaMA[3].
  • В русскоязычном контексте модели часто по умолчанию используют мужской род для нейтральных ролей (например, «врач», «директор») и с трудом генерируют феминитивы[4].

Расовая и этническая предвзятость

LLM могут проявлять скрытую дискриминацию по отношению к различным этническим группам.

  • Исследование Bloomberg показало, что ChatGPT 3.5 отдавал предпочтение резюме кандидатов азиатского происхождения по сравнению с чернокожими[5].
  • В русскоязычном контексте датасет RuBia выявил, что модели могут воспроизводить антисемитские и антииммигрантские стереотипы (например, соглашаясь с утверждением «иммигранты ленивы»), если они присутствуют в обучающем корпусе[6].

Политическая и идеологическая предвзятость

Несмотря на заявления о нейтральности, многие LLM демонстрируют склонность к определённому политическому спектру.

  • Исследование Centre for Policy Studies выявило лево-либеральную предвзятость у 23 из 24 протестированных LLM[7].
  • Тестирование Университета Вашингтона и Карнеги-Меллон показало, что ChatGPT и GPT-4 были наиболее лево-либертарианскими, в то время как LLaMA от Meta — наиболее право-авторитарной[8].

Механизмы появления предвзятости

  • Обучающие данные: Главный источник. LLM обучаются на огромных корпусах текстов из интернета, которые являются «зеркалом» общества со всеми его стереотипами[9].
  • Архитектура и алгоритмы обучения: Сама архитектура трансформеров может усиливать существующие в данных корреляции.
  • Тонкая настройка и RLHF: Этап обучения с подкреплением от человека (RLHF) также может вносить предвзятость, так как люди-оценщики неизбежно руководствуются собственными взглядами.

Методы обнаружения и смягчения

Обнаружение предвзятости

  • Тестовые наборы стереотипов: Используются специализированные датасеты, такие как:
    • CrowS-Pairs: Охватывает девять типов предвзятости, включая расу, религию и возраст[10].
    • StereoSet: Измеряет стереотипическую предвзятость в четырех доменах: гендер, профессия, раса и религия[11].
    • RuBia: Специализированный датасет для выявления предвзятости в русскоязычных моделях[12].
    • Многоязычные ресурсы: Адаптации, такие как French CrowS-Pairs[13] и Chinese Bias Benchmark (CBBQ)[14].
    • Анализ в конкретных областях: Исследования предвзятости в рекрутинге[15], медицине[16] и других сферах.

Смягчение предвзятости

  • На уровне данных (Pre-processing): Очистка, фильтрация и перебалансировка обучающих корпусов. Методы описаны в документации Holistic AI[17].
  • На уровне обучения (In-processing): Модификация алгоритмов обучения для учёта справедливости.
  • На уровне вывода (Post-processing): Фильтрация и модерация уже сгенерированных ответов.

Юридические и этические последствия

Предвзятость в ИИ имеет серьёзные последствия, включая дискриминацию в критически важных областях и распространение дезинформации.

  • Регулирование: Правительства по всему миру начинают вводить нормы для контроля над ИИ.
  • В Европе принят AI Act, который вступает в силу поэтапно с 1 августа 2024 года. Он вводит строгие требования для систем высокого риска, включая обязательную оценку на предвзятость, и предусматривает штрафы до 7% от мирового оборота компании[18].
  • В России в 2021 году ведущие технологические компании подписали добровольный Кодекс этики в сфере ИИ, обязуясь минимизировать дискриминацию. К концу 2021 года его подписали более 100 организаций[19].

Борьба с предвзятостью — это постоянный компромисс. Слишком агрессивная фильтрация может привести к "избыточной политкорректности", когда модель отказывается обсуждать любые острые темы. Поэтому разработчики ищут баланс между безопасностью, объективностью и информативностью модели.

Литература

  • Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
  • Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
  • Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. doi:10.1145/3442188.3445922.
  • Nadeem, M. et al. (2020). StereoSet: Measuring Stereotypical Bias in Pretrained Language Models. arXiv:2004.09456.
  • Nangia, N. et al. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. ACL 2020.
  • Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
  • Hofmann, V. et al. (2024). AI Generates Covertly Racist Decisions about People Based on Their Dialect. Nature, 633, 147-154. Full text.
  • Fang, X. et al. (2024). Bias of AI-Generated Content: An Examination of News Produced by Large Language Models. Scientific Reports, 14, 5224. Full text.
  • Grigoreva, V. et al. (2024). RuBia: A Russian Language Bias Detection Dataset. arXiv:2403.17553.
  • Du, L. et al. (2024). Causal-Guided Active Learning for Debiasing Large Language Models. arXiv:2408.12942.
  • Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.

См. также

Примечания

  1. «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]
  2. «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]
  3. «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]
  4. «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]
  5. «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]
  6. «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]
  7. «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]
  8. «AI language models are rife with political biases». MIT Technology Review. [8]
  9. «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]
  10. «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]
  11. «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]
  12. «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]
  13. «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]
  14. «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]
  15. «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]
  16. «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]
  17. «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]
  18. «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]
  19. «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]