Предвзятость в генерации
Предвзятость в больших языковых моделях (LLM) — это систематическое искажение генерируемых текстов, при котором модель отражает или усиливает существующие в обществе стереотипы и предубеждения, связанные с гендером, расой, культурой, политическими взглядами и другими социальными категориями. Это явление возникает из-за того, что LLM обучаются на огромных массивах человеческих данных, которые неизбежно содержат предвзятую информацию[1].
Предвзятость является одной из ключевых этических и технических проблем в разработке ИИ, поскольку она может приводить к дискриминации, распространению дезинформации и подрыву доверия к технологиям.
Виды предвзятости в LLM
Предвзятость в LLM может проявляться в различных формах.
Гендерная предвзятость
Модели склонны воспроизводить традиционные гендерные стереотипы, ассоциируя профессии и характеристики с определённым полом.
- Исследование ЮНЕСКО 2024 года показало, что LLM в четыре раза чаще описывают женщин в домашних ролях («дом», «семья», «дети»), чем мужчин, а мужчин связывают с понятиями «бизнес» и «карьера»[2].
- Исследование в Nature Scientific Reports выявило существенную гендерную и расовую предвзятость в контенте, генерируемом семью ведущими LLM, включая ChatGPT и LLaMA[3].
- В русскоязычном контексте модели часто по умолчанию используют мужской род для нейтральных ролей (например, «врач», «директор») и с трудом генерируют феминитивы[4].
Расовая и этническая предвзятость
LLM могут проявлять скрытую дискриминацию по отношению к различным этническим группам.
- Исследование Bloomberg показало, что ChatGPT 3.5 отдавал предпочтение резюме кандидатов азиатского происхождения по сравнению с чернокожими[5].
- В русскоязычном контексте датасет RuBia выявил, что модели могут воспроизводить антисемитские и антииммигрантские стереотипы (например, соглашаясь с утверждением «иммигранты ленивы»), если они присутствуют в обучающем корпусе[6].
Политическая и идеологическая предвзятость
Несмотря на заявления о нейтральности, многие LLM демонстрируют склонность к определённому политическому спектру.
- Исследование Centre for Policy Studies выявило лево-либеральную предвзятость у 23 из 24 протестированных LLM[7].
- Тестирование Университета Вашингтона и Карнеги-Меллон показало, что ChatGPT и GPT-4 были наиболее лево-либертарианскими, в то время как LLaMA от Meta — наиболее право-авторитарной[8].
Механизмы появления предвзятости
- Обучающие данные: Главный источник. LLM обучаются на огромных корпусах текстов из интернета, которые являются «зеркалом» общества со всеми его стереотипами[9].
- Архитектура и алгоритмы обучения: Сама архитектура трансформеров может усиливать существующие в данных корреляции.
- Тонкая настройка и RLHF: Этап обучения с подкреплением от человека (RLHF) также может вносить предвзятость, так как люди-оценщики неизбежно руководствуются собственными взглядами.
Методы обнаружения и смягчения
Обнаружение предвзятости
- Тестовые наборы стереотипов: Используются специализированные датасеты, такие как:
- CrowS-Pairs: Охватывает девять типов предвзятости, включая расу, религию и возраст[10].
- StereoSet: Измеряет стереотипическую предвзятость в четырех доменах: гендер, профессия, раса и религия[11].
- RuBia: Специализированный датасет для выявления предвзятости в русскоязычных моделях[12].
- Многоязычные ресурсы: Адаптации, такие как French CrowS-Pairs[13] и Chinese Bias Benchmark (CBBQ)[14].
- Анализ в конкретных областях: Исследования предвзятости в рекрутинге[15], медицине[16] и других сферах.
Смягчение предвзятости
- На уровне данных (Pre-processing): Очистка, фильтрация и перебалансировка обучающих корпусов. Методы описаны в документации Holistic AI[17].
- На уровне обучения (In-processing): Модификация алгоритмов обучения для учёта справедливости.
- На уровне вывода (Post-processing): Фильтрация и модерация уже сгенерированных ответов.
Юридические и этические последствия
Предвзятость в ИИ имеет серьёзные последствия, включая дискриминацию в критически важных областях и распространение дезинформации.
- Регулирование: Правительства по всему миру начинают вводить нормы для контроля над ИИ.
- В Европе принят AI Act, который вступает в силу поэтапно с 1 августа 2024 года. Он вводит строгие требования для систем высокого риска, включая обязательную оценку на предвзятость, и предусматривает штрафы до 7% от мирового оборота компании[18].
- В России в 2021 году ведущие технологические компании подписали добровольный Кодекс этики в сфере ИИ, обязуясь минимизировать дискриминацию. К концу 2021 года его подписали более 100 организаций[19].
Борьба с предвзятостью — это постоянный компромисс. Слишком агрессивная фильтрация может привести к "избыточной политкорректности", когда модель отказывается обсуждать любые острые темы. Поэтому разработчики ищут баланс между безопасностью, объективностью и информативностью модели.
Литература
- Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
- Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
- Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. doi:10.1145/3442188.3445922.
- Nadeem, M. et al. (2020). StereoSet: Measuring Stereotypical Bias in Pretrained Language Models. arXiv:2004.09456.
- Nangia, N. et al. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. ACL 2020.
- Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
- Hofmann, V. et al. (2024). AI Generates Covertly Racist Decisions about People Based on Their Dialect. Nature, 633, 147-154. Full text.
- Fang, X. et al. (2024). Bias of AI-Generated Content: An Examination of News Produced by Large Language Models. Scientific Reports, 14, 5224. Full text.
- Grigoreva, V. et al. (2024). RuBia: A Russian Language Bias Detection Dataset. arXiv:2403.17553.
- Du, L. et al. (2024). Causal-Guided Active Learning for Debiasing Large Language Models. arXiv:2408.12942.
- Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.
См. также
Примечания
- ↑ «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]
- ↑ «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]
- ↑ «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]
- ↑ «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]
- ↑ «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]
- ↑ «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]
- ↑ «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]
- ↑ «AI language models are rife with political biases». MIT Technology Review. [8]
- ↑ «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]
- ↑ «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]
- ↑ «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]
- ↑ «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]
- ↑ «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]
- ↑ «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]
- ↑ «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]
- ↑ «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]
- ↑ «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]
- ↑ «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]
- ↑ «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]