Предвзятость в генерации

Предвзятость в больших языковых моделях (LLM) — это систематическое искажение генерируемых текстов, при котором модель отражает или усиливает существующие в обществе стереотипы и предубеждения, связанные с гендером, расой, культурой, политическими взглядами и другими социальными категориями. Это явление возникает из-за того, что LLM обучаются на огромных массивах человеческих данных, которые неизбежно содержат предвзятую информацию^[1].

Предвзятость является одной из ключевых этических и технических проблем в разработке ИИ, поскольку она может приводить к дискриминации, распространению дезинформации и подрыву доверия к технологиям.

Виды предвзятости в LLM

Предвзятость в LLM может проявляться в различных формах.

Гендерная предвзятость

Модели склонны воспроизводить традиционные гендерные стереотипы, ассоциируя профессии и характеристики с определённым полом.

Исследование ЮНЕСКО 2024 года показало, что LLM в четыре раза чаще описывают женщин в домашних ролях («дом», «семья», «дети»), чем мужчин, а мужчин связывают с понятиями «бизнес» и «карьера»^[2].
Исследование в Nature Scientific Reports выявило существенную гендерную и расовую предвзятость в контенте, генерируемом семью ведущими LLM, включая ChatGPT и LLaMA^[3].
В русскоязычном контексте модели часто по умолчанию используют мужской род для нейтральных ролей (например, «врач», «директор») и с трудом генерируют феминитивы^[4].

Расовая и этническая предвзятость

LLM могут проявлять скрытую дискриминацию по отношению к различным этническим группам.

Исследование Bloomberg показало, что ChatGPT 3.5 отдавал предпочтение резюме кандидатов азиатского происхождения по сравнению с чернокожими^[5].
В русскоязычном контексте датасет RuBia выявил, что модели могут воспроизводить антисемитские и антииммигрантские стереотипы (например, соглашаясь с утверждением «иммигранты ленивы»), если они присутствуют в обучающем корпусе^[6].

Политическая и идеологическая предвзятость

Несмотря на заявления о нейтральности, многие LLM демонстрируют склонность к определённому политическому спектру.

Исследование Centre for Policy Studies выявило лево-либеральную предвзятость у 23 из 24 протестированных LLM^[7].
Тестирование Университета Вашингтона и Карнеги-Меллон показало, что ChatGPT и GPT-4 были наиболее лево-либертарианскими, в то время как LLaMA от Meta — наиболее право-авторитарной^[8].

Механизмы появления предвзятости

Обучающие данные: Главный источник. LLM обучаются на огромных корпусах текстов из интернета, которые являются «зеркалом» общества со всеми его стереотипами^[9].
Архитектура и алгоритмы обучения: Сама архитектура трансформеров может усиливать существующие в данных корреляции.
Тонкая настройка и RLHF: Этап обучения с подкреплением от человека (RLHF) также может вносить предвзятость, так как люди-оценщики неизбежно руководствуются собственными взглядами.

Методы обнаружения и смягчения

Обнаружение предвзятости

Тестовые наборы стереотипов: Используются специализированные датасеты, такие как:
- CrowS-Pairs: Охватывает девять типов предвзятости, включая расу, религию и возраст^[10].
- StereoSet: Измеряет стереотипическую предвзятость в четырех доменах: гендер, профессия, раса и религия^[11].
- RuBia: Специализированный датасет для выявления предвзятости в русскоязычных моделях^[12].
- Многоязычные ресурсы: Адаптации, такие как French CrowS-Pairs^[13] и Chinese Bias Benchmark (CBBQ)^[14].
- Анализ в конкретных областях: Исследования предвзятости в рекрутинге^[15], медицине^[16] и других сферах.

Смягчение предвзятости

На уровне данных (Pre-processing): Очистка, фильтрация и перебалансировка обучающих корпусов. Методы описаны в документации Holistic AI^[17].
На уровне обучения (In-processing): Модификация алгоритмов обучения для учёта справедливости.
На уровне вывода (Post-processing): Фильтрация и модерация уже сгенерированных ответов.

Юридические и этические последствия

Предвзятость в ИИ имеет серьёзные последствия, включая дискриминацию в критически важных областях и распространение дезинформации.

Регулирование: Правительства по всему миру начинают вводить нормы для контроля над ИИ.
В Европе принят AI Act, который вступает в силу поэтапно с 1 августа 2024 года. Он вводит строгие требования для систем высокого риска, включая обязательную оценку на предвзятость, и предусматривает штрафы до 7% от мирового оборота компании^[18].
В России в 2021 году ведущие технологические компании подписали добровольный Кодекс этики в сфере ИИ, обязуясь минимизировать дискриминацию. К концу 2021 года его подписали более 100 организаций^[19].

Борьба с предвзятостью — это постоянный компромисс. Слишком агрессивная фильтрация может привести к "избыточной политкорректности", когда модель отказывается обсуждать любые острые темы. Поэтому разработчики ищут баланс между безопасностью, объективностью и информативностью модели.

Литература

Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. doi:10.1145/3442188.3445922.
Nadeem, M. et al. (2020). StereoSet: Measuring Stereotypical Bias in Pretrained Language Models. arXiv:2004.09456.
Nangia, N. et al. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. ACL 2020.
Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
Hofmann, V. et al. (2024). AI Generates Covertly Racist Decisions about People Based on Their Dialect. Nature, 633, 147-154. Full text.
Fang, X. et al. (2024). Bias of AI-Generated Content: An Examination of News Produced by Large Language Models. Scientific Reports, 14, 5224. Full text.
Grigoreva, V. et al. (2024). RuBia: A Russian Language Bias Detection Dataset. arXiv:2403.17553.
Du, L. et al. (2024). Causal-Guided Active Learning for Debiasing Large Language Models. arXiv:2408.12942.
Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.

См. также

Большие языковые модели

Примечания

↑ «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]
↑ «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]
↑ «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]
↑ «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]
↑ «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]
↑ «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]
↑ «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]
↑ «AI language models are rife with political biases». MIT Technology Review. [8]
↑ «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]
↑ «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]
↑ «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]
↑ «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]
↑ «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]
↑ «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]
↑ «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]
↑ «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]
↑ «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]
↑ «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]
↑ «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]

[arxiv-bias-origin-1] «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]

[unesco-gender-bias-2] «Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes». UNESCO. [2]

[nature-gender-race-bias-3] «Gender and race stereotypes in Large Language Models». Nature Scientific Reports. [3]

[habr-bias-experiment-4] «Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?». Хабр. [4]

[bloomberg-hiring-bias-5] «ChatGPT’s Racial Bias in Hiring Decisions». Business Insider. [5]

[rubia-dataset-themoonlight-6] «RuBia: A Russian-language Bias Detection Dataset». The Moonlight. [6]

[cps-left-leaning-bias-7] «Left-leaning bias commonplace in AI-powered chatbots, shows new report». Centre for Policy Studies. [7]

[mit-review-political-bias-8] «AI language models are rife with political biases». MIT Technology Review. [8]

[rbc-bias-safety-9] «Языковые модели: как преодолеть предвзятость и обеспечить безопасность». РБК Тренды. [9]

[crows-pairs-acl-10] «CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models». ACL Anthology. [10]

[stereoset-arxiv-11] «StereoSet: Measuring stereotypical bias in pretrained language models». arXiv. [11]

[rubia-dataset-arxiv-12] «RuBia: A Russian Language Bias Detection Dataset». arXiv. [12]

[13] «French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models». ACL Anthology. [13]

[14] «CBBQ: A Chinese Bias Benchmark for Large Language Models». arXiv. [14]

[stanford-law-bias-15] «Bias in Large Language Models and Who Should Be Held Accountable». Stanford Law School. [15]

[nature-digital-medicine-bias-16] «Racial bias in psychiatric diagnosis and treatment with large language models». Nature Digital Medicine. [16]

[holistic-ai-docs-17] «Preprocessing Bias Mitigation». Holistic AI Documentation. [17]

[jonesday-ai-act-18] «EU AI Act: First Rules Take Effect on Prohibited AI Systems». Jones Day. [18]

[tass-ethics-code-19] «Over 100 organizations signed up for Code of Ethics in AI by end of 2021». TASS. [19]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Предвзятость в генерации

Содержание

Виды предвзятости в LLM

Гендерная предвзятость

Расовая и этническая предвзятость

Политическая и идеологическая предвзятость

Механизмы появления предвзятости

Методы обнаружения и смягчения

Обнаружение предвзятости

Смягчение предвзятости

Юридические и этические последствия

Литература

См. также

Примечания

Навигация

Предвзятость в генерации

Виды предвзятости в LLM

Гендерная предвзятость

Расовая и этническая предвзятость

Политическая и идеологическая предвзятость

Механизмы появления предвзятости

Методы обнаружения и смягчения

Обнаружение предвзятости

Смягчение предвзятости

Юридические и этические последствия

Литература

См. также

Примечания

Навигация

Поиск