Искажения данных и bias

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Предвзятость в больших языковых моделях (англ. bias in large language models) — это систематические отклонения в работе больших языковых моделей (LLM), приводящие к генерации ответов, которые несправедливо или неточно отражают действительность, воспроизводят и усиливают существующие в обществе стереотипы[1]. В отличие от случайных ошибок, предвзятость носит закономерный характер и обусловлена особенностями обучающих данных и алгоритмов. LLM могут воспроизводить гендерные, этнические и другие стереотипы, что представляет серьёзную проблему, особенно в ответственных сферах, таких как медицина, юриспруденция и финансы[2].

Источники предвзятости

Предвзятость в LLM возникает из двух основных источников: смещённых данных и особенностей самих алгоритмов.

Смещённые обучающие данные

Основная причина появления предвзятости — это обучающие данные, которые отражают исторические, социальные и культурные перекосы, существующие в мире. LLM обучаются на огромных корпусах текстов из Интернета, книг и других источников, созданных людьми, и, как следствие, наследуют все содержащиеся в них стереотипы[3].

  • Несбалансированное представление: Если в данных недостаточно представлены определённые демографические группы (например, этнические меньшинства, женщины в определённых профессиях), модель формирует искажённое представление о них. Например, LLM часто ассоциируют слово «врач» с мужским полом, а «медсестра» — с женским, воспроизводя исторические гендерные стереотипы[1].
  • Исторические и культурные перекосы: Данные часто отражают доминирующие культурные взгляды и исторические предубеждения. Модель, обученная на таких текстах, будет воспроизводить эти взгляды, игнорируя альтернативные перспективы[4].

Алгоритмическое усиление

Архитектура и алгоритм обучения LLM могут не только воспроизводить, но и усиливать существующие в данных смещения. Большинство современных LLM основаны на трансформерах и предсказывают следующее слово на основе статистических закономерностей. Это приводит к тому, что модель склоняется к наиболее часто встречающимся паттернам, что закрепляет и усиливает доминирующие мнения и стереотипы, в то время как редкие и нетипичные случаи игнорируются[2]. Этот механизм может превратить незначительное смещение в данных в ярко выраженную предвзятость в ответах модели[1].

Типы предубеждений и примеры

Социальные и демографические предубеждения

Это наиболее изученный тип предвзятости, который включает стереотипы, связанные с полом, расой, возрастом, религией и другими социальными характеристиками.

  • Гендерные стереотипы: LLM часто связывают определённые профессии и качества с конкретным полом. Например, на запрос о «сильном лидере» модель с большей вероятностью сгенерирует описание мужчины.
  • Расовые и этнические стереотипы: Модели могут воспроизводить негативные стереотипы о различных этнических группах. Исследования показали, что алгоритмы модерации на базе LLM могут строже оценивать сообщения на афроамериканском просторечии (AAVE), ошибочно считая их более оскорбительными[5].
  • Групповая предвзятость («свои против чужих»): Исследование 2024 года показало, что LLM проявляют ярко выраженную групповую предвзятость. Получив подсказку, ассоциирующую её с определённой группой («Мы...»), модель склонна благоприятно отзываться об этой группе и пренебрежительно — о «чужих»[4].

Структурные и когнитивные искажения

Эти искажения связаны с особенностями архитектуры и обработки информации.

  • Позиционное смещение: Исследование Массачусетского технологического института (MIT) выявило, что модели непропорционально сильно учитывают информацию из начала и конца документа, часто «упуская» детали из середины. Это может влиять на точность при работе с длинными текстами[6].
  • Склонность к усреднению: Будучи вероятностными моделями, LLM стремятся генерировать наиболее частотные (усреднённые) ответы, что приводит к игнорированию редких, но важных фактов, исключений и мнений меньшинств[2].
  • Эффект подтверждения: LLM могут демонстрировать склонность воспроизводить логические шаблоны, присутствующие в обучающих данных, даже если они содержат предубеждения, и игнорировать противоречащие им сведения[2].

Пример из практики

Исследование Всемирного банка выявило, что при анализе интервью с беженцами LLM систематически искажала смысл их высказываний в зависимости от происхождения и пола. Модель неверно интерпретировала стремление родителей-беженцев к успеху своих детей, вероятно, из-за отсутствия подобных нарративов в обучающих данных, состоящих преимущественно из текстов «белых авторов среднего класса»[7][7].

Риски и последствия

  • Усиление дискриминации: В таких сферах, как найм, кредитование и юриспруденция, предвзятые LLM могут принимать дискриминационные решения, усиливая социальное неравенство[1].
  • Распространение стереотипов: Массовое использование LLM в поисковых системах и чат-ботах может привести к тиражированию и нормализации вредных стереотипов.
  • Подрыв доверия к технологиям: Если пользователи сталкиваются с систематической предвзятостью, это подрывает их доверие к технологиям искусственного интеллекта в целом.
  • Создание информационных пузырей: Алгоритмы могут формировать выдачу таким образом, чтобы она соответствовала предполагаемым взглядам пользователя, что поддерживает echo chambers и маргинализирует мнения меньшинств[1].

Методы выявления и снижения предвзятости

Для борьбы с искажениями исследователи и разработчики применяют комплексный подход, работая на трёх уровнях: данные, модель и постобработка[1].

Интервенции на уровне данных

Это наиболее фундаментальный подход. Он включает[1]:

  • Очистка и балансировка: Удаление токсичного и предвзятого контента из обучающих данных.
  • Аугментация данных (Data Augmentation): Добавление примеров с недостаточно представленными группами для выравнивания пропорций.

Модификация на уровне модели

Этот подход направлен на изменение самого алгоритма обучения[1]:

  • Ограничения справедливости: В функцию потерь вводятся специальные ограничения, которые «штрафуют» модель за проявление определённых видов предвзятости.
  • Изменение архитектуры: Исследуются варианты изменения механизмов внимания или добавления контролирующих модулей, которые отслеживают и корректируют предвзятые ассоциации.

Постобработка результатов

Этот метод применяется уже на этапе генерации ответов[1]:

  • Фильтрация и корректировка: Специальные алгоритмы анализируют сгенерированный текст и смягчают или удаляют потенциально дискриминационные формулировки.
  • Дообучение с подкреплением от человека (RLHF): Модель специально дообучается давать более нейтральные и безопасные ответы на основе оценок, предоставленных людьми.

Несмотря на значительный прогресс, полностью избавить LLM от предвзятости пока не удалось. Это остаётся одной из ключевых областей исследований, направленных на создание более справедливых и надёжных систем ИИ[4].

Ссылки

Литература

  • Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
  • Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
  • Wu, X. et al. (2025). On the Emergence of Position Bias in Transformers. arXiv:2502.01951.
  • Hu, T. et al. (2024). Generative Language Models Exhibit Social Identity Biases. Nature Computational Science, 5, 65-75. Full text.
  • Sheng, E. et al. (2019). The Woman Worked as a Babysitter: On Biases in Language Generation. In EMNLP-2019. PDF.
  • Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. In ACM FAccT 2021. DOI:10.1145/3442188.3445922.
  • Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
  • Ma, C. et al. (2024). Debiasing Large Language Models with Structured Knowledge. In Findings of ACL 2024, pp. 10274-10287. [7].
  • Mohammadi, B. (2024). Creativity Has Left the Chat: The Price of Debiasing Language Models. arXiv:2406.05587.
  • Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.
  • Benedetto, L. & Stella, M. (2023). Cognitive Network Science Reveals Bias in GPT-3, GPT-3.5-Turbo, and GPT-4 Mirroring Math Anxiety in High-School Students. Applied Sciences, 13(3). Open access.

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 Zhang, A.; et al. «Bias in Large Language Models: Origin, Evaluation, and Mitigation». arXiv. [1]
  2. 2,0 2,1 2,2 2,3 «Предвзятость в больших языковых моделях: этические вызовы и пути решения». medet.rsmu.press. [2]
  3. «Large Language Models». Энциклопедия BigdataSchool. [3]
  4. 4,0 4,1 4,2 «Generative language models exhibit social identity biases». Nature Computational Science. [4]
  5. «Study shows moderation algorithms are stricter on African American Vernacular English». [источник не указан в тексте].
  6. «Unpacking the bias of large language models». MIT News. [5]
  7. 7,0 7,1 «Прочитал статью про bias LLM». ChatGPT на vc.ru. [6]