Generation bias (LLM) — التحيز في التوليد
التحيز في نماذج اللغة الكبيرة (LLM) هو تشويه منهجي للنصوص التي يتم إنشاؤها، حيث يعكس النموذج أو يعزز الصور النمطية والأحكام المسبقة الموجودة في المجتمع والمتعلقة بالجنس، والعرق، والثقافة، والآراء السياسية، وغيرها من الفئات الاجتماعية. تنشأ هذه الظاهرة لأن نماذج اللغة الكبيرة تُدرَّب على كميات هائلة من البيانات البشرية التي تحتوي حتمًا على معلومات متحيزة[1].
يُعد التحيز أحد التحديات الأخلاقية والتقنية الرئيسية في تطوير الذكاء الاصطناعي، حيث يمكن أن يؤدي إلى التمييز، ونشر المعلومات المضللة، وتقويض الثقة في التكنولوجيا.
أنواع التحيز في نماذج اللغة الكبيرة
يمكن أن يظهر التحيز في نماذج اللغة الكبيرة بأشكال مختلفة.
التحيز الجندري
تميل النماذج إلى إعادة إنتاج الصور النمطية الجندرية التقليدية، حيث تربط بين المهن والخصائص وجنس معين.
- أظهرت دراسة أجرتها اليونسكو عام 2024 أن نماذج اللغة الكبيرة تصف النساء في أدوار منزلية ("المنزل"، "الأسرة"، "الأطفال") بمعدل أربعة أضعاف مقارنة بالرجال، بينما تربط الرجال بمفاهيم مثل "الأعمال" و"الحياة المهنية"[2].
- كشفت دراسة في مجلة Nature Scientific Reports عن وجود تحيز كبير على أساس الجنس والعرق في المحتوى الذي تنتجه سبعة من نماذج اللغة الكبيرة الرائدة، بما في ذلك ChatGPT و LLaMA[3].
- في السياق الروسي، غالبًا ما تستخدم النماذج صيغة المذكر افتراضيًا للأدوار المحايدة (مثل "طبيب"، "مدير") وتجد صعوبة في إنشاء صيغ التأنيث[4].
التحيز العرقي والإثني
قد تُظهر نماذج اللغة الكبيرة تمييزًا خفيًا تجاه المجموعات العرقية المختلفة.
- أظهرت دراسة أجرتها بلومبرغ أن نموذج ChatGPT 3.5 كان يفضل السير الذاتية للمرشحين من أصل آسيوي مقارنة بالمرشحين السود[5].
- في السياق الروسي، كشفت مجموعة البيانات RuBia أن النماذج يمكن أن تعيد إنتاج الصور النمطية المعادية للسامية والمناهضة للمهاجرين (على سبيل المثال، بالموافقة على عبارة "المهاجرون كسالى") إذا كانت موجودة في مجموعة بيانات التدريب[6].
التحيز السياسي والأيديولوجي
على الرغم من الادعاءات بالحياد، تُظهر العديد من نماذج اللغة الكبيرة ميلًا نحو طيف سياسي معين.
- كشفت دراسة أجراها مركز دراسات السياسات (Centre for Policy Studies) عن وجود تحيز يساري ليبرالي لدى 23 من أصل 24 نموذجًا لغويًا كبيرًا تم اختبارها[7].
- أظهر اختبار أجرته جامعة واشنطن وجامعة كارنيجي ميلون أن نموذجي ChatGPT و GPT-4 كانا الأكثر ميلاً إلى اليسار-التحرري، بينما كان نموذج LLaMA من شركة ميتا الأكثر ميلاً إلى اليمين-السلطوي[8].
آليات ظهور التحيز
- بيانات التدريب: هي المصدر الرئيسي. تُدرَّب نماذج اللغة الكبيرة على مجموعات ضخمة من النصوص المأخوذة من الإنترنت، والتي تعد "مرآة" للمجتمع بكل ما فيه من صور نمطية[9].
- البنية المعمارية وخوارزميات التدريب: يمكن لبنية المحولات (transformers) نفسها أن تعزز الارتباطات الموجودة في البيانات.
- الضبط الدقيق و RLHF: يمكن أن تُدخل مرحلة التعلم المعزز من خلال ردود الفعل البشرية (RLHF) تحيزًا أيضًا، لأن المقيّمين البشريين يسترشدون حتمًا بوجهات نظرهم الخاصة.
طرق الكشف والتخفيف
الكشف عن التحيز
- مجموعات اختبار الصور النمطية: تُستخدم مجموعات بيانات متخصصة، مثل:
- CrowS-Pairs: تغطي تسعة أنواع من التحيز، بما في ذلك العرق، والدين، والعمر[10].
- StereoSet: تقيس التحيز النمطي في أربعة مجالات: الجنس، والمهنة، والعرق، والدين[11].
- RuBia: مجموعة بيانات متخصصة للكشف عن التحيز في النماذج الناطقة باللغة الروسية[12].
- موارد متعددة اللغات: تكييفات مثل French CrowS-Pairs[13] وChinese Bias Benchmark (CBBQ)[14].
- التحليل في مجالات محددة: دراسات حول التحيز في التوظيف[15]، والطب[16]، وغيرها من المجالات.
تخفيف التحيز
- على مستوى البيانات (Pre-processing): تنظيف، وتصفية، وإعادة توازن مجموعات بيانات التدريب. الطرق موصوفة في توثيق Holistic AI[17].
- على مستوى التدريب (In-processing): تعديل خوارزميات التدريب لمراعاة العدالة.
- على مستوى المخرجات (Post-processing): تصفية وتعديل الإجابات التي تم إنشاؤها بالفعل.
العواقب القانونية والأخلاقية
للتحيز في الذكاء الاصطناعي عواقب وخيمة، بما في ذلك التمييز في المجالات الحيوية ونشر المعلومات المضللة.
- التنظيم: بدأت الحكومات في جميع أنحاء العالم في وضع معايير للتحكم في الذكاء الاصطناعي.
- في أوروبا، تم اعتماد AI Act، الذي يدخل حيز التنفيذ على مراحل اعتبارًا من 1 أغسطس 2024. يفرض القانون متطلبات صارمة على الأنظمة عالية المخاطر، بما في ذلك التقييم الإلزامي للتحيز، وينص على غرامات تصل إلى 7% من حجم المبيعات العالمي للشركة[18].
- في روسيا، وقعت الشركات التكنولوجية الرائدة في عام 2021 على مدونة الأخلاقيات في مجال الذكاء الاصطناعي الطوعية، متعهدة بتقليل التمييز. وبحلول نهاية عام 2021، وقعت عليها أكثر من 100 منظمة[19].
تعتبر مكافحة التحيز عملية مساومة مستمرة. فالتصفية المفرطة قد تؤدي إلى "صوابية سياسية مفرطة"، حيث يرفض النموذج مناقشة أي مواضيع حساسة. لذلك، يبحث المطورون عن توازن بين الأمان والموضوعية والقيمة المعلوماتية للنموذج.
المراجع
- Guo, Y. et al. (2024). Bias in Large Language Models: Origin, Evaluation, and Mitigation. arXiv:2411.10915.
- Gallegos, I. O. et al. (2023). Bias and Fairness in Large Language Models: A Survey. arXiv:2309.00770.
- Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. doi:10.1145/3442188.3445922.
- Nadeem, M. et al. (2020). StereoSet: Measuring Stereotypical Bias in Pretrained Language Models. arXiv:2004.09456.
- Nangia, N. et al. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. ACL 2020.
- Bai, X. et al. (2024). Measuring Implicit Bias in Explicitly Unbiased Large Language Models. arXiv:2402.04105.
- Hofmann, V. et al. (2024). AI Generates Covertly Racist Decisions about People Based on Their Dialect. Nature, 633, 147-154. Full text.
- Fang, X. et al. (2024). Bias of AI-Generated Content: An Examination of News Produced by Large Language Models. Scientific Reports, 14, 5224. Full text.
- Grigoreva, V. et al. (2024). RuBia: A Russian Language Bias Detection Dataset. arXiv:2403.17553.
- Du, L. et al. (2024). Causal-Guided Active Learning for Debiasing Large Language Models. arXiv:2408.12942.
- Ayaz, A. et al. (2023). Taught by the Internet: Exploring Bias in OpenAI’s GPT-3. arXiv:2306.02428.
انظر أيضًا
- نماذج اللغة الكبيرة
الهوامش
- ↑ "Bias in Large Language Models: Origin, Evaluation, and Mitigation". arXiv. [١]
- ↑ "Generative AI: UNESCO study reveals alarming evidence of regressive gender stereotypes". UNESCO. [٢]
- ↑ "Gender and race stereotypes in Large Language Models. Nature Scientific Reports. [٣]
- ↑ "Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?". Хабр. [٤]
- ↑ "ChatGPT’s Racial Bias in Hiring Decisions". Business Insider. [٥]
- ↑ "RuBia: A Russian-language Bias Detection Dataset". The Moonlight. [٦]
- ↑ "Left-leaning bias commonplace in AI-powered chatbots, shows new report". Centre for Policy Studies. [٧]
- ↑ "AI language models are rife with political biases". MIT Technology Review. [٨]
- ↑ "Языковые модели: как преодолеть предвзятость и обеспечить безопасность". РБК Тренды. [٩]
- ↑ "CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models". ACL Anthology. [١٠]
- ↑ "StereoSet: Measuring stereotypical bias in pretrained language models". arXiv. [١١]
- ↑ "RuBia: A Russian Language Bias Detection Dataset". arXiv. [١٢]
- ↑ "French CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in French Language Models". ACL Anthology. [١٣]
- ↑ "CBBQ: A Chinese Bias Benchmark for Large Language Models". arXiv. [١٤]
- ↑ "Bias in Large Language Models and Who Should Be Held Accountable". Stanford Law School. [١٥]
- ↑ "Racial bias in psychiatric diagnosis and treatment with large language models". Nature Digital Medicine. [١٦]
- ↑ "Preprocessing Bias Mitigation". Holistic AI Documentation. [١٧]
- ↑ "EU AI Act: First Rules Take Effect on Prohibited AI Systems". Jones Day. [١٨]
- ↑ "Over 100 organizations signed up for Code of Ethics in AI by end of 2021". TASS. [١٩]