BBQ (Bias Benchmark for Question Answering) — معيار التحيز للإجابة على الأسئلة

From Systems analysis wiki
Jump to navigation Jump to search

BBQ (وهو اختصار لـ Bias Benchmark for Question Answering) هو مجموعة بيانات لتقييم التحيزات الاجتماعية (bias) في أنظمة الإجابة على الأسئلة (QA)[1]. تم تطويره من قبل فريق من الباحثين في جامعة نيويورك بقيادة أليسيا باريش (Alicia Parrish)، ونُشر في عام 2022 في مؤتمر ACL Findings[1][2]. يهدف BBQ إلى الكشف عن كيفية إظهار نماذج اللغة الكبيرة (LLM) وغيرها من نماذج الإجابة على الأسئلة للصور النمطية والانحيازات في إجاباتها على الأسئلة، خاصة في المهام التطبيقية للإجابة على الأسئلة باللغة الطبيعية[1]. أصبح BBQ أحد أشمل معايير تقييم التحيز الاجتماعي في معالجة اللغات الطبيعية (NLP)، حيث يغطي مجموعة واسعة من الصور النمطية ضمن تسع فئات اجتماعية[3].

تُكمل مجموعة البيانات هذه الأعمال السابقة، مثل مجموعة بيانات UnQover (2020)، التي كانت تقيس التحيز بناءً على عدد محدود من السمات (الجندر والمهنة، الجنسية، الأصل العرقي، الدين) واعتمدت على احتمالات النماذج بدلاً من الإجابات نفسها[3]. على عكس UnQover، يحلل BBQ بشكل مباشر محتوى إجابات النماذج واختياراتها من بين الخيارات المقترحة، مما يسمح بتقييم التحيز على مستوى النتائج المقدمة تحديداً[1].

يقدم مؤلفو BBQ هذا المعيار كأداة لتشخيص الصور النمطية الاجتماعية الضارة في النماذج وتقليل خطر التأثير السلبي لهذه الصور النمطية على الفئات السكانية الضعيفة[1]. تركز المجموعة على الصور النمطية ذات الصلة بالثقافة الناطقة باللغة الإنجليزية في الولايات المتحدة، ولا تغطي جميع السياقات الثقافية الممكنة[1]. ومع ذلك، وضع BBQ الأساس للأعمال اللاحقة في قياس وتخفيف التحيز الاجتماعي في مجال معالجة اللغات الطبيعية وأصبح مرجعًا عند مقارنة النماذج من حيث صحتها الأخلاقية.

تكوين مجموعة البيانات وبنيتها

يحتوي BBQ على حوالي 58.5 ألف سؤال وجواب، مجمعة في مجموعات خاصة تهدف إلى الكشف عن صور نمطية محددة[4]. تم إنشاء جميع الأمثلة يدويًا من قبل المؤلفين بناءً على حالات موثقة من التحيزات والصور النمطية التي تضر بممثلي مختلف الفئات الاجتماعية[4]. عند إنشاء السيناريوهات، تم استخدام بيانات من الأبحاث العلمية والمقالات الإعلامية والتقارير وغيرها من المصادر الموثوقة التي تؤكد وجود صورة نمطية معينة وعواقبها الضارة[1]. لكل حالة، يشير المؤلفون إلى مصدر يصف هذه الصورة النمطية بأنها سلبية أو ضارة (على سبيل المثال، مقال علمي أو خبر صحفي)[1].

الفئات الاجتماعية

يغطي BBQ تسع فئات اجتماعية رئيسية (معظمها يتوافق مع الفئات المحمية وفقًا لتعريف لجنة تكافؤ فرص العمل في الولايات المتحدة)[1]:

  • العمر – التحيزات تجاه الفئات العمرية (على سبيل المثال، الصورة النمطية حول انخفاض القدرات المعرفية لدى كبار السن)[1].
  • الإعاقة – الصور النمطية حول القدرات العقلية أو صفات أخرى للأشخاص ذوي الإعاقة (على سبيل المثال، الاعتقاد بأن الأشخاص ذوي الإعاقات الجسدية أقل كفاءة فكريًا)[1].
  • الهوية الجندرية – الصور النمطية الجندرية (على سبيل المثال، فكرة أن "الفتيات لا يجدن الرياضيات")[1].
  • الجنسية – التحيزات القومية والعرقية (على سبيل المثال، الصورة النمطية حول الأمية التقنية للمهاجرين من إفريقيا)[1].
  • المظهر الخارجي – التمييز على أساس المظهر الخارجي أو بنية الجسم (على سبيل المثال، الرأي القائل بأن الأشخاص الذين يعانون من السمنة أقل ذكاءً أو اجتهادًا)[1].
  • العرق/الإثنية – الصور النمطية العنصرية (على سبيل المثال، الربط المتحيز بين عرق معين والجريمة أو إدمان المخدرات)[1].
  • الدين – الصور النمطية الدينية (على سبيل المثال، تصوير اليهود على أنهم جشعون، والمسلمين على أنهم يميلون إلى العنف، وما إلى ذلك)[1].
  • الوضع الاجتماعي والاقتصادي – التحيزات تجاه الطبقات الفقيرة أو الغنية في المجتمع (على سبيل المثال، الاعتقاد بأن الأشخاص من الأسر الفقيرة سيكونون آباء سيئين)[1].
  • التوجه الجنسي – الصور النمطية المعادية للمثليين (على سبيل المثال، الربط الخاطئ بين المثلية الجنسية وعدوى فيروس نقص المناعة البشرية)[1].

بالإضافة إلى هذه الفئات التسع، يقدم BBQ فئتين تقاطعيين (intersectional biases)، تجمعان بين سمتين في آن واحد: (1) الجندر مع العرق/الإثنية و (2) الوضع الاجتماعي والاقتصادي مع العرق[1]. تأخذ هذه الحالات في الاعتبار الصور النمطية عند تقاطع مجموعات مختلفة (على سبيل المثال، التحيزات المحددة ضد النساء السود أو ضد مجموعات عرقية معينة من الطبقة الاجتماعية الدنيا).

القوالب وتوليد الأمثلة

لكل فئة، كتب الفريق قوالب سيناريوهات — وهي عبارة عن مشاهد قصيرة تضم شخصيتين تختلفان في السمة المستهدفة (على سبيل المثال، شاب ومسن، رجل وامرأة، غني وفقير، إلخ)[4]. يحتوي القالب على موقف يمكن أن يؤكد أو يدحض صورة نمطية معروفة. ويرتبط بكل سيناريو أسئلة وخيارات للإجابة.

تم تطوير 25 قالبًا فريدًا لكل من الفئات التسع الرئيسية، بالإضافة إلى 25 قالبًا إضافيًا لفئتي العرق والجندر باستخدام أسماء حقيقية (للتحقق من التحيز على مستوى أسماء العلم)[1]. كما تم إنشاء 25 قالبًا لكل من الفئتين التقاطعيين[1]. وبالتالي، يتجاوز العدد الإجمالي للسيناريوهات الأساسية 300.

يحتوي كل قالب على خانات مخصصة للمتغيرات — أسماء المجموعات أو الأوصاف — التي يتم إدراجها في النص (على سبيل المثال، في قالب العمر، يتم إدخال أرقام مختلفة بدلاً من "شخص عمره _ عامًا"، أو في المظهر الخارجي، يتم استخدام صفات مثل "سمين"/"نحيف" وما إلى ذلك)[1]. من خلال استبدال قيم مختلفة وتغيير ترتيب ذكر الشخصيتين، يتم توسيع كل قالب إلى مجموعة من الأمثلة المحددة (8 على الأقل وتصل إلى حوالي 200 تنوع)[1]. كقاعدة عامة، يتم إنشاء ما لا يقل عن 100 سؤال نهائي من قالب واحد، وفي بعض الحالات يصل العدد إلى مئتي سؤال[1]. بالمجمل، نتج عن ذلك مجموعة بيانات تتكون من 58,492 مثالًا (تركيبات فريدة من السيناريو والسؤال والجواب)[4].

السياقات وأنواع الأسئلة

الميزة الرئيسية لـ BBQ هي أن كل موقف يتم تقديمه في نوعين من السياق وصيغتين للسؤال، مما يشكل مجموعة من أربعة أسئلة (تسمى مجموعة رباعية)[1]. تم ذلك لفصل تأثير نقص المعلومات عن الصور النمطية الفعلية للنموذج. في كل مجموعة رباعية[1]:

  • السياق الغامض (under-informative or ambiguous context): نص يصف موقفًا يشارك فيه شخصان من مجموعات مختلفة، ولكنه لا يحتوي على معلومات كافية للإجابة على السؤال بشكل قاطع[1]. الإجابة الصحيحة في مثل هذه الحالات هي دائمًا خيار "غير معروف" (أي عدم وجود بيانات كافية)[1]. هذه الأمثلة ضرورية للتحقق مما إذا كان النموذج سيستنتج بناءً على صورة نمطية.
  • السياق الواضح (disambiguated context): سيناريو موسع تُضاف فيه تفصيلة توضيحية تسمح بتحديد أي من الشخصين المذكورين يتوافق مع السؤال[1]. في هذه الحالة، يكون أحد الشخصين هو الإجابة الصحيحة بشكل مؤكد (ويكون خيار "غير معروف" خاطئًا). يعمل السياق الواضح على اختبار قدرة النموذج على التغلب على تحيزه المحتمل واختيار الإجابة الصحيحة، حتى لو كانت الصورة النمطية تشير إلى العكس[1].
  • السؤال السلبي (على سبيل المثال، "أيهما لا يعرف الموضوع جيدًا؟"، "من ارتكب الجريمة؟")[1]. هذا النوع من الأسئلة، مع سياق غامض، يختبر ما إذا كان النموذج يميل إلى ربط الفعل السلبي بمجموعة معينة في غياب الحقائق[1].
  • السؤال غير السلبي (المتناقض) (على سبيل المثال، "أيهما يعرف الموضوع جيدًا؟" أو "من امتنع عن ارتكاب الفعل السيء؟")[1]. تم تصميم السؤال غير السلبي بحيث لا يبدو وكأنه تأييد مباشر للصورة النمطية، ولكنه يسمح في نفس الوقت بالتحقق من توازن إجابات النموذج[1]. مقارنة الإجابات على النسخ السلبية والمحايدة تكشف عن الانحرافات المنهجية.

كل من هذه الأمثلة الأربعة في المجموعة له ثلاثة خيارات للإجابة: خياران محددان (يسميان كلتا المجموعتين المشاركتين) وخيار واحد يشير إلى عدم وجود معلومات كافية (يُشار إليه بـ "Unknown" والعبارات المكافئة)[1]. على سبيل المثال، في مشهد يشارك فيه مسيحي ومسلم افتراضيان، ستكون خيارات الإجابة: "المسيحي"، "المسلم"، أو "غير معروف"[1]. وتجدر الإشارة إلى أن كلمة "غير معروف" ليست دائمًا هي نفسها — يتم استخدام 10 تعبيرات مترادفة[1].

علاوة على ذلك، يتم تغيير ترتيب ذكر المجموعتين تلقائيًا في كل قالب[1]. تم ذلك لتحييد تأثير الترتيب — وهو عامل معروف قد يجعل النماذج تختار الكيان المذكور أولاً بشكل متكرر بغض النظر عن المحتوى[1].

التعليق والتحقق من الجودة

تم تقييم كل مثال في BBQ من قبل مُعلقين عبر التعهيد الجماعي: أجاب ما لا يقل عن 5 أشخاص مستقلين على الأسئلة، وتم تضمين الأمثلة التي اتفق فيها 4 من أصل 5 مُعلقين على الأقل على الإجابة الصحيحة (عبر التصويت) في مجموعة البيانات النهائية[1]. إذا لم يجتز أي سؤال هذا الحد، تتم مراجعة القالب بأكمله وتعديله[1]. بفضل هذه العملية، تعد الدقة البشرية في BBQ عالية جدًا: أجاب المعلقون الأفراد بشكل صحيح على حوالي 95.7% من الأسئلة، ومع أخذ تصويت الأغلبية في الاعتبار، تصل دقة المعيار الذهبي إلى 99.7%[1]. بلغ معامل كابا للاتفاق (Krippendorff's alpha) 0.883، مما يشير إلى اتساق عالٍ بين البشر فيما يتعلق بالإجابات الصحيحة[1]. تؤكد هذه المقاييس أن مهام BBQ مفهومة للبشر ولها إجابات صحيحة موضوعيًا؛ وبالتالي، يمكن تفسير أخطاء النماذج في هذه الأمثلة بشكل معقول على أنها مظاهر للتحيز، وليس غموضًا في الأسئلة نفسها.

تقييم تحيز النماذج

تم تصميم BBQ لتقييم سلوك النماذج متعدد الجوانب في الظروف التي تثير التحيز الاجتماعي. عند الاختبار، يتلقى نموذج الإجابة على الأسئلة سياقًا وسؤالًا، ثم يجب عليه اختيار واحد من ثلاثة خيارات للإجابة. يتم تحليل النتائج على مستويين[1]:

حالة السياق الغامض

يتم قياس مدى تكرار إجابة النموذج بشكل غير صحيح على الأسئلة في غياب المعلومات الضرورية، أي أنه يعتمد على الصورة النمطية[1]. من الناحية المثالية، يجب على النموذج أن يجيب بـ "غير معروف" على أي سؤال بسياق غير كافٍ، ولكن إذا اختار إحدى المجموعات، فيعتبر ذلك انعكاسًا لصورة نمطية متأصلة[1]. يعطي تكرار هذه الأخطاء وتوزيعها عبر الفئات فكرة عن ميل النموذج إلى إعادة إنتاج الصور النمطية الضارة.

حالة السياق المعلوماتي

يتم تقييم مدى دقة إجابة النموذج عندما يحتوي السياق على إجابة صحيحة واضحة[1]. هنا، يتم عادةً حساب المقياس القياسي للدقة (accuracy) (نسبة الإجابات الصحيحة) – الذي يوضح ما إذا كان النموذج يتعامل مع مهمة السؤال والجواب بشكل عام. ومع ذلك، يتم إيلاء اهتمام خاص للحالات التي تتعارض فيها الإجابة الصحيحة مع الصورة النمطية[1]. يحلل مطورو BBQ ما إذا كانت دقة النموذج ستنخفض إذا كانت الإجابة الصحيحة تتعارض مع صورة نمطية راسخة (والعكس، ما إذا كانت الدقة ستكون أعلى عندما تتطابق الحقيقة مع التوقع النمطي)[1]. مثل هذا التأثير قد يشير إلى أنه حتى مع وجود الحقائق، يمكن للنموذج أن يرتكب أخطاء بسبب التحيز.

Bias Score - درجة التحيز

لتقييم درجة التحيز كميًا، يتم تقديم مقياس خاص — مؤشر التحيز (bias score)[1]. بشكل عام، يعكس مؤشر التحيز نسبة إجابات النموذج (من بين الإجابات غير الصحيحة أو جميعها، اعتمادًا على الشرط) التي تتطابق مع الصورة النمطية[1].

  • قيمة +100% تعني أن النموذج في جميع الحالات اختار خيار الإجابة الذي ينسب بشكل نمطي صفة سلبية إلى المجموعة المستهدفة.
  • 0% — لا توجد أي مظاهر للتحيز (إما أن يجيب النموذج دائمًا بشكل صحيح/"غير معروف"، أو يخطئ بالتساوي في كلا الاتجاهين).
  • درجة سلبية (تصل إلى -100%) — اتجاه معاكس، حيث يجيب النموذج دائمًا ضد توقعات الصورة النمطية[1].

يتم حساب المؤشرات بشكل منفصل للسياقات الغامضة والواضحة، لأن طبيعة الأخطاء فيهما مختلفة[1].

  • بالنسبة للأسئلة الغامضة، يتم تحديد درجة التحيز بنسبة الحالات التي اختار فيها النموذج إجابة محددة بدلاً من "غير معروف"، وتطابقت هذه الإجابة مع صورة نمطية سلبية[1]. كلما زادت هذه الإجابات، ارتفعت الدرجة الإيجابية. في الوقت نفسه، يتم أخذ الدقة في الاعتبار: إذا كان النموذج يخطئ ويصيب ("غير معروف") بالتساوي، فحتى مع وجود أخطاء نمطية جزئية، ستكون الدرجة أقل من نموذج يختار دائمًا الإجابة النمطية[1]. وهكذا، تتم معاقبة كل من تكرار وثقة الإجابات المتحيزة (بالنسبة للسياقات الغامضة، يتم قياس المقياس مع مراعاة نسبة الإجابات الصحيحة "غير معروف")[1].
  • بالنسبة للأسئلة الواضحة، يتم حساب درجة التحيز بشكل مختلف إلى حد ما، لأن الإجابة الصحيحة هنا هي إحدى المجموعات[1]. في هذه الحالات، يتم النظر في الإجابات غير الصحيحة للنموذج: نسبة الأخطاء التي اختار فيها النموذج خيارًا بديلاً يتطابق مع الصورة النمطية بدلاً من الخيار الصحيح[1]. بعبارة أخرى، إذا أخطأ النموذج مفضلاً التحيز (على سبيل المثال، لم يصدق الحقائق وأجاب بناءً على الصورة النمطية)، فإن هذا يزيد من الدرجة[1].

يسمح تحليل درجة التحيز إلى جانب الدقة الإجمالية بوصف سلوك النموذج على BBQ بالتفصيل. يشير المؤلفون إلى أن نفس مستويات الدقة يمكن أن تخفي طبيعة مختلفة من الأخطاء[1]. وبالتالي، يوضح هذا المؤشر اتجاه الأخطاء ويكشف عن الحالات الدقيقة التي لا يمكن رؤيتها من خلال الدقة وحدها.

النتائج والأنماط المكتشفة

أظهر الاختبار الأولي لعدة نماذج شائعة للإجابة على الأسئلة على مجموعة BBQ عددًا من المظاهر الواضحة للتحيز[1]. في دراسة Parrish وآخرون (2022)، تم اختبار كل من النماذج الكبيرة متعددة الأغراض (مثل UnifiedQA – وهو نموذج معمّم للإجابة على الأسئلة يعتمد على T5) والنماذج القياسية للاختيار من متعدد (مثل ROBERTA مع الضبط الدقيق على مهام الإجابة على الأسئلة)[1].

الاستنتاجات الرئيسية من نتائج التجارب:

  • أخطاء نمطية قوية عند نقص المعلومات. في جميع الأنظمة التي تم اختبارها، لوحظ ميل للإجابة بما يتماشى مع الصور النمطية عندما لا يوفر السياق الأدلة اللازمة[1]. بعبارة أخرى، غالبًا ما لم تختر النماذج خيار "غير معروف"، بل فضلت إجابة محددة تتوافق مع توقع نمطي معين[1]. على سبيل المثال، في الأسئلة الغامضة حول جريمة بدون مذنب واضح، غالبًا ما أشارت النماذج إلى أفراد من مجموعة معينة (تتوافق مع التحيز)[1]. كانت درجة التحيز المحسوبة للسياقات الغامضة أعلى بكثير من الصفر، وفي بعض الأحيان اقتربت من +100% في فئات معينة لبعض النماذج[1]. أظهرت النماذج ميلًا عاليًا بشكل خاص للإجابات النمطية في المشاهد المتعلقة بالمظهر الخارجي (السمنة وغيرها) — حيث أعطت هذه الفئة تحيزًا أكبر بكثير من، على سبيل المثال، العرق أو التوجه الجنسي[1]. وهذا يشير إلى عدم تجانس التحيز داخل النموذج — فبعض أنواع الصور النمطية "يستوعبها" النموذج بقوة أكبر من غيرها.
  • تحسن عند وجود الحقائق، ولكن مع الحفاظ على تحيز خفي. عندما تلقت النماذج سياقًا واضحًا مع إشارة صريحة إلى الإجابة الصحيحة، زادت دقتها بشكل ملحوظ (مقارنة بحالة عدم اليقين)[1]. ومع ذلك، كشف التحليل التفصيلي عن تأثير دقيق: كانت الدقة غير متساوية اعتمادًا على علاقة الإجابة الصحيحة بالصورة النمطية[1]. في المتوسط، حققت النماذج دقة أعلى بمقدار 3-3.5 نقطة مئوية في الأمثلة التي تطابقت فيها الإجابة الصحيحة مع صورة نمطية شائعة، مقارنة بالأمثلة التي تعارضت فيها الإجابة الصحيحة مع تلك الصورة النمطية[1]. بعبارة أخرى، عندما أكدت الحقائق التحيز، قدمت النماذج إجابات شبه خالية من الأخطاء؛ ولكن عندما كان مطلوبًا تحديد خيار "غير نمطي"، زادت احتمالية الخطأ. على الرغم من أن هذه الفجوة في الأداء ليست ضخمة، إلا أنها ظهرت إحصائيًا في العديد من الفئات[1]. تم تسجيل أكبر تباين في الأسئلة المتعلقة بالصور النمطية الجندرية: فرق يصل إلى 5 نقاط مئوية[1]. وهكذا، يمكن تتبع التأثير الخفي للتحيز: تعمل النماذج في المتوسط بشكل أسوأ قليلاً "ضد الصورة النمطية".
  • مقارنة الفئات والقوالب. حلل باحثو BBQ درجة التحيز مقسمة حسب الفئات التسع جميعها ووجدوا أنه في السياقات الغامضة، كان المؤشر إيجابيًا في جميع الفئات، لكن حجمه يختلف[1]. كما ذكرنا، لوحظت أعلى درجات التحيز في فئات المظهر الجسدي، والوضع الاجتماعي والاقتصادي، وبعض الفئات المتقاطعة[1]. كانت درجات التحيز "الأقل"، وإن كانت لا تزال غير صفرية، في فئات العرق/الإثنية والتوجه الجنسي[1]. في السياقات الواضحة، كانت درجة التحيز أقرب عمومًا إلى الصفر (لأن النموذج غالبًا ما يجيب بشكل صحيح)، ولكنها ظلت إيجابية لبعض القوالب، مما يعكس انحرافًا ملحوظًا في طبيعة الأخطاء المرتكبة[1]. على سبيل المثال، في فئة الدين، كانت معظم الأخطاء في اتجاه واحد — حيث كانت النماذج، عند الخطأ، تميل إلى اختيار الإجابة بناءً على التحيز[1].

بشكل عام، أظهر BBQ أنه حتى النماذج اللغوية الحديثة القوية ليست خالية بشكل واضح من التحيزات الاجتماعية[1]. فهي تميل إلى إعادة إنتاج الصور النمطية إذا وُضعت في ظروف من عدم اليقين، ويمكن أن تظهر تحيزات دقيقة حتى في وجود حقائق تتطلب إجابة معاكسة[1]. وفي الوقت نفسه، فإن حجم هذه التأثيرات ليس متساويًا بين المجموعات المختلفة: فبعض الصور النمطية "يستوعبها" النموذج بقوة أكبر[1]. يؤكد مؤلفو BBQ أن الاختلافات المكتشفة، على الرغم من أنها ملحوظة، ليست كبيرة بشكل كارثي – فدرجات التحيز لمعظم النماذج لا تصل إلى قيم متطرفة، وغالبًا ما تكون في حدود بضع عشرات من النسب المئوية[1]. ومع ذلك، حتى الانحرافات المنهجية الصغيرة نحو الصور النمطية يمكن أن تكون خطيرة عند استخدام نماذج اللغة الكبيرة على نطاق واسع، لذا فإن تحديد هذه التحيزات وإزالتها يمثل مهمة هامة[3]. لقد وفر BBQ للباحثين طريقة واضحة وقابلة للقياس الكمي لتتبع التقدم في هذا المجال[3].

التأثير والأبحاث المستقبلية

سرعان ما اكتسبت مجموعة بيانات BBQ اعترافًا كأداة قياسية لتقييم خصائص الإنصاف في النماذج اللغوية[4]. إن شفرتها المصدرية وبياناتها المفتوحة متاحة في المستودع (بموجب ترخيص CC BY 4.0)[4]، مما سمح لجمهور واسع من الباحثين بتطبيق BBQ عند تطوير واختبار نماذج جديدة. في عدد من المراجعات، يُذكر BBQ إلى جانب معايير أخرى (مثل StereoSet، وWinoBias، وToxiGen) كعلامة فارقة مهمة في دراسة التحيز الاجتماعي في معالجة اللغات الطبيعية[3]. منذ نشر BBQ، ظهرت أعمال تطور أفكاره وتكيفه مع ظروف جديدة:

  • توسيع صيغ الأسئلة (Open-BBQ). يقدم BBQ الأصلي مهامًا بصيغة الاختيار من متعدد[3]. في عام 2024، تم اقتراح تعديل لـ BBQ لـالإجابات المفتوحة، بما في ذلك مهام ملء الفراغات والنصوص القصيرة للإجابة[3]. تتيح هذه النسخة، التي يطلق عليها اسم Open-BBQ، تقييم التحيز في ظروف حوار أكثر حرية، حيث لا يكون لدى النموذج خيارات إجابة ثابتة[3]. أظهرت الدراسة أن نماذج اللغة الكبيرة، عند توليد نصوص حرة، تظهر أيضًا تحيزًا متزايدًا ضد عدد من المجموعات[3]. كما جرب مؤلفو Open-BBQ طرقًا لتخفيف التحيز، من خلال الجمع بين الموجهات الفورية (zero-shot) والموجهات قليلة الأمثلة (few-shot) وسلسلة الفكر (chain-of-thought)[3]. وقد سمحت هذه الطرق بتقليل مستوى التحيز في الإجابات بشكل ملحوظ[3]. أكمل Open-BBQ المجموعة الأصلية، مما جعل من الممكن اختبار النماذج التوليدية بصيغ أقرب إلى استفسارات المستخدمين.
  • التكيف الثقافي (التوطين). نظرًا لأن BBQ مرتبط بالواقع الاجتماعي للولايات المتحدة، اهتم الباحثون بتكييفه مع لغات وثقافات أخرى[5]. في عام 2023، قدم علماء كوريون مجموعة بيانات KoBBQ (Korean BBQ) — وهي نظير كوري لمعيار التحيز[5]. لقد طوروا نهجًا عامًا لتوطين BBQ: قسموا القوالب الأصلية إلى ثلاث فئات – تلك التي يمكن ترجمتها ببساطة، وتلك التي تتطلب استبدال المجموعات بمكافئات محلية، وتلك التي لا تنطبق على الإطلاق في السياق الكوري[5]. بالإضافة إلى ذلك، قدم KoBBQ أربع فئات جديدة من الصور النمطية الخاصة بالمجتمع الكوري، وأزال عددًا من الأمثلة غير الملائمة[5]. ونتيجة لذلك، تم الحصول على مجموعة من 268 قالبًا و76,048 مثالًا باللغة الكورية، تغطي 12 فئة من التحيز الاجتماعي (بما في ذلك الفئات الأصلية والجديدة)[5]. كشف اختبار النماذج متعددة اللغات على KoBBQ عن اختلافات كبيرة في مستوى التحيز مقارنة بالترجمة الآلية المباشرة لـ BBQ الأصلي إلى اللغة الكورية[5]. وهذا يؤكد أن الترجمة المباشرة ليست كافية – فهناك حاجة إلى معايير خاصة بالثقافة تأخذ في الاعتبار الصور النمطية الفريدة وسياق كل بلد[5]. وقد أظهر العمل على KoBBQ إمكانية توسيع منهجية BBQ على نطاق عالمي.

أصبح BBQ جزءًا لا يتجزأ من الأبحاث المتعلقة بأخلاقيات الذكاء الاصطناعي[3]. يمكن تتبع تأثيره في ظهور تقنيات جديدة لإزالة التحيز من النماذج، وبناء مجموعات بيانات ومقاييس أكثر شمولاً لتحليل التحيز بدقة. يلاحظ الباحثون أن إحدى نقاط قوة BBQ هي اتساع نطاق تغطيته ودقة تصميم أمثلته[3]. استجابة للتحديات التي أبرزها BBQ، يتم في الآونة الأخيرة تطوير استراتيجيات لتقليل التحيز بشكل نشط، بدءًا من تصفية بيانات التدريب إلى خوارزميات خاصة للمعالجة اللاحقة وضبط نماذج اللغة الكبيرة لتقديم إجابات عادلة[3].

خلاصة القول، أثبت BBQ (Bias Benchmark for QA) نفسه كأداة قيمة وموثوقة لقياس التحيزات الاجتماعية في النماذج اللغوية. إنه يوفر للمجتمع البحثي مجموعة قياسية من الاختبارات التي تسمح بمقارنة النماذج من حيث ميلها للنمطية وتتبع التقدم في تحسين نزاهتها[3]. يستمر BBQ في التوسع والتكيف، مما يعكس الاهتمام العالمي بإنشاء أنظمة ذكاء اصطناعي أكثر عدلاً وأمانًا[3]، خالية من التحيزات الضارة غير الملحوظة ولكنها جوهرية.

روابط

قراءات إضافية

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

هوامش

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. «BBQ: A Hand-Built Bias Benchmark for Question Answering». arXiv. [١]
  2. Parrish A. et al. «BBQ: A hand-built bias benchmark for question answering». ACL Anthology. [٢]
  3. 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). «Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings». arXiv preprint. [٣]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 «BBQ Dataset». Papers With Code. [٤]
  5. 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). «KoBBQ: Korean Bias Benchmark for Question Answering». arXiv preprint. [٥]