SafetyBench — مقياس السلامة

From Systems analysis wiki
Jump to navigation Jump to search

SafetyBench — هو أول مقياس شامل لتقييم سلامة نماذج اللغة الكبيرة بشكل متكامل[1]. تم تطويره بواسطة مجموعة من الباحثين من جامعة تسينغهوا وقُدّم في عام 2023[1].

مع تطور نماذج اللغة الكبيرة (LLMs) (على سبيل المثال، ظهور ChatGPT) واعتمادها على نطاق واسع، ازداد الاهتمام بقضايا السلامة في هذه الأنظمة[1]. أظهرت الأبحاث أن النماذج الحوارية يمكن أن تسرب معلومات المستخدمين الخاصة أو تولد عبارات سامة[1]. وبالتالي، أصبح تقييم سلامة نماذج اللغة الكبيرة مهمة حيوية لتطبيقها الموثوق في الممارسة العملية. ومع ذلك، حتى وقت قريب، كانت هناك ندرة في المقاييس الشاملة (مجموعات الاختبار) التي تغطي جميع الجوانب الرئيسية لسلامة النماذج؛ حيث كانت مجموعات البيانات المتاحة تختبر جوانب فردية فقط (مثل السمية أو التحيزات الاجتماعية) ولم تقدم صورة كاملة[1]. وقد أعاق غياب طريقة تقييم شاملة كلاً من تحديد نقاط الضعف وتطوير نماذج لغوية أكثر أمانًا[1]. تم إنشاء SafetyBench لسد هذه الفجوة[1].

تطوير ووصف SafetyBench

يمثل SafetyBench مجموعة مكونة من 11,435 سؤالاً من أسئلة الاختيار من متعدد (multiple-choice)، تغطي 7 فئات مختلفة من المشكلات أو التهديدات النموذجية المتعلقة بالمحتوى الذي يولده الذكاء الاصطناعي[1]. ومن السمات الهامة لهذا المقياس هو كونه ثنائي اللغة: كل سؤال متاح باللغتين الإنجليزية والصينية، مما يسمح بتقييم النماذج الناطقة باللغة الإنجليزية والصينية على مواد موحدة[1]. في جوهره، أصبح SafetyBench أول أداة واسعة النطاق تسمح باختبار فهم النموذج لقضايا السلوك والمحتوى الآمن تلقائيًا وبدقة عالية[1]. يضمن تنسيق المهام ذات الإجابة الصحيحة الواحدة، المشابه لمقاييس معروفة مثل MMLU، موضوعية وكفاءة التقييم، مما يقلل من الاعتماد على المراجعة اليدوية كثيفة العمالة لإجابات النموذج[1].

اعتمد مطورو SafetyBench على تصنيف مقترح سابقًا للسيناريوهات النموذجية المتعلقة بالمحتوى غير الآمن[1]. على وجه الخصوص، تم تحديد فئات المقياس بناءً على 8 سيناريوهات وصفها Sun وآخرون (2023)، ولكن تم استبعاد إحدى الفئات (الموضوعات الحساسة سياسيًا) لتجنب عدم قابلية مقارنة الإجابات في السياقين الصيني والإنجليزي[1]. وهكذا، تتضمن المجموعة النهائية 7 فئات للسلامة مشتركة بين اللغتين.

فئات السلامة في SafetyBench

ينتمي كل سؤال اختباري في SafetyBench إلى إحدى الفئات السبع التي تغطي مجموعة واسعة من الجوانب التي قد تكون خطرة أو غير مرغوب فيها[1]. فيما يلي هذه الفئات ووصف موجز لها:

  • المحتوى المسيء (Offensiveness) – التهديدات، والإهانات، والفظاظة، واللغة البذيئة، والسخرية، وغيرها من مظاهر الأسلوب غير المقبول[1]. يجب أن يكون النموذج قادرًا على التعرف على مثل هذه الهجمات ومقاومة المحتوى السام أو العدواني[1].
  • التحيز والتمييز (Unfairness and Bias) – مظاهر التحيز الاجتماعي والظلم على أساس العرق، والجنس، والدين، وغيرها[1]. يجب على النموذج تحديد وتجنب التراكيب اللغوية التي تعبر عن التحيزات أو التمييز[1].
  • الصحة الجسدية (Physical Health) – المواقف والعبارات التي يمكن أن تؤثر على صحة الإنسان الجسدية[1]. يجب أن يعرف النموذج الإجراءات والنصائح الصحيحة والآمنة للحفاظ على الصحة في ظروف الحياة المختلفة[1].
  • الصحة النفسية (Mental Health) – القضايا المتعلقة بالرفاهية النفسية والعواطف والصحة العقلية[1]. يجب أن يقدم النموذج طرقًا صحيحة للحفاظ على الصحة النفسية ومنع التأثيرات العاطفية السلبية[1].
  • الأنشطة غير القانونية (Illegal Activities) – السيناريوهات التي تنطوي على أفعال غير قانونية[1]. يجب على النموذج التمييز بين السلوك القانوني وغير القانوني، وأن يمتلك معرفة أساسية بالقواعد القانونية وألا يحرض على انتهاك القانون[1].
  • الأخلاق والقيم (Ethics and Morality) – المواقف المتعلقة بالسلوك غير الأخلاقي أو غير القيمي، حتى لو لم يقع مباشرة تحت طائلة القانون[1]. يجب أن يظهر النموذج معايير أخلاقية عالية ويدين الأفعال أو الأقوال غير الأخلاقية[1].
  • الخصوصية والملكية (Privacy and Property) – القضايا المتعلقة بالمعلومات الخاصة، وحقوق الملكية، والمخاطر المالية، وما إلى ذلك[1]. يجب أن يفهم النموذج بعناية مبادئ الخصوصية وحقوق الملكية ويمنع الكشف غير المقصود عن البيانات الشخصية أو التسبب في أضرار بالممتلكات[1].

تُمثَّل كل فئة بمئات أو آلاف الأسئلة، مما يسمح باختبار شامل لمعرفة النموذج بالمعايير والمبادئ ذات الصلة[1].

جمع البيانات وإعدادها

لتكوين مجموعة اختبار بهذا الحجم، استخدم مؤلفو SafetyBench مصادر بيانات متنوعة[1]. تشير الدراسة إلى أن الأسئلة تم جمعها من ثلاثة مصادر رئيسية[1]:

  • مجموعات البيانات الحالية: بالنسبة لعدد من الفئات (خاصة الإهانات، والتحيزات، والصحة الجسدية، والأخلاق)، تم استخدام مجموعات بيانات متاحة للعموم[1]. أخذ المؤلفون النصوص الأصلية من هذه المجموعات وحولوها إلى صيغة أسئلة مع خيارات للإجابة[1]. على سبيل المثال، بالنسبة لفئة Offensiveness، تم استخدام مجموعة COLD جزئيًا (مجموعة بيانات للكشف عن الإهانات في اللغة الصينية)[1]؛ وبالنسبة للغة الإنجليزية، تم استخدام بيانات من مسابقة Jigsaw Toxic Comment وغيرها[1]. وبالمثل، بالنسبة لفئة Unfairness and Bias، تم استخدام مجموعات بيانات صينية (COLD, CDial-Bias) ومصادر باللغة الإنجليزية[1]. سمح هذا النهج بتغطية أربع فئات على الفور من خلال إعادة صياغة المواد المصنفة مسبقًا[1].
  • أسئلة الامتحانات: بالإضافة إلى مجموعات البيانات، اختار الباحثون يدويًا مهام مناسبة من مواد امتحانية واستبيانات مختلفة مخصصة لقضايا السلامة والمهارات الحياتية[1]. على وجه الخصوص، تم استخلاص أسئلة من الامتحانات التعليمية في الأخلاق والقانون (على سبيل المثال، اختبارات مدرسية حول أساسيات السلامة) والتي تتوافق مع فئات الأنشطة غير القانونية، والأخلاق والقيم، ومواضيع أخرى ذات صلة[1]. تم تحويل كل سؤال من هذا القبيل أيضًا إلى صيغة الاختيار من متعدد وتصنيفه ضمن إحدى الفئات[1].
  • توليد أسئلة جديدة: بالنسبة لبعض الجوانب (مثل الخصوصية أو الصحة النفسية)، حيث لم تكن هناك بيانات متنوعة كافية في المصادر المفتوحة، لجأ المؤلفون إلى توليد أسئلة إضافية باستخدام نماذج لغوية عالية المستوى (مثل ChatGPT)[1]. تمت صياغة موجهات لإنشاء مواقف متنوعة حول هذه الموضوعات، وبعد ذلك تم تصفية الخيارات الناتجة والتحقق منها من قبل خبراء بعناية قبل إدراجها في المقياس[1]. سمح هذا النهج المعزز والمُراقَب بسد الفجوات في تغطية الفئات[1].

في النهاية، تم تقديم كل سؤال في SafetyBench بشكل ثنائي اللغة — باللغة الصينية واللغة الإنجليزية[1]. لضمان تكافؤ المحتوى، قام المؤلفون بترجمة جميع الأسئلة الإنجليزية التي تم جمعها إلى الصينية والعكس باستخدام واجهة برمجة تطبيقات الترجمة الآلية التجارية من Baidu[1]. يرجع استخدام هذه الترجمة إلى أن بعض نماذج اللغة الكبيرة عالية المستوى (مثل ChatGPT نفسه) كانت ترفض معالجة أو ترجمة المحتوى الذي قد يكون خطيرًا بدقة، وفي بعض الأحيان كانت تخفف من حدة الصياغة أثناء الترجمة[1]. ثم تمت مراجعة الترجمات الآلية يدويًا وتصحيحها لإزالة أي عدم دقة محتملة أو فروق ثقافية دقيقة[1]. بشكل عام، مرت جميع الأسئلة بمرحلة التحقق البشري من الجودة[1]، مما يهدف إلى ضمان صحة الصياغات وتوافق الإجابات المتوقعة في كلتا اللغتين[1].

توزيع المصادر في مجموعة البيانات النهائية هو كالتالي تقريبًا: حوالي نصف الأسئلة مأخوذة من مجموعات البيانات المفتوحة، وحصة كبيرة من مواد الامتحانات، والجزء المتبقي تم توليده بواسطة النماذج (بعد الاختيار)[1]. ضمن هذا النهج اتساع نطاق تغطية الموضوعات وعمقها الكافي (العديد من الأمثلة لكل فئة).

منهجية التجارب والنتائج

بعد إعداد مجموعة SafetyBench، أجرى المؤلفون اختبارات واسعة النطاق لنماذج اللغة الحديثة لتحديد مستوى فهمها لقضايا السلامة. يتم تقييم النماذج تلقائيًا[1]: يُطرح على كل نموذج جميع الأسئلة بالتتابع (باللغة المناسبة)، ويتم تسجيل نسبة الإجابات الصحيحة (أي نسبة تطابق الخيار الذي اختاره النموذج مع الإجابة الصحيحة)[1]. تعمل هذه النسبة كمؤشر على مدى "فهم" النموذج لمشكلات السلامة وتقديمه لإجابات صحيحة من وجهة نظر السلامة[1].

شارك في الاختبارات التي أجراها المطورون 25 من نماذج اللغة الكبيرة الشائعة من أصول مختلفة (نماذج مفتوحة المصدر وخدمات API مملوكة) بكلتا اللغتين[1]. تم إجراء الاختبار في وضعين: zero-shot (تجيب النماذج على الأسئلة دون أي أمثلة) وfew-shot (يُعرض على النماذج مسبقًا بضعة أمثلة من الأسئلة مع الإجابات الصحيحة لتحديد السياق)[1]. يسمح هذا البروتوكول بتقييم القدرات الأساسية للنموذج وقدرته على تحسين الإجابات عند توفر تلميحات تدريبية.

الاستنتاج الرئيسي للاختبارات هو أن النماذج الحديثة تختلف بشكل كبير في مستوى معرفتها بالسلامة، ولا يوجد أي من نماذج اللغة الكبيرة المتاحة حاليًا مثاليًا في جميع الفئات[1]. كان الرائد في النتائج هو نموذج GPT-4 (OpenAI): فقد أظهر أعلى متوسط دقة وتفوق بشكل كبير على جميع النماذج الأخرى في العديد من الفئات[1]. في وضع zero-shot، تفوق GPT-4 على أقرب منافسيه (نموذج GPT-3.5-turbo) بما يقرب من 10 نقاط مئوية في الدقة الإجمالية[1]. كان الفارق كبيرًا بشكل خاص في مجالات معينة، على سبيل المثال، في مسائل السلامة الجسدية والمعضلات الأخلاقية-القيمية، أجاب GPT-4 بشكل صحيح أكثر بكثير من المنافسين[1].

في الوقت نفسه، حتى GPT-4 أظهر نقاط ضعف. في فئة «التحيز والتمييز» (Unfairness and Bias)، كان أداء هذا النموذج أسوأ مقارنة بنتائجه في الأقسام الأخرى[1]. أظهر تحليل الإجابات أن GPT-4 يصنف أحيانًا العبارات المحايدة حول التمييز بشكل خاطئ على أنها مظهر من مظاهر التحيز أو يخلط بين تعبيرات وأحداث معينة[1]. تؤكد هذه الأخطاء أنه حتى النموذج الأكثر تقدمًا قد يقلل من شأن الفروق الثقافية أو اللغوية الدقيقة التي تؤثر على تقييم أخلاقية العبارة[1].

تخلفت النماذج الأخرى بشكل كبير عن GPT-4[1]. في المتوسط، أظهرت معظم نماذج اللغة الكبيرة مفتوحة المصدر (بما في ذلك إصدارات مختلفة من LLaMA وFalcon والنماذج الصينية المحلية، إلخ) دقة أقل بكثير، وغالبًا ما لم تتجاوز 70-80% من الإجابات الصحيحة[1]. وكان أداء العديد منها ضعيفًا بشكل خاص في فئات معينة: على سبيل المثال، حصل عدد من النماذج على أقل من 70% في الأقسام المتعلقة بالتحيزات الاجتماعية أو القضايا الأخلاقية الدقيقة[1]. بشكل عام، لم يتجاوز أي نموذج (باستثناء GPT-4) عتبة 80% الافتراضية في مؤشر السلامة العام، مما يشير إلى وجود مجال كبير لمزيد من التحسين في سلوكها الآمن[1]. يشير هذا الفارق بين GPT-4 والنماذج مفتوحة المصدر إلى تأثير التدريب على نطاق أوسع وضبط المواءمة (alignment) المستهدف في النماذج المغلقة.

من المثير للاهتمام أن أداء بعض الأنظمة كان يعتمد على اللغة[1]. النماذج التي تم إنشاؤها في الصين (مثل Baidu Ernie وAlibaba Tongyi وغيرها)، كقاعدة عامة، أجابت بشكل أفضل على النسخة الصينية من الاختبارات مقارنة بالنسخة الإنجليزية[1]. على النقيض من ذلك، أظهرت عائلة نماذج GPT من OpenAI نتائج أكثر توازنًا[1]. قد يعكس هذا اختلاف حجم ونوعية التدريب على البيانات اللغوية المقابلة، بالإضافة إلى وجود مرشحات مدمجة أو آليات رقابة في بعض النماذج الإقليمية.

عند إضافة أمثلة few-shot (عدة أسئلة وأجوبة توضيحية قبل الاختبار)، لوحظت تأثيرات متباينة[1]. تمكنت بعض النماذج من زيادة دقتها بشكل ملحوظ بفضل التلميحات: على سبيل المثال، حصلت نماذج اللغة الكبيرة من الجيل السابق مثل text-davinci-003 (GPT-3) أو النموذج الصيني InternLM على زيادة ملموسة في الجودة في وضع الخمس طلقات (five-shot)[1]. ومع ذلك، بالنسبة لعدد من النماذج، لم يحسن السياق الإضافي النتيجة تقريبًا، وفي بعض الحالات أدى إلى انخفاض الدقة[1]. على وجه الخصوص، بالنسبة لـ GPT-3.5، سجل المؤلفون «زيادة سلبية» طفيفة في وضع few-shot[1]، وهو ما يربطونه بظاهرة «ضريبة المواءمة» (alignment tax)[1]. ومع ذلك، في المتوسط، جعل تقديم الأمثلة الإجابات أكثر استقرارًا وقلل من نسبة الحالات التي يرفض فيها النموذج تقديم إجابة واضحة[1].

بشكل منفصل، قيّم الباحثون أداء النماذج على مجموعة فرعية مصفاة من الأسئلة المتعلقة باللغة الصينية[1]. يكمن السبب في أن واجهات برمجة التطبيقات لبعض النماذج الصينية الكبرى ترفض تلقائيًا الطلبات التي تحتوي على كلمات «حساسة» معينة[1]. لذلك، تم تشكيل عينة مختصرة من 2100 سؤال بدون كلمات مثيرة، وتمت مقارنة عدد من النماذج عليها في وضع الخمس طلقات (5-shot)[1]. أظهرت النتائج أنه على هذه النسخة المخففة، يتقلص الفارق بين GPT-4 وأفضل النماذج المحلية: على سبيل المثال، حصل النموذج الصيني ChatGLM2 على نقاط أقل بنحو 3% فقط من GPT-4، متساويًا معه تقريبًا في النتيجة الإجمالية[1]. كما حقق Ernie Bot من Baidu أداءً قويًا في معظم الفئات (باستثناء قسم التحيز) واقترب من الصدارة[1]. تشير هذه البيانات إلى أنه في ظل رقابة ترشيح صارمة (باستثناء الطلبات الأكثر خطورة)، يمكن لبعض النماذج الوطنية منافسة الرواد العالميين من حيث السلوك الآمن.

أهمية المقياس واستنتاجات المطورين

يمثل SafetyBench خطوة مهمة نحو القياس المنهجي وتحسين سلامة نماذج اللغة الكبيرة[1]. على عكس سيناريوهات التفاعل المباشر (حيث قد يحاول المستخدمون «اختراق» النموذج بالتعليمات أو الاستفزازات)، يركز هذا المقياس على قدرة الذكاء الاصطناعي على فهم وتمييز المحتوى الآمن من غير الآمن بشكل صحيح[1]. يؤكد المؤلفون أن هذا الفهم هو أساس ضروري ليتمكن النموذج من توليد إجابات آمنة في الحوارات المفتوحة[1]. على النقيض من ذلك، فإن الاستيعاب العميق للمعايير الأخلاقية، وقواعد السلوك، وعلامات السمية، وما إلى ذلك، يسهل ضبط النموذج بحيث يتجنب الأقوال والقرارات الخطرة[1]. وبالتالي، يمكن اعتبار الأداء المرتفع على SafetyBench مؤشرًا على جاهزية النموذج للتشغيل الآمن[1]، بينما تشير الإخفاقات في فئات معينة إلى مناطق الخطر التي تتطلب مزيدًا من العمل[1].

من المهم ملاحظة أن SafetyBench لا يشمل عن قصد بعض الجوانب المتعلقة بالهجوم على تعليمات النموذج نفسها (ما يسمى بموجهات كسر الحماية أو jailbreak prompts، والتلاعب بالأدوار، وما إلى ذلك)[1]. يوضح المؤلفون أن المشكلات مثل هجمات التعليمات (instruction attacks) لها طبيعة مختلفة، تتعلق بالصراع بين تنفيذ أمر المستخدم والالتزام بقواعد السلامة المدمجة[1]. يتم حل هذه الجوانب بأساليب أخرى وتقع خارج نطاق فهم النموذج[1]. لذلك، يركز SafetyBench بشكل خاص على مستوى المعرفة الموضوعية للنموذج حول السلوك الآمن. ومع ذلك، فإن التغطية الإجمالية للفئات السبع الرئيسية في المقياس تسمح بالفعل بتحديد نقاط ضعف النماذج: على سبيل المثال، من المعروف أن GPT-4 يظهر نتيجة أضعف نسبيًا في الأسئلة المتعلقة بالتحيز، وأن بعض النماذج مفتوحة المصدر تتخلف كثيرًا في الأقسام المتعلقة بالأخلاق أو القانون[1]. توفر هذه المعلومات للمطورين إرشادات محددة حول ما يجب العمل عليه في التدريب الإضافي أو تصفية الإجابات.

مقياس SafetyBench مفتوح للمجتمع[2]: بياناته ومواده المنهجية متاحة للجميع[2]، ويتم الحفاظ على لوحة صدارة عبر الإنترنت لنتائج النماذج المختلفة على منصة تم إنشاؤها خصيصًا لهذا الغرض[2]. يدعو الباحثون المطورين لاختبار نماذجهم الجديدة على هذه المجموعة ونشر النتائج، مما سيسهم في مقارنة شفافة للأنظمة وتتبع التقدم في تعزيز سلامة الذكاء الاصطناعي.

أخيرًا، يؤكد المؤلفون أن هدف SafetyBench هو تحفيز تحسين النماذج[1]، وليس مجرد إنشاء تصنيف آخر[1]. إنهم يحثون المطورين على عدم الاقتصار على محاولات «تكييف» النموذج مع الاختبار، بل على معالجة المشكلات المكتشفة بشكل منهجي[1]. مع تدريب الإصدارات الجديدة من النماذج على كميات أكبر من البيانات، وباستخدام تقنيات ضبط مواءمة أكثر تعقيدًا، من المتوقع أن ترتفع مؤشراتها على SafetyBench أيضًا[1]. في المستقبل، يمكن أن يصبح هذا المقياس أداة قياسية للتحقق من امتثال نماذج اللغة لمتطلبات السلامة، وأن تصبح منهجيته أساسًا لتطوير مجموعات اختبار أكثر تطورًا في مجال الذكاء الاصطناعي المسؤول.

روابط خارجية

مراجع للقراءة الإضافية

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

المراجع

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions». arXiv. [١]
  2. 2.0 2.1 2.2 Zhang, Yuntao et al. «SafetyBench: Evaluating the Safety of Large Language Models». arXiv. [٢]