BERTScore (metric) — مقياس بيرت سكور
BERTScore هو مقياس آلي لتقييم جودة النص المُولَّد، يعتمد على قياس التشابه الدلالي باستخدام التضمينات السياقية (contextual embeddings) من نماذج اللغة المدربة مسبقًا، مثل BERT. تم اقتراح هذا المقياس في عام 2019 من قبل مجموعة من الباحثين بقيادة تياني تشانغ (Tianyi Zhang) في ورقة بحثية بعنوان «BERTScore: Evaluating Text Generation with BERT»[1].
على عكس المقاييس التقليدية مثل BLEU وROUGE، التي تعتمد على التطابق الدقيق للـ n-grams، يسمح BERTScore بتحديد التكافؤ في المعنى حتى مع وجود اختلافات في الكلمات والصياغة، آخذًا في الاعتبار المرادفات وإعادة الصياغة (paraphrases)[2].
منهجية الحساب
تتكون طريقة BERTScore من عدة مراحل:
- الحصول على التضمينات السياقية: يتم تقسيم كلا النصين (المرجعي والمُوَلَّد) إلى رموز (tokens) وتمريرهما عبر نموذج محولات (transformer) مدرب مسبقًا (مثل BERT أو RoBERTa). لكل رمز، يتم استخراج تمثيله المتجهي السياقي (التضمين).
- حساب التشابه الجيبي (Cosine Similarity): يتم حساب التشابه الجيبي لجميع أزواج الرموز من النصين، وتُشكَّل مصفوفة تشابه للرموز[3].
- حساب الدقة، والاستدعاء، ومقياس F1: بناءً على مصفوفة التشابه، يتم العثور على الرمز الأكثر تشابهًا في النص المرجعي لكل رمز في النص المُوَلَّد، مما يسمح بحساب الدقة (precision). وبالمثل، يتم العثور على الرمز الأقرب في النص المُوَلَّد لكل رمز في النص المرجعي، مما يعطي الاستدعاء (recall). وتكون القيمة النهائية لـ BERTScore هي مقياس F1 المتوازن، الذي يجمع بين الدقة والاستدعاء:
يتميز المقياس بالمرونة: يمكن اختيار نماذج مدربة مسبقًا مختلفة، وترجيح الرموز حسب أهميتها (باستخدام أوزان IDF)، وتحويل النتائج خطيًا لتحسين قابلية التفسير[3].
التطبيق والفعالية
يُستخدم BERTScore لتقييم الجودة في مهام توليد النصوص المختلفة:
- الترجمة الآلية: يقيّم الحفاظ على المعنى، حتى لو كانت التراكيب اللغوية في الترجمة تختلف عن النص المرجعي.
- التلخيص التلقائي: قادر على تحديد أن الصياغات المختلفة قد تنقل نفس الحقائق الرئيسية، مما يجعله أكثر مرونة من ROUGE.
- أنظمة الحوار: يساعد في قياس مدى ملاءمة الرد من خلال مقارنته بالرد المرجعي على المستوى الدلالي.
أظهر تقييم واسع النطاق أجراه مؤلفو المقياس أن معامل ارتباط BERTScore مع التقييمات البشرية أعلى بشكل ملحوظ من مقاييس مثل BLEU وROUGE. بالإضافة إلى ذلك، أظهر المقياس مقاومة متزايدة للحالات المعقدة من إعادة الصياغة[1].
المزايا
- مراعاة الدلالة: يقارن النصوص على مستوى المعنى، مع الأخذ في الاعتبار المرادفات وإعادة الصياغة.
- ارتباط عالٍ مع التقييم البشري: تتوافق تقييمات BERTScore بشكل أفضل مع أحكام البشر حول جودة النص مقارنة بالمقاييس التقليدية.
- شمولية وقابلية للنقل: المقياس غير مرتبط بلغة أو مهمة معينة؛ يكفي اختيار النموذج المدرب مسبقًا المناسب.
- لا حاجة للتدريب: BERTScore هو مقياس لا يتطلب تدريبًا، على عكس المقاييس الأكثر تعقيدًا (مثل BLEURT) التي تتطلب تدريبًا مسبقًا على مجموعات بيانات التقييم.
- دمج النماذج الحديثة: يستفيد من قوة نماذج المحولات (Transformers) لاستخراج ميزات سياقية عميقة.
القيود والانتقادات
- تكاليف حسابية عالية: يتطلب الحساب القائم على التضمينات موارد أكثر بكثير من عد الـ n-grams، وغالبًا ما يحتاج إلى استخدام وحدات معالجة الرسومات (GPU)[2].
- الاعتماد على النموذج: ترتبط جودة التقييم ارتباطًا مباشرًا بجودة النموذج المدرب مسبقًا. يؤثر اختيار النموذج والطبقة التي يتم منها استخراج التضمينات على النتيجة، مما قد يسبب مشاكل في قابلية إعادة إنتاج النتائج[4].
- عدم مراعاة الحقائق والبنية: يركز BERTScore على التشابه الدلالي المحلي ولا يضمن فهم بنية النص أو الدقة الواقعية. قد يحصل نص يحتوي على عبارات أعيد ترتيبها أو أخطاء واقعية على درجة عالية[3].
- قابلية تفسير منخفضة: على عكس BLEU/ROUGE، مؤشر BERTScore أقل شفافية، مما يجعل تحليل الأخطاء أكثر صعوبة.
- التحيزات الاجتماعية (bias): يرث المقياس الصور النمطية والتحيزات الموجودة في النماذج المدربة مسبقًا. أظهرت دراسة أجريت عام 2022 أن المقاييس المعتمدة على نماذج اللغة الكبيرة (بما في ذلك BERTScore) تُظهر تحيزًا اجتماعيًا أكبر بكثير من المقاييس التقليدية[5].
الأهمية والدور في التقييم
يمثل BERTScore خطوة مهمة في تطوير أساليب تقييم النص المُولَّد، لأنه يسمح بمراعاة التكافؤ الدلالي بدلًا من التطابق المعجمي فقط. على الرغم من عدم قدرة أي مقياس آلي على قياس جودة النص بشكل مثالي، فقد أثبت BERTScore نفسه كأداة موثوقة تكمل الأساليب الكلاسيكية (مثل BLEU وROUGE) بدلًا من أن تحل محلها بالكامل.
في الممارسة العملية، غالبًا ما يُستخدم BERTScore بالاقتران مع الخبرة البشرية والمقاييس الأخرى للحصول على فهم أشمل وأعمق لمدى نجاح النماذج في توليد نصوص مترابطة ومتوافقة من حيث المعنى[2].
روابط
المراجع
- ↑ 1.0 1.1 Zhang, Tianyi, et al. «BERTScore: Evaluating Text Generation with BERT». arXiv:1904.09675 [cs.CL], 22 Apr. 2019. [١]
- ↑ 2.0 2.1 2.2 «BERTScore: New Metrics for Language Models». Analytics Vidhya. [٢]
- ↑ 3.0 3.1 3.2 Sojasingarayar, Abonia. «BERTScore Explained in 5 minutes». Medium. [٣]
- ↑ Alakulju, D., et al. «Reproducibility of BERTScore». Theseus.fi. [٤]
- ↑ Peyrard, M., et al. «BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation». arXiv:2210.07626 [cs.CL], 14 Oct. 2022. [٥]