BLEU (Bilingual Evaluation Understudy) — مقياس بلو
BLEU (اختصار لـ Bilingual Evaluation Understudy بالإنجليزية، وتعني "مقياس التقييم ثنائي اللغة البديل") هو خوارزمية للتقييم الآلي لجودة نص مترجم آليًا. تتم عملية التقييم بمقارنة الترجمة المرشحة بترجمة بشرية مرجعية واحدة أو أكثر[1]. تُحدَّد الجودة بناءً على درجة التقارب المعجمي بين الترجمة الآلية والترجمة الاحترافية. وكما أشار المؤلفون، "كلما كانت الترجمة الآلية أقرب إلى ترجمة احترافية بشرية، كانت أفضل"[2].
اقتُرحت هذه الطريقة في عام 2002 من قبل مجموعة من الباحثين في شركة IBM بقيادة كيشور بابينيني (Kishore Papineni)، وأصبحت واحدة من أولى المقاييس التي أظهرت ارتباطًا عاليًا مع تقييمات المترجمين الخبراء. اكتسب مقياس BLEU شعبية كبيرة بسرعة بفضل بساطة حسابه، واستقلاليته عن اللغة، وتوافقه الجيد مع التقييم البشري على مستوى المدونات النصية الكاملة[1].
منهجية حساب BLEU
يقوم مقياس BLEU بتقييم الترجمة عن طريق حساب التطابقات في الـ n-grams (التسلسلات المكونة من n كلمة) بين الترجمة المرشحة والترجمات المرجعية.
1. الدقة المعدلة للـ n-grams
أولاً، يتم حساب دقة () الـ n-grams ذات الأطوال المختلفة (عادةً من 1 إلى 4)، وهي نسبة الـ n-grams من الترجمة المرشحة التي تظهر في الترجمات المرجعية[3]. عند الحساب، يتم تحديد عدد التطابقات لكل n-gram بالحد الأقصى لعدد مرات ظهورها في أي من النصوص المرجعية، وذلك لتجنب تضخيم النتيجة بسبب تكرار الكلمة نفسها.
2. التجميع والمتوسط الهندسي
للحصول على درجة موحدة، يتم تجميع قيم الدقة للـ 1-gram و2-gram و3-gram و4-gram باستخدام المتوسط الهندسي. يتم ذلك لكي يكون للدقة المنخفضة لأحد أنواع الـ n-grams (مثل 4-grams) تأثير كبير على النتيجة النهائية، مما يعكس ضعف جودة العبارات الطويلة.
3. عقوبة الإيجاز (Brevity Penalty)
لمنع الحصول على درجات عالية بشكل مبالغ فيه للترجمات القصيرة جدًا ولكن الدقيقة، يقدم BLEU عقوبة الإيجاز (Brevity Penalty, BP). إذا كان طول الترجمة المرشحة (c) أقل بكثير من طول الترجمة المرجعية (r)، يتم تخفيض درجة BLEU النهائية. تُحسب العقوبة باستخدام الصيغة التالية:
4. الصيغة النهائية لمقياس BLEU
تُحسب درجة BLEU النهائية كحاصل ضرب عقوبة الإيجاز في المتوسط الهندسي لدقة الـ n-grams[4]: حيث N هو أقصى طول للـ n-grams (عادةً 4)، و هي الأوزان (عادةً ).
تتراوح قيمة BLEU بين 0 و1 (وغالبًا ما تُضرب في 100 وتُعرض كنسبة مئوية). كلما اقتربت النتيجة من 1 (أو 100%)، اعتُبرت الترجمة "أقرب إلى الترجمة البشرية".
التطبيق والأهمية
منذ نشره، أصبح مقياس BLEU معيارًا واقعيًا (de facto standard) لتقييم أنظمة الترجمة الآلية (MT). وقد سمح بتجاوز "عنق الزجاجة" في تطوير أنظمة الترجمة الآلية، والمتمثل في الوقت والتكلفة المرتفعين للتقييم اليدوي. أصبح بإمكان المطورين قياس تأثير التغييرات في نماذجهم بسرعة واستبعاد الحلول غير الناجحة بكفاءة[2].
يرتبط مقياس BLEU بشكل جيد مع التقييمات البشرية على مستوى المدونة النصية بأكملها، ولكنه غير موثوق لتقييم الجمل الفردية[3]. لهذا السبب، استُخدم المقياس على نطاق واسع في المسابقات الموحدة للترجمة الآلية (مثل NIST وWMT) لمقارنة الأنظمة.
القيود والانتقادات
على الرغم من انتشاره الواسع، فإن لمقياس BLEU عددًا من القيود الجوهرية:
- غياب التقييم الدلالي: يقيس BLEU فقط التطابق السطحي للكلمات، وهو غير قادر على تقييم ما إذا كان المعنى الأصلي للنص قد نُقل بشكل صحيح. قد تحصل الترجمة على درجة عالية ولكنها تكون غير صحيحة نحويًا أو تشوه المعنى[5].
- تجاهل المترادفات وإعادة الصياغة: تعاقب الخوارزمية الترجمات التي تستخدم مترادفات أو صياغات مختلفة عن تلك الموجودة في النص المرجعي، حتى لو كانت صحيحة تمامًا. استخدام عدة نصوص مرجعية يخفف من هذه المشكلة، لكنه لا يحلها بالكامل.
- الحساسية لعملية التقطيع (Tokenization): تعتمد نتائج BLEU بشكل كبير على طريقة تقسيم النص إلى وحدات (tokens). يمكن أن تؤدي طرق التقطيع المختلفة إلى قيم مختلفة، مما يجعل مقارنة النماذج غير دقيقة. لحل هذه المشكلة، تم اقتراح معيار SacreBLEU، الذي يوحد طريقة حساب المقياس[1].
- صعوبة التطبيق على بعض اللغات: يعمل BLEU بشكل سيئ مع اللغات التي لا تحتوي على فواصل واضحة بين الكلمات (مثل الصينية أو اليابانية) دون إجراء تقسيم مسبق للكلمات.
البدائل والتوجهات الحديثة
مع مرور الوقت، تم اقتراح مقاييس آلية جديدة للتغلب على عيوب BLEU:
- METEOR: يأخذ في الاعتبار تطابق المترادفات، والتجذير (stemming)، وترتيب الكلمات.
- ROUGE: يُستخدم لتقييم تلخيص النصوص، ويركز على الاستدعاء (recall) بدلاً من الدقة (precision).
- المقاييس القابلة للتعلم (Learned Metrics): هي توجهات حديثة تستخدم نماذج تعلم الآلة لأخذ التقارب الدلالي في الاعتبار. تُظهر مقاييس مثل BLEURT وCOMET ارتباطًا أعلى بكثير مع تقييمات البشر مقارنةً بمقياس BLEU التقليدي[6].
بحلول عشرينيات القرن الحادي والعشرين، فقد BLEU مكانته كمعيار مطلق، وأفسح المجال لطرق أكثر دقة[7]. ومع ذلك، يظل علامة فارقة في تاريخ تقييم الترجمة الآلية ويستمر استخدامه كنقطة انطلاق أساسية لقياس التقدم.
روابط
المراجع
- ↑ 1.0 1.1 1.2 "BLEU". Wikipedia. [١]
- ↑ 2.0 2.1 Papineni, Kishore, et al. «Bleu: a Method for Automatic Evaluation of Machine Translation». Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002. [٢]
- ↑ 3.0 3.1 "BLEU". MT Companion 4.0 documentation. [٣]
- ↑ Callison-Burch, Chris, et al. «BLEU: a Method for Automatic Evaluation of Machine Translation». Proceedings of the EACL 2006 Workshop on Statistical Machine Translation, 2006. [٤]
- ↑ Cardete, Jorge. "Beyond BLEU Score. When it comes to the nuanced world of...". The Deep Hub | Medium. [٥]
- ↑ "BLEURT: метрика для оценки моделей для генерации текста". Neurohive. [٦]
- ↑ "Chief Digital and Artificial Intelligence Office > Lexicon". ai.mil. [٧]