FLORES-200 — فْلورِس-200

From Systems analysis wiki
Jump to navigation Jump to search

FLORES-200 — هي مجموعة بيانات تقييمية للترجمة الآلية متعددة اللغات، تغطي حوالي 200 لغة حول العالم. أنشأها باحثون في شركة ميتا (Meta) كجزء من مشروع No Language Left Behind (NLLB) وقُدِّمت في عام 2022. تُعد FLORES-200 توسعة للمجموعة السابقة FLORES-101 وهي مصممة للتقييم الموضوعي لجودة الترجمة، خاصة للغات ذات الموارد المحدودة[1].

الميزة الرئيسية لمجموعة البيانات هي أن جميع النصوص تمت ترجمتها من قبل مترجمين محترفين، مما يضمن جودة عالية للترجمات المرجعية ويجعلها معيارًا موثوقًا لمقارنة أنظمة الترجمة الآلية[2].

الخلفية وإنشاء المجموعة

تم تقديم الإصدار الأول، FLORES-101، في عام 2022، وكان يحتوي على 3001 جملة من ويكيبيديا الإنجليزية، مترجمة إلى 101 لغة[3]. سدّت هذه المجموعة فجوة مهمة في تقييم أنظمة الترجمة للغات ذات البيانات المحدودة.

في عام 2022، وضمن مشروع No Language Left Behind، قامت شركة ميتا بتوسيع المتن اللغوي ليشمل 200 لغة، مُنشِئةً بذلك FLORES-200[4]. واجهت عملية التطوير عددًا من الصعوبات:

  • العديد من اللغات المضافة كانت ذات توحيد قياسي منخفض وتفتقر إلى المتخصصين ثنائيي اللغة.
  • تمت ترجمة جزء من اللغات ليس مباشرة من الإنجليزية، بل عبر لغات وسيطة (مثل الإسبانية والفرنسية والروسية).
  • بالنسبة لبعض اللغات، تم تضمين أنظمة كتابة مختلفة (مثل اللاتينية والسيريلية) لمراعاة استخدامها في مجتمعات مختلفة[5].

المكونات والبنية

يتضمن متن FLORES-200 اللغوي 3001 جملة تم اختيارها من 842 مقالة ومستند ويب مختلف من مشاريع ويكيميديا. على عكس الإصدار الأول، لا تقتصر المصادر على ويكيبيديا فحسب، بل تشمل أيضًا مشاريع أخرى مثل ويكي الأخبار (Wikinews)، ويكي جونيور (Wikijunior)، وويكي الرحلات (Wikivoyage). وهذا يضمن تنوعًا مواضيعيًا واسعًا (الأخبار، العلوم، الثقافة، السفر)، مما يسمح باختبار جودة الترجمة بشكل شامل.

تمت ترجمة كل جملة إنجليزية بشكل احترافي إلى حوالي 200 لغة مستهدفة، لتشكيل متن متوازٍ ومُحاذَى بالكامل. تنقسم المجموعة إلى ثلاثة أجزاء:

  • dev (التطوير) — لضبط النماذج.
  • devtest (الاختبار المرحلي) — للتقييم الأولي.
  • test (الاختبار النهائي) — جزء مخفي للمقارنة العادلة بين النماذج في المسابقات.

للدلالة على اللغات، يُستخدم معيار ISO 639-3 مع تحديد نظام الكتابة، على سبيل المثال، eng_Latn للغة الإنجليزية بالأبجدية اللاتينية أو rus_Cyrl للغة الروسية بالأبجدية السيريلية[5].

الاستخدام والأهمية

أصبحت FLORES-200 المعيار الرئيسي لتقييم أنظمة الترجمة الآلية متعددة اللغات. وقد استُخدمت لتقييم النموذج الرائد من شركة ميتا — NLLB-200. أظهر الاختبار على FLORES-200 أن نموذج NLLB-200 حسّن جودة الترجمة بمعدل 44% وفقًا لمقياس BLEU مقارنةً بالأنظمة السابقة الأفضل أداءً[6]. بالنسبة لبعض اللغات في أفريقيا والهند، تجاوزت الزيادة في الدقة 70%[4].

أتاحت ميتا الوصول الحر إلى مجموعة البيانات والأدوات اللازمة لاستخدامها بموجب ترخيص Creative Commons BY-SA 4.0. وبفضل ذلك، انتشرت FLORES-200 بسرعة وأصبحت المعيار الفعلي في الأبحاث العلمية، ومسابقات الترجمة الآلية (مثل WMT)، ومبادرات الحفاظ على اللغات. في عام 2023، بدأ مجتمع OLDI (Open Language Data Initiative) بتوسيع المتن اللغوي تحت اسم FLORES+[2].

روابط خارجية

المراجع

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

الهوامش

  1. "FLoRes-200 Dataset". Papers With Code. [١]
  2. 2.0 2.1 "FLORES+ Translation and Machine Translation Evaluation for the Erzya Language". Proceedings of the Ninth Conference on Machine Translation (WMT24). [٢]
  3. Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [٣]
  4. 4.0 4.1 "New AI Model Translates 200 Languages, Making Technology Accessible to More People". Meta Newsroom. [٤]
  5. 5.0 5.1 "Muennighoff/flores200". Hugging Face. [٥]
  6. Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [٦]