METEOR (metric) — ميتيور

From Systems analysis wiki
Jump to navigation Jump to search

METEOR هو اسم يستخدم في مجال معالجة اللغة الطبيعية (NLP) لعدة مفاهيم مرتبطة ولكنها مختلفة. أولاً وقبل كل شيء، هو مقياس آلي معروف لتقييم جودة الترجمة الآلية. بالإضافة إلى ذلك، في عام 2024، تم تقديم مشروعين بحثيين مستقلين تحت نفس الاسم، مرتبطان بـالنماذج اللغوية الكبيرة (LLM): طريقة تدريب تطورية ونموذج لغوي متعدد الوسائط.

METEOR كمقياس لتقييم جودة الترجمة

METEOR (اختصار لـ Metric for Evaluation of Translation with Explicit ORdering) هو مقياس آلي لتقييم جودة الترجمة الآلية، اقترحه في عام 2005 باحثون من جامعة كارنيجي ميلون، ساتانجيف بانيرجي وألون لافي[1]. كان هدفه تحسين التوافق بين التقييمات الآلية والأحكام البشرية، خاصة على مستوى الجمل الفردية، مع معالجة بعض عيوب المقياس الأقدم BLEU.

الميزات الرئيسية لمقياس METEOR:

  • مراعاة الدقة والاستدعاء: على عكس BLEU، الذي يركز فقط على الدقة (precision)، يحسب METEOR المتوسط التوافقي بين الدقة والاستدعاء (recall)، مما يسمح بمعاقبة الترجمات التي تحذف كلمات مهمة.
  • مطابقة مرنة للكلمات: يستخدم METEOR ميزات لغوية لمطابقة الترجمة مع النص المرجعي. فهو لا يأخذ في الاعتبار التطابقات التامة فحسب، بل وأيضًا الأشكال المختلفة للكلمات (باستخدام التجذيع) والمرادفات (باستخدام WordNet).
  • عقوبة على ترتيب الكلمات: يتضمن المقياس عقوبة تفرض على الترتيب غير الصحيح للكلمات في الترجمة المرشحة، حتى لو كانت جميع الكلمات متطابقة مع المرجع.

تسمح هذه التحسينات لمقياس METEOR بالارتباط بشكل أفضل مع التقييمات البشرية مقارنةً بـ BLEU[2]. ويُستخدم المقياس على نطاق واسع في أبحاث الترجمة الآلية، والتلخيص التلقائي، وتقييم التعليقات على الصور[3].

METEOR كطريقة للتدريب التطوري للنماذج اللغوية الكبيرة

في عام 2024، قدمت مجموعة من الباحثين الصينيين طريقة تسمى METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth[4]. هذه الطريقة مصممة للتدريب الفعال للنماذج اللغوية الكبيرة المتخصصة في مجالات ضيقة (مثل المالية والطب)، دون الحاجة إلى تدريب النموذج من الصفر.

يصف المؤلفون مخططًا ثلاثي المراحل لـ "تطور" النماذج اللغوية الكبيرة:

  1. تقطير المعرفة من نموذج قوي إلى نموذج ضعيف (weak-to-strong data distillation): لتوليد مجموعة بيانات التدريب، يُستخدم نموذج "مُعلِّم" أكثر قوة (مثل GPT-4). حيث يقوم النموذج المتخصص أولاً بتوليد خطة للحل، ثم يقوم النموذج القوي بإنشاء الإجابة باتباع تلك الخطة. هذا يوازن توزيع المعرفة ويسمح للنموذج المستهدف باستيعابها بشكل أكثر كفاءة.
  2. التدريب التكراري الموجه بتغذية راجعة خارجية (guided iterative training): يقوم النموذج الذي تم تدريبه في المرحلة الأولى بحل المهام بشكل مستقل، بينما يعمل النموذج القوي كـ "حكم"، حيث يقيم الإجابات ويشير إلى الأخطاء. هذه الدورة الانعكاسية تطور لدى النموذج المتخصص القدرة على المراجعة الذاتية.
  3. التطور الذاتي (self-evolution): يواصل النموذج تحسين نفسه دون مشرف خارجي، مستخدمًا المهارات المكتسبة لتوليد وتصحيح بيانات جديدة.

تقترح هذه الطريقة نهجًا عمليًا لإنشاء نماذج لغوية كبيرة خبيرة ومدمجة وفعالة من حيث التكلفة لقطاعات معينة[5].

METEOR كنموذج لغوي كبير متعدد الوسائط

أيضًا في عام 2024، قدم فريق من الباحثين من المعهد الكوري المتقدم للعلوم والتكنولوجيا (KAIST) نموذجًا لغويًا كبيرًا متعدد الوسائط يسمى METEOR: Mamba-based Traversal of Rationales[6]. صُمم النموذج للفهم الشامل للمعلومات المرئية وتوليد إجابات على الأسئلة المرئية.

الميزة الرئيسية لـ METEOR هي استخدام التبريرات (rationales) المفصلة. فالنموذج لا يقدم الإجابة النهائية فحسب، بل يولد ويعتمد على "سلسلة من التبريرات" الخفية — وهي شرح متسلسل لكيفية الوصول إلى تلك الإجابة، على غرار الطريقة التي يفكر بها الإنسان.

تستخدم بنية METEOR وحدة خاصة تعتمد على نموذج Mamba — وهي بنية فعالة لمعالجة التسلسلات الطويلة جدًا. تقوم هذه الوحدة بترميز سلاسل التبريرات الطويلة، والتي يمكن أن تشمل وصفًا للكائنات في الصورة، وعلاقاتها المكانية، والخطوات اللازمة لحل المشكلة[7].

تم اختبار النموذج بنجاح على معايير قياس متعددة الوسائط معقدة، مثل MME وAI2D (لفهم الرسوم البيانية) وMathVista (لحل المسائل الرياضية في سياق مرئي). وقد أظهر نتائج عالية دون الحاجة إلى وحدات رؤية حاسوبية خارجية إضافية، مما يشير إلى الاستخدام الفعال لمعاملاته الخاصة[7].

ملاحظات

  1. Banerjee, S., and A. Lavie. «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments». ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT, 2005. [١]
  2. Lavie, A., and A. Agarwal. «METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments». ACL Workshop on Statistical Machine Translation, 2007. [٢]
  3. «Evaluating Large Language Models: Powerful Insights Ahead». DataScienceDojo. [٣]
  4. Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». arXiv preprint arXiv:2411.11933, 2024. [٤]
  5. Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». ar5iv.org. [٥]
  6. Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». NeurIPS 2024 (poster). [٦]
  7. 7.0 7.1 Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». arXiv preprint arXiv:2405.15574, 2024. [٧]