MM-RAG (Multimodal RAG) — التوليد المعزز بالاسترجاع متعدد الوسائط
MM-RAG (بالإنجليزية: Multimodal Retrieval-Augmented Generation) هو امتداد للنموذج الكلاسيكي RAG، حيث تستخدم LLM ليس فقط النصوص للإجابة، بل وأيضًا البيانات المرئية (الصور، المخططات، الجداول، الرسوم البيانية). يسمح الاسترجاع متعدد الوسائط بالعثور على الأدلة وربطها عبر تمثيلات مختلفة، مما يقلل من خطر الهلوسات بالاعتماد على مصادر خارجية مع تحديد دقيق لمقتطفات الصفحات والمناطق (bounding boxes)[1][2].
يعتبر MM-RAG مفيدًا بشكل خاص للمستندات التي يتم فيها تمثيل جزء كبير من المعنى في شكل غير نصي (تخطيط الصفحة، الرسوم البيانية، هياكل الجداول). في مثل هذه الحالات، غالبًا ما يفقد RAG النصي الكلاسيكي عناصر سياقية مهمة[3][4].
السياق والمشكلة التي يتم حلها
يعمل RAG الكلاسيكي على مقاطع نصية ولا "يرى" الهياكل المرئية (مثل موضع العناصر، والتسميات التوضيحية للصور، ومحاور الرسوم البيانية). يسد MM-RAG هذه الثغرات: فهو يستخرج العناصر المهيكلة (النصوص، الجداول، الصور مع إحداثياتها)، ويفهرسها في فضاء متجهي، ويجمع الأدلة من وسائط مختلفة[5][6].
بنية MM-RAG
يضيف مسار عمل MM-RAG إلى RAG الكلاسيكي مراحل لمعالجة البيانات المرئية ومواءمة الوسائط: الاستيعاب (Ingestion) ← الفهرسة ← الاسترجاع متعدد الوسائط ← الدمج وإعادة الترتيب ← التوليد مع التتبع.
- الجمع والمعالجة المسبقة (Ingestion). يتم إدخال ملفات PDF/المسح الضوئي/الصور. يتم تنفيذ التعرف الضوئي على الحروف (OCR) وتحليل تخطيط الصفحة لاستخلاص المناطق: الفقرات، العناوين، الجداول، الصور وإحداثياتها. الأدوات النموذجية هي نماذج من عائلة LayoutLM ومكتبات أدوات مثل LayoutParser؛ غالبًا ما يعتمد التحقق والتدريب على مجموعات البيانات PubLayNet وDocLayNet[7][8][9].
- التقسيم إلى مناطق. يتم استخراج الكائنات المرئية (الرسوم البيانية، الجداول، الرسوم التوضيحية، التسميات التوضيحية). لزيادة المتانة، يتم استخدام نماذج لا تعتمد على OCR (مثل Donut) أو مسارات عمل مدمجة OCR+VLM[10].
- الفهرسة (Vector Index). يتم تحويل القطع النصية والعناصر المرئية (الصور أو أوصافها) إلى تمثيلات متجهية وتخزينها في قاعدة بيانات متجهية. بالنسبة للفضاء المشترك text↔image، يتم استخدام CLIP أو SigLIP؛ وللأنظمة الإنتاجية، تكون الفهارس متعددة الوسائط/متعددة المتجهات ملائمة (كائن واحد — عدة متجهات)[6][11][12].
- الاسترجاع متعدد الوسائط وإعادة الترتيب. يتم تنفيذ مزيج من البحث النصي والمرئي؛ يتم دمج المرشحين (الفقرات، الجداول، الصور/المناطق) وإعادة ترتيبهم بواسطة نموذج أثقل (مشفّر متقاطع/LLM-reranker) لزيادة الدقة[13].
- تجميع السياق والتوليد. يتم تمرير المقتطفات المحددة إلى LLM/VLM. إذا كان النموذج متعدد الوسائط (مثل GPT‑4V/4o)، يمكن تمرير الصور مباشرة؛ أما إذا كان LLM نصيًا، فيتم تحويل الصور مسبقًا إلى أوصاف تفصيلية[14][15].
- التتبع والاقتباس. تكون الإجابة مصحوبة باقتباسات قابلة للنقر لا ترتبط بالمستند/الصفحة فحسب، بل بالمنطقة المحددة (الإحداثيات) أيضًا. هذا يعزز مستوى grounding (التأصيل) وثقة المستخدمين[2].
تقييم الجودة والمقاييس
يتم تقييم فعالية MM-RAG على مستويات الاستخراج والاسترجاع والتوليد.
- جودة استخراج البيانات المرئية. دقة OCR (WER/CER)، وجودة تحليل التخطيط (mAP/Precision/Recall) على مجموعات بيانات DocLayNet/PubLayNet[8][7].
- جودة الاسترجاع. مقاييس استرجاع المعلومات القياسية: Recall@K، Precision@K، MRR؛ بالنسبة للوسائط المتعددة، يتم التقييم بشكل منفصل لكل وسيطة وفي الدمج.
- جودة الإجابة (end‑to‑end). مقاييس تلقائية مثل faithfulness (الأمانة) / groundedness (التأصيل) والتقييم البشري. عمليًا، تُستخدم أطر عمل مثل RAGAS/TruLens/DeepEval[16].
- معايير التقييم (Benchmarks).
- DocVQA: أسئلة حول صور المستندات[3].
- TextVQA: أسئلة تتطلب قراءة النص في الصور[4].
- InfographicVQA: أسئلة حول الرسوم البيانية المعلوماتية (الإنفوجرافيك)[17].
- ChartQA: أسئلة حول الرسوم البيانية تتطلب استدلالًا منطقيًا[18].
- MMDocRAG: معيار تقييم لـ RAG متعدد الوسائط للإجابة على الأسئلة من المستندات (DocQA) (مستندات متعددة الصفحات، سلاسل أدلة عبر الوسائط)[19].
جدول مقارنة للمكونات
| المكون | خيارات التنفيذ | الإيجابيات | السلبيات / المخاطر | متى تختار | |
|---|---|---|---|---|---|
| OCR | Tesseract / PaddleOCR / واجهات برمجة التطبيقات السحابية (Cloud APIs) | المحلية تضمن الخصوصية والتحكم؛ السحابية توفر دقة عالية "جاهزة للاستخدام". | أخطاء في التخطيطات المعقدة؛ API — التكلفة ومتطلبات الامتثال. | للبيانات الخاصة — OCR محلي؛ لأقصى دقة — السحابة (إذا كان مسموحًا). | |
| تحليل التخطيط | قواعد / نموذج تعلم آلي (LayoutLM, LayoutParser) | القواعد بسيطة للقوالب الموحدة؛ نماذج تعلم الآلة أكثر متانة مع التنوع. | القواعد تفشل مع التخطيطات الجديدة؛ نماذج تعلم الآلة تتطلب موارد/بيانات. | للنماذج الموحدة — القواعد؛ لمتن متنوع من المستندات — تعلم الآلة. | |
| التحويل إلى متجهات (صور) | CLIP / SigLIP / أوصاف لا تعتمد على OCR (Donut/Pix2Struct) | فضاء كامن مشترك بين النص والصورة (CLIP/SigLIP)؛ النماذج التي لا تعتمد على OCR تزيل الاعتماد على OCR. | نموذج CLIP لا يقرأ النص داخل الصور؛ الأوصاف قد تشوه المعنى. | CLIP/SigLIP للبحث الأساسي متعدد الوسائط؛ نماذج لا تعتمد على OCR للمسح الضوئي ذي الجودة المعقدة. | |
| دمج النتائج | الفرز حسب درجة الثقة (score) / حصص حسب الوسائط / LLM-reranker | أداة إعادة الترتيب تزيد بشكل ملحوظ من دقة اختيار السياق. | زيادة في زمن الاستجابة والتكلفة. | سيناريوهات تتطلب دقة عالية؛ الطرق البسيطة لإثبات المفهوم (PoC). | |
| التخزين/الفهرس | متجه واحد / متجه متعدد (نص+صورة) / هجين (BM25+متجه) | المتجه المتعدد يغطي تمثيلات مختلفة لنفس الكائن؛ الهجين ينقذ الكلمات الرئيسية/الرموز. | تعقيد في البنية والتحديثات. | أنظمة إنتاجية ببيانات مختلطة واتفاقيات مستوى خدمة (SLA) صارمة. | }
ملاحظات عملية
المراجع
انظر أيضًا
ملاحظات
|