MM-RAG (Multimodal RAG) — التوليد المعزز بالاسترجاع متعدد الوسائط

MM-RAG (بالإنجليزية: Multimodal Retrieval-Augmented Generation) هو امتداد للنموذج الكلاسيكي RAG، حيث تستخدم LLM ليس فقط النصوص للإجابة، بل وأيضًا البيانات المرئية (الصور، المخططات، الجداول، الرسوم البيانية). يسمح الاسترجاع متعدد الوسائط بالعثور على الأدلة وربطها عبر تمثيلات مختلفة، مما يقلل من خطر الهلوسات بالاعتماد على مصادر خارجية مع تحديد دقيق لمقتطفات الصفحات والمناطق (bounding boxes)^[1]^[2].

يعتبر MM-RAG مفيدًا بشكل خاص للمستندات التي يتم فيها تمثيل جزء كبير من المعنى في شكل غير نصي (تخطيط الصفحة، الرسوم البيانية، هياكل الجداول). في مثل هذه الحالات، غالبًا ما يفقد RAG النصي الكلاسيكي عناصر سياقية مهمة^[3]^[4].

السياق والمشكلة التي يتم حلها

يعمل RAG الكلاسيكي على مقاطع نصية ولا "يرى" الهياكل المرئية (مثل موضع العناصر، والتسميات التوضيحية للصور، ومحاور الرسوم البيانية). يسد MM-RAG هذه الثغرات: فهو يستخرج العناصر المهيكلة (النصوص، الجداول، الصور مع إحداثياتها)، ويفهرسها في فضاء متجهي، ويجمع الأدلة من وسائط مختلفة^[5]^[6].

بنية MM-RAG

يضيف مسار عمل MM-RAG إلى RAG الكلاسيكي مراحل لمعالجة البيانات المرئية ومواءمة الوسائط: الاستيعاب (Ingestion) ← الفهرسة ← الاسترجاع متعدد الوسائط ← الدمج وإعادة الترتيب ← التوليد مع التتبع.

الجمع والمعالجة المسبقة (Ingestion). يتم إدخال ملفات PDF/المسح الضوئي/الصور. يتم تنفيذ التعرف الضوئي على الحروف (OCR) وتحليل تخطيط الصفحة لاستخلاص المناطق: الفقرات، العناوين، الجداول، الصور وإحداثياتها. الأدوات النموذجية هي نماذج من عائلة LayoutLM ومكتبات أدوات مثل LayoutParser؛ غالبًا ما يعتمد التحقق والتدريب على مجموعات البيانات PubLayNet وDocLayNet^[7]^[8]^[9].
التقسيم إلى مناطق. يتم استخراج الكائنات المرئية (الرسوم البيانية، الجداول، الرسوم التوضيحية، التسميات التوضيحية). لزيادة المتانة، يتم استخدام نماذج لا تعتمد على OCR (مثل Donut) أو مسارات عمل مدمجة OCR+VLM^[10].
الفهرسة (Vector Index). يتم تحويل القطع النصية والعناصر المرئية (الصور أو أوصافها) إلى تمثيلات متجهية وتخزينها في قاعدة بيانات متجهية. بالنسبة للفضاء المشترك text↔image، يتم استخدام CLIP أو SigLIP؛ وللأنظمة الإنتاجية، تكون الفهارس متعددة الوسائط/متعددة المتجهات ملائمة (كائن واحد — عدة متجهات)^[6]^[11]^[12].
الاسترجاع متعدد الوسائط وإعادة الترتيب. يتم تنفيذ مزيج من البحث النصي والمرئي؛ يتم دمج المرشحين (الفقرات، الجداول، الصور/المناطق) وإعادة ترتيبهم بواسطة نموذج أثقل (مشفّر متقاطع/LLM-reranker) لزيادة الدقة^[13].
تجميع السياق والتوليد. يتم تمرير المقتطفات المحددة إلى LLM/VLM. إذا كان النموذج متعدد الوسائط (مثل GPT‑4V/4o)، يمكن تمرير الصور مباشرة؛ أما إذا كان LLM نصيًا، فيتم تحويل الصور مسبقًا إلى أوصاف تفصيلية^[14]^[15].
التتبع والاقتباس. تكون الإجابة مصحوبة باقتباسات قابلة للنقر لا ترتبط بالمستند/الصفحة فحسب، بل بالمنطقة المحددة (الإحداثيات) أيضًا. هذا يعزز مستوى grounding (التأصيل) وثقة المستخدمين^[2].

تقييم الجودة والمقاييس

يتم تقييم فعالية MM-RAG على مستويات الاستخراج والاسترجاع والتوليد.

جودة استخراج البيانات المرئية. دقة OCR (WER/CER)، وجودة تحليل التخطيط (mAP/Precision/Recall) على مجموعات بيانات DocLayNet/PubLayNet^[8]^[7].
جودة الاسترجاع. مقاييس استرجاع المعلومات القياسية: Recall@K، Precision@K، MRR؛ بالنسبة للوسائط المتعددة، يتم التقييم بشكل منفصل لكل وسيطة وفي الدمج.
جودة الإجابة (end‑to‑end). مقاييس تلقائية مثل faithfulness (الأمانة) / groundedness (التأصيل) والتقييم البشري. عمليًا، تُستخدم أطر عمل مثل RAGAS/TruLens/DeepEval^[16].
معايير التقييم (Benchmarks).
- DocVQA: أسئلة حول صور المستندات^[3].
- TextVQA: أسئلة تتطلب قراءة النص في الصور^[4].
- InfographicVQA: أسئلة حول الرسوم البيانية المعلوماتية (الإنفوجرافيك)^[17].
- ChartQA: أسئلة حول الرسوم البيانية تتطلب استدلالًا منطقيًا^[18].
- MMDocRAG: معيار تقييم لـ RAG متعدد الوسائط للإجابة على الأسئلة من المستندات (DocQA) (مستندات متعددة الصفحات، سلاسل أدلة عبر الوسائط)^[19].

جدول مقارنة للمكونات

مقارنة بين المكونات والنهج الرئيسية في MM-RAG
المكون	خيارات التنفيذ	الإيجابيات	السلبيات / المخاطر	متى تختار
OCR	Tesseract / PaddleOCR / واجهات برمجة التطبيقات السحابية (Cloud APIs)	المحلية تضمن الخصوصية والتحكم؛ السحابية توفر دقة عالية "جاهزة للاستخدام".	أخطاء في التخطيطات المعقدة؛ API — التكلفة ومتطلبات الامتثال.	للبيانات الخاصة — OCR محلي؛ لأقصى دقة — السحابة (إذا كان مسموحًا).
تحليل التخطيط	قواعد / نموذج تعلم آلي (LayoutLM, LayoutParser)	القواعد بسيطة للقوالب الموحدة؛ نماذج تعلم الآلة أكثر متانة مع التنوع.	القواعد تفشل مع التخطيطات الجديدة؛ نماذج تعلم الآلة تتطلب موارد/بيانات.	للنماذج الموحدة — القواعد؛ لمتن متنوع من المستندات — تعلم الآلة.
التحويل إلى متجهات (صور)	CLIP / SigLIP / أوصاف لا تعتمد على OCR (Donut/Pix2Struct)	فضاء كامن مشترك بين النص والصورة (CLIP/SigLIP)؛ النماذج التي لا تعتمد على OCR تزيل الاعتماد على OCR.	نموذج CLIP لا يقرأ النص داخل الصور؛ الأوصاف قد تشوه المعنى.	CLIP/SigLIP للبحث الأساسي متعدد الوسائط؛ نماذج لا تعتمد على OCR للمسح الضوئي ذي الجودة المعقدة.
دمج النتائج	الفرز حسب درجة الثقة (score) / حصص حسب الوسائط / LLM-reranker	أداة إعادة الترتيب تزيد بشكل ملحوظ من دقة اختيار السياق.	زيادة في زمن الاستجابة والتكلفة.	سيناريوهات تتطلب دقة عالية؛ الطرق البسيطة لإثبات المفهوم (PoC).
التخزين/الفهرس	متجه واحد / متجه متعدد (نص+صورة) / هجين (BM25+متجه)	المتجه المتعدد يغطي تمثيلات مختلفة لنفس الكائن؛ الهجين ينقذ الكلمات الرئيسية/الرموز.	تعقيد في البنية والتحديثات.	أنظمة إنتاجية ببيانات مختلطة واتفاقيات مستوى خدمة (SLA) صارمة.	} ملاحظات عملية البحث الهجين (BM25 + متجه) هو المعيار الفعلي لزيادة الشمولية والدقة للمصطلحات/الرموز المتخصصة^[20]. إعادة الترتيب بواسطة مشفّر متقاطع/LLM توفر في استهلاك التوكنز عن طريق استبعاد المرشحين "غير المرغوب فيهم" قبل مرحلة التوليد^[13]. مسترجعات VLM الحديثة (مثل ColPali) تظهر تفوقًا في المستندات الغنية بصريًا بفضل الفهرسة المباشرة لصفحات الصور^[21]. المراجع Lewis, P. et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. NeurIPS. arXiv:2005.11401. Gao, L. et al. (2023). Precise Zero‑Shot Dense Retrieval without Relevance Labels (HyDE). ACL 2023. arXiv:2212.10496. Mei, L., Mo, S., Yang, Z., Chen, C. (2025). A Survey of Multimodal Retrieval‑Augmented Generation. arXiv:2504.08748. Abootorabi, M.M. et al. (2025). Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval‑Augmented Generation. Findings of ACL 2025. ACL Anthology. Yu, S. et al. (2024). VisRAG: Vision‑based Retrieval‑augmented Generation on Multi‑modality Documents. arXiv:2410.10594. Cho, J. et al. (2024). M3DocRAG: Multi‑modal Retrieval is What You Need for Multi‑document QA. arXiv:2411.04952. Tanaka, R. et al. (2025). VDocRAG: Retrieval‑Augmented Generation over Visually‑Rich Documents. CVPR 2025. arXiv:2504.09795 • CVF Open Access. Dong, K. et al. (2025). MMDocRAG: Benchmarking Retrieval‑Augmented Multimodal Generation for Document Question Answering. arXiv:2505.16470. Wasserman, N. et al. (2025). REAL‑MM‑RAG: A Real‑World Multi‑Modal Retrieval Benchmark. arXiv:2502.12342. Faysse, M. et al. (2024). ColPali: Efficient Document Retrieval with Vision Language Models. arXiv:2407.01449. Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML 2021. arXiv:2103.00020. Tschannen, M. et al. (2025). SigLIP 2: Multilingual Vision‑Language Encoders with Improved Semantic Understanding, Localization, and Dense Features. arXiv:2502.14786. Xu, Y. et al. (2020). LayoutLM: Pre‑training of Text and Layout for Document Image Understanding. KDD 2020. DOI • arXiv:1912.13318. Huang, Y. et al. (2022). LayoutLMv3: Pre‑training for Document AI with Unified Text and Image Masking. arXiv:2204.08387. Zhong, X., Tang, J., Jimeno‑Yepes, A.J. (2019). PubLayNet: Largest Dataset Ever for Document Layout Analysis. arXiv:1908.07836. Pfitzmann, B. et al. (2022). DocLayNet: A Large Human‑Annotated Dataset for Document‑Layout Analysis. arXiv:2206.01062. Kim, G. et al. (2021). OCR‑free Document Understanding Transformer (Donut). arXiv:2111.15664. Shen, Z. et al. (2021). LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis. arXiv:2103.15348. Singh, A. et al. (2019). Towards VQA Models That Can Read (TextVQA). CVPR 2019. arXiv:1904.08920. Mathew, M. et al. (2021/2022). DocVQA / InfographicVQA: Datasets for VQA on Document Images and Infographics. WACV 2021 / WACV 2022. CVF • arXiv:2104.12756. Masry, A. et al. (2022). ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. Findings of ACL 2022. ACL • arXiv:2203.10244. Liu, F. et al. (2022). DePlot: One‑shot Visual Language Reasoning by Plot‑to‑Table Translation. arXiv:2212.10505. Wang, P. et al. (2024). Qwen2‑VL: Enhancing Vision‑Language Model’s Capabilities in OCR and Chart QA. arXiv:2409.12191. Es, S. et al. (2023). RAGAS: Automated Evaluation of Retrieval‑Augmented Generation. arXiv:2309.15217. انظر أيضًا Retrieval-Augmented Generation قاعدة بيانات متجهية Embedding GraphRAG ملاحظات ↑ Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS. arXiv:2005.11401. ↑ ^2.0 ^2.1 Yu, S. et al. (2024). VisRAG: Vision-based Retrieval-Augmented Generation on Multi-modality Documents. arXiv:2407.06437. ↑ ^3.0 ^3.1 Mathew, M. et al. (2021). DocVQA: A Dataset for VQA on Document Images. WACV. arXiv:2007.00398. ↑ ^4.0 ^4.1 Singh, A. et al. (2019). TextVQA: Towards VQA Models That Can Read. CVPR. arXiv:1904.08920. ↑ Xu, Y. et al. (2020). LayoutLM: Pre-training of Text and Layout for Document Image Understanding. KDD. DOI. ↑ ^6.0 ^6.1 Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML. arXiv:2103.00020. ↑ ^7.0 ^7.1 Zhong, X., Tang, J., Yepes, A. J. (2019). PubLayNet: Largest Dataset for Document Layout Analysis. ICDAR. arXiv:1908.07836. ↑ ^8.0 ^8.1 Pfitzmann, B. et al. (2022). DocLayNet: A Large Human‑Annotated Dataset for Document‑Layout Analysis. KDD. DOI / arXiv:2206.01062. ↑ Shen, Z. et al. (2021). LayoutParser: A Unified Toolkit for DL‑based Document Image Analysis. arXiv:2103.15348. ↑ Kim, G. et al. (2021). Donut: OCR‑free Document Understanding Transformer. arXiv:2111.15664. ↑ Zhai, X. et al. (2023). Sigmoid Loss for Language‑Image Pre‑Training (SigLIP). ICCV. arXiv:2303.15343. ↑ Milvus Docs. Multi‑Vector Hybrid Search. milvus.io/docs/multi-vector-search.md. ↑ ^13.0 ^13.1 Cohere Docs. Rerank API. docs.cohere.com/reference/rerank. ↑ OpenAI. GPT‑4V(ision) System Card. (2023). PDF. ↑ OpenAI. Hello GPT‑4o. (2024). openai.com/index/hello-gpt-4o/. ↑ Es, S. et al. (2023). RAGAS: Automated Evaluation of Retrieval Augmented Generation. arXiv:2309.15217. ↑ Mathew, M. et al. (2021). InfographicVQA: Understanding Infographics via Question Answering. ICDAR. arXiv:2104.12756. ↑ Masry, A. et al. (2022). ChartQA: A Benchmark for Question Answering about Charts. ACL (Findings). arXiv:2103.16435. ↑ Dong, K. et al. (2025). Benchmarking Retrieval‑Augmented Multimodal Generation for Document QA (MMDocRAG). arXiv:2505.16470. ↑ Weaviate Docs. Hybrid search. docs.weaviate.io/.../hybrid-search. ↑ Faysse, M. et al. (2024). ColPali: Efficient Document Retrieval with Vision‑Language Models. arXiv:2407.01449.

[lewis2020-1] Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS. arXiv:2005.11401.

[visrag2024-2] 2.0 ^2.1 Yu, S. et al. (2024). VisRAG: Vision-based Retrieval-Augmented Generation on Multi-modality Documents. arXiv:2407.06437.

[docvqa2021-3] 3.0 ^3.1 Mathew, M. et al. (2021). DocVQA: A Dataset for VQA on Document Images. WACV. arXiv:2007.00398.

[textvqa2019-4] 4.0 ^4.1 Singh, A. et al. (2019). TextVQA: Towards VQA Models That Can Read. CVPR. arXiv:1904.08920.

[layoutlm2020-5] Xu, Y. et al. (2020). LayoutLM: Pre-training of Text and Layout for Document Image Understanding. KDD. DOI.

[clip2021-6] 6.0 ^6.1 Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML. arXiv:2103.00020.

[publaynet2019-7] 7.0 ^7.1 Zhong, X., Tang, J., Yepes, A. J. (2019). PubLayNet: Largest Dataset for Document Layout Analysis. ICDAR. arXiv:1908.07836.

[doclaynet2022-8] 8.0 ^8.1 Pfitzmann, B. et al. (2022). DocLayNet: A Large Human‑Annotated Dataset for Document‑Layout Analysis. KDD. DOI / arXiv:2206.01062.

[layoutparser2021-9] Shen, Z. et al. (2021). LayoutParser: A Unified Toolkit for DL‑based Document Image Analysis. arXiv:2103.15348.

[donut2021-10] Kim, G. et al. (2021). Donut: OCR‑free Document Understanding Transformer. arXiv:2111.15664.

[siglip2023-11] Zhai, X. et al. (2023). Sigmoid Loss for Language‑Image Pre‑Training (SigLIP). ICCV. arXiv:2303.15343.

[milvus-mv-12] Milvus Docs. Multi‑Vector Hybrid Search. milvus.io/docs/multi-vector-search.md.

[cohere-rerank-13] 13.0 ^13.1 Cohere Docs. Rerank API. docs.cohere.com/reference/rerank.

[gpt4v-14] OpenAI. GPT‑4V(ision) System Card. (2023). PDF.

[gpt4o-15] OpenAI. Hello GPT‑4o. (2024). openai.com/index/hello-gpt-4o/.

[ragas-16] Es, S. et al. (2023). RAGAS: Automated Evaluation of Retrieval Augmented Generation. arXiv:2309.15217.

[infographicvqa2021-17] Mathew, M. et al. (2021). InfographicVQA: Understanding Infographics via Question Answering. ICDAR. arXiv:2104.12756.

[chartqa2022-18] Masry, A. et al. (2022). ChartQA: A Benchmark for Question Answering about Charts. ACL (Findings). arXiv:2103.16435.

[mmdocrag2025-19] Dong, K. et al. (2025). Benchmarking Retrieval‑Augmented Multimodal Generation for Document QA (MMDocRAG). arXiv:2505.16470.

[weaviate-hybrid-20] Weaviate Docs. Hybrid search. docs.weaviate.io/.../hybrid-search.

[colpali2024-21] Faysse, M. et al. (2024). ColPali: Efficient Document Retrieval with Vision‑Language Models. arXiv:2407.01449.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

MM-RAG (Multimodal RAG) — التوليد المعزز بالاسترجاع متعدد الوسائط

Contents

السياق والمشكلة التي يتم حلها

بنية MM-RAG

تقييم الجودة والمقاييس

جدول مقارنة للمكونات

ملاحظات عملية

المراجع

انظر أيضًا

ملاحظات

Navigation menu

MM-RAG (Multimodal RAG) — التوليد المعزز بالاسترجاع متعدد الوسائط

السياق والمشكلة التي يتم حلها

بنية MM-RAG

تقييم الجودة والمقاييس

جدول مقارنة للمكونات

ملاحظات عملية

المراجع

انظر أيضًا

ملاحظات

Navigation menu

Search