MM-RAG (Multimodal RAG) (FR)
MM-RAG (de l'anglais Multimodal Retrieval-Augmented Generation) est une extension du paradigme classique de la RAG, dans laquelle les grands modèles de langage (LLM) utilisent pour leur réponse non seulement du texte, mais aussi des données visuelles (images, schémas, tableaux, graphiques). La recherche multimodale permet de trouver et de corréler des preuves sous diverses représentations, réduisant ainsi le risque d'hallucinations en s'appuyant sur des sources externes avec un ancrage précis sur des fragments de pages et des zones délimitées (bounding boxes)[1][2].
Le MM-RAG est particulièrement utile pour les documents où une partie substantielle du sens est présentée sous une forme non textuelle (mise en page, diagrammes, structure des tableaux). Dans de tels cas, un RAG textuel classique perd souvent des éléments de contexte importants[3][4].
Contexte et problème abordé
Le RAG classique opère sur des passages de texte et ne perçoit pas les structures visuelles (disposition des éléments, légendes des images, axes des graphiques). Le MM-RAG comble ces lacunes : il extrait des éléments structurés (texte, tableaux, images avec leurs coordonnées), les indexe dans un espace vectoriel et combine les preuves issues de différentes modalités[5][6].
Architecture du MM-RAG
Le pipeline MM-RAG ajoute au RAG classique des étapes de traitement des données visuelles et d'alignement des modalités : ingestion → indexation → recherche multimodale → fusion et reclassement → génération avec traçabilité.
- Collecte et prétraitement (Ingestion). En entrée, le système reçoit des PDF, des documents numérisés ou des images. Une reconnaissance optique de caractères (OCR) et une analyse de la mise en page sont effectuées pour délimiter les zones : paragraphes, titres, tableaux, images et leurs coordonnées. Les outils typiques incluent les modèles de la famille LayoutLM et les bibliothèques comme LayoutParser ; la validation et l'entraînement s'appuient souvent sur les datasets PubLayNet et DocLayNet[7][8][9].
- Segmentation en régions. Les objets visuels (diagrammes, tableaux, illustrations, légendes) sont extraits. Pour une robustesse accrue, des modèles sans OCR (OCR-free), comme Donut, ou des pipelines combinant OCR et VLM sont utilisés[10].
- Indexation (Vector Index). Les fragments de texte (chunks) et les éléments visuels (images ou leurs descriptions) sont convertis en représentations vectorielles et stockés dans une base de données vectorielle. Pour l'espace unifié texte↔image, des modèles comme CLIP ou SigLIP sont utilisés ; en production, les index multimodaux ou multivectoriels (un objet pour plusieurs vecteurs) sont pratiques[6][11][12].
- Recherche multimodale et reclassement. Une recherche combinant texte et visuel est effectuée ; les candidats (paragraphes, tableaux, images/régions) sont fusionnés et reclassés par un modèle plus « lourd » (cross-encoder ou LLM-reranker) pour améliorer la précision[13].
- Empaquetage du contexte et génération. Les fragments sélectionnés sont fournis à un LLM ou un VLM. Si le modèle est multimodal (par ex., GPT-4V/4o), les images peuvent être transmises directement ; avec un LLM textuel, les images sont préalablement converties en descriptions détaillées[14][15].
- Traçabilité et citation. La réponse est accompagnée de citations cliquables liées non seulement au document ou à la page, mais aussi à la région spécifique (coordonnées). Cela améliore le niveau de grounding (ancrage) et la confiance des utilisateurs[2].
Évaluation de la qualité et métriques
L'efficacité du MM-RAG est évaluée aux niveaux de l'extraction, de la recherche (retrieval) et de la génération.
- Qualité de l'extraction des données visuelles. Précision de l'OCR (WER/CER), qualité de l'analyse de la mise en page (mAP/Precision/Recall) sur les jeux de données DocLayNet/PubLayNet[8][7].
- Qualité de la recherche (retrieval). Métriques standard de la recherche d'information : Recall@K, Precision@K, MRR ; pour la multimodalité, elles sont calculées séparément par modalité et de manière combinée.
- Qualité de la réponse (de bout en bout). Métriques automatiques de faithfulness (fidélité) et de groundedness (ancrage), ainsi qu'une évaluation humaine. En pratique, des frameworks comme RAGAS, TruLens ou DeepEval sont utilisés[16].
- Benchmarks.
- DocVQA : questions sur des images de documents[3].
- TextVQA : questions nécessitant la lecture de texte dans les images[4].
- InfographicVQA : questions sur des infographies[17].
- ChartQA : questions sur des diagrammes nécessitant un raisonnement logique[18].
- MMDocRAG : un benchmark pour le RAG multimodal appliqué au DocQA (documents de plusieurs pages, chaînes de preuves cross-modales)[19].
Tableau comparatif des composants
| Composant | Options de mise en œuvre | Avantages | Inconvénients / Risques | Quand choisir |
|---|---|---|---|---|
| OCR | Tesseract / PaddleOCR / API cloud | Locaux : confidentialité et contrôle ; cloud : haute précision prête à l'emploi. | Erreurs sur des mises en page complexes ; API : coût et exigences de conformité. | Données sensibles : OCR local ; précision maximale : cloud (si autorisé). |
| Analyse de la mise en page | Règles / Modèle ML (LayoutLM, LayoutParser) | Les règles sont simples pour des modèles uniformes ; le ML est robuste face à la diversité. | Les règles échouent sur de nouvelles mises en page ; le ML nécessite des ressources/données. | Formulaires standardisés : règles ; corpus hétérogène : ML. |
| Vectorisation (images) | CLIP / SigLIP / descriptions sans OCR (Donut/Pix2Struct) | Espace latent commun texte↔image (CLIP/SigLIP) ; le mode sans OCR élimine la dépendance à l'OCR. | CLIP ne lit pas le texte à l'intérieur des images ; les descriptions peuvent altérer le sens. | CLIP/SigLIP pour une recherche multimodale de base ; mode sans OCR pour les numérisations de mauvaise qualité. |
| Fusion des résultats | Tri par score / quotas par modalité / LLM-reranker | Le reclassement (reranker) améliore considérablement la précision de la sélection du contexte. | Augmentation de la latence et des coûts. | Scénarios à haute précision ; méthodes simples pour les PoC (preuves de concept). |
| Stockage / Index | Vecteur unique / multivecteur (texte+image) / hybride (BM25+vecteur) | Le multivecteur couvre différentes représentations d'un même objet ; l'hybride est efficace pour les mots-clés/codes. | Complexification du schéma et des mises à jour. | Systèmes en production avec des données mixtes et des SLA stricts. |
Remarques pratiques
- La recherche hybride (BM25 + vecteur) est la norme de facto pour améliorer le rappel et la précision sur des termes ou codes spécifiques[20].
- Le reclassement (reranking) par un cross-encoder ou un LLM permet d'économiser des tokens en éliminant les candidats non pertinents avant la génération[13].
- Les systèmes de recherche VLM modernes (par ex., ColPali) montrent des avantages sur les documents visuellement riches grâce à l'indexation directe des pages en tant qu'images[21].
Bibliographie
- Lewis, P. et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. NeurIPS. arXiv:2005.11401.
- Gao, L. et al. (2023). Precise Zero‑Shot Dense Retrieval without Relevance Labels (HyDE). ACL 2023. arXiv:2212.10496.
- Mei, L., Mo, S., Yang, Z., Chen, C. (2025). A Survey of Multimodal Retrieval‑Augmented Generation. arXiv:2504.08748.
- Abootorabi, M.M. et al. (2025). Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval‑Augmented Generation. Findings of ACL 2025. ACL Anthology.
- Yu, S. et al. (2024). VisRAG: Vision‑based Retrieval‑augmented Generation on Multi‑modality Documents. arXiv:2410.10594.
- Cho, J. et al. (2024). M3DocRAG: Multi‑modal Retrieval is What You Need for Multi‑document QA. arXiv:2411.04952.
- Tanaka, R. et al. (2025). VDocRAG: Retrieval‑Augmented Generation over Visually‑Rich Documents. CVPR 2025. arXiv:2504.09795 • CVF Open Access.
- Dong, K. et al. (2025). MMDocRAG: Benchmarking Retrieval‑Augmented Multimodal Generation for Document Question Answering. arXiv:2505.16470.
- Wasserman, N. et al. (2025). REAL‑MM‑RAG: A Real‑World Multi‑Modal Retrieval Benchmark. arXiv:2502.12342.
- Faysse, M. et al. (2024). ColPali: Efficient Document Retrieval with Vision Language Models. arXiv:2407.01449.
- Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML 2021. arXiv:2103.00020.
- Tschannen, M. et al. (2025). SigLIP 2: Multilingual Vision‑Language Encoders with Improved Semantic Understanding, Localization, and Dense Features. arXiv:2502.14786.
- Xu, Y. et al. (2020). LayoutLM: Pre‑training of Text and Layout for Document Image Understanding. KDD 2020. DOI • arXiv:1912.13318.
- Huang, Y. et al. (2022). LayoutLMv3: Pre‑training for Document AI with Unified Text and Image Masking. arXiv:2204.08387.
- Zhong, X., Tang, J., Jimeno‑Yepes, A.J. (2019). PubLayNet: Largest Dataset Ever for Document Layout Analysis. arXiv:1908.07836.
- Pfitzmann, B. et al. (2022). DocLayNet: A Large Human‑Annotated Dataset for Document‑Layout Analysis. arXiv:2206.01062.
- Kim, G. et al. (2021). OCR‑free Document Understanding Transformer (Donut). arXiv:2111.15664.
- Shen, Z. et al. (2021). LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis. arXiv:2103.15348.
- Singh, A. et al. (2019). Towards VQA Models That Can Read (TextVQA). CVPR 2019. arXiv:1904.08920.
- Mathew, M. et al. (2021/2022). DocVQA / InfographicVQA: Datasets for VQA on Document Images and Infographics. WACV 2021 / WACV 2022. CVF • arXiv:2104.12756.
- Masry, A. et al. (2022). ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. Findings of ACL 2022. ACL • arXiv:2203.10244.
- Liu, F. et al. (2022). DePlot: One‑shot Visual Language Reasoning by Plot‑to‑Table Translation. arXiv:2212.10505.
- Wang, P. et al. (2024). Qwen2‑VL: Enhancing Vision‑Language Model’s Capabilities in OCR and Chart QA. arXiv:2409.12191.
- Es, S. et al. (2023). RAGAS: Automated Evaluation of Retrieval‑Augmented Generation. arXiv:2309.15217.
Voir aussi
- Retrieval-Augmented Generation
- Base de données vectorielle
- Embedding
- GraphRAG
Notes
- ↑ Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS. arXiv:2005.11401.
- ↑ 2.0 2.1 Yu, S. et al. (2024). VisRAG: Vision-based Retrieval-Augmented Generation on Multi-modality Documents. arXiv:2407.06437.
- ↑ 3.0 3.1 Mathew, M. et al. (2021). DocVQA: A Dataset for VQA on Document Images. WACV. arXiv:2007.00398.
- ↑ 4.0 4.1 Singh, A. et al. (2019). TextVQA: Towards VQA Models That Can Read. CVPR. arXiv:1904.08920.
- ↑ Xu, Y. et al. (2020). LayoutLM: Pre-training of Text and Layout for Document Image Understanding. KDD. DOI.
- ↑ 6.0 6.1 Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML. arXiv:2103.00020.
- ↑ 7.0 7.1 Zhong, X., Tang, J., Yepes, A. J. (2019). PubLayNet: Largest Dataset for Document Layout Analysis. ICDAR. arXiv:1908.07836.
- ↑ 8.0 8.1 Pfitzmann, B. et al. (2022). DocLayNet: A Large Human‑Annotated Dataset for Document‑Layout Analysis. KDD. DOI / arXiv:2206.01062.
- ↑ Shen, Z. et al. (2021). LayoutParser: A Unified Toolkit for DL‑based Document Image Analysis. arXiv:2103.15348.
- ↑ Kim, G. et al. (2021). Donut: OCR‑free Document Understanding Transformer. arXiv:2111.15664.
- ↑ Zhai, X. et al. (2023). Sigmoid Loss for Language‑Image Pre‑Training (SigLIP). ICCV. arXiv:2303.15343.
- ↑ Milvus Docs. Multi‑Vector Hybrid Search. milvus.io/docs/multi-vector-search.md.
- ↑ 13.0 13.1 Cohere Docs. Rerank API. docs.cohere.com/reference/rerank.
- ↑ OpenAI. GPT‑4V(ision) System Card. (2023). PDF.
- ↑ OpenAI. Hello GPT‑4o. (2024). openai.com/index/hello-gpt-4o/.
- ↑ Es, S. et al. (2023). RAGAS: Automated Evaluation of Retrieval Augmented Generation. arXiv:2309.15217.
- ↑ Mathew, M. et al. (2021). InfographicVQA: Understanding Infographics via Question Answering. ICDAR. arXiv:2104.12756.
- ↑ Masry, A. et al. (2022). ChartQA: A Benchmark for Question Answering about Charts. ACL (Findings). arXiv:2103.16435.
- ↑ Dong, K. et al. (2025). Benchmarking Retrieval‑Augmented Multimodal Generation for Document QA (MMDocRAG). arXiv:2505.16470.
- ↑ Weaviate Docs. Hybrid search. docs.weaviate.io/.../hybrid-search.
- ↑ Faysse, M. et al. (2024). ColPali: Efficient Document Retrieval with Vision‑Language Models. arXiv:2407.01449.