Hybrid retrieval — الاسترجاع الهجين

From Systems analysis wiki
Jump to navigation Jump to search

Hybrid Retrieval - الاسترجاع الهجين — هو فئة من أساليب استرجاع المعلومات التي تجمع بين الإشارات المعجمية (sparse) والدلالية (dense/late‑interaction) لزيادة الشمولية (recall) والدقة (precision) في النتائج. تجمع الأنظمة الهجينة بين مزايا المطابقة الدقيقة للمصطلحات (BM25/TF-IDF) والقرب المتجهي (المُشفِّرات المزدوجة، نماذج التفاعل المتأخر متعددة المتجهات)، وتستخدم أيضًا أساليب لدمج التصنيفات تكون متينة في مواجهة الدرجات (scores) المختلفة المقاييس (مثل Reciprocal Rank Fusion، وCombSUM/CombMNZ)، وإعادة الترتيب باستخدام المُشفِّرات المتقاطعة (cross-encoders).[1][2][3]

التعريف والدوافع

الاسترجاع الهجين هو بحث متوازٍ أو متسلسل عبر قناتي إشارات مستقلتين (أو أكثر) مع دمج و/أو إعادة ترتيب لاحقة للنتائج. الدوافع النموذجية هي: (i) التغلب على "الفجوة المصطلحية" (المرادفات، إعادة الصياغة)، (ii) المتانة ضد الأخطاء الإملائية/الصرفية، (iii) استخراج الرموز/المعرفات المحددة (حيث تكون النماذج المتناثرة sparse قوية)، (iv) قابلية النقل إلى نطاقات/لغات جديدة (حيث توفر النماذج الكثيفة dense تعميمًا دلاليًا).[4][5][6]

مكونات البحث الهجين

المكون المعجمي (sparse)

  • النماذج الكلاسيكية. TF-IDF و BM25/BM25F هي أساليب أساسية قياسية تعتمد على الفهارس المقلوبة؛ يعتمد BM25 على الإطار الاحتمالي لملاءمة الصلة (PRF) ويُستخدم على نطاق واسع في المرحلة الأولى من الترتيب.[7]
  • النماذج المتناثرة القابلة للتعلم (Learned sparse).
    • SPLADE / SPLADE++/v3. هو نموذج عصبي متناثر (neuros-parse) يقوم بتعلم توسيع المصطلحات وأوزانها عبر رأس نمذجة اللغة المقنّعة (MLM) مع تنظيم التناثر (sparsity regularization)؛ يُظهر نتائج قوية وقابلية جيدة للنقل (BEIR).[8][9][10]
    • uniCOIL/COIL. قوائم مقلوبة مُسيَّقة (contextualized inverted lists) ونسختها المبسطة uniCOIL؛ وهي متوافقة مع الفهارس المقلوبة الكلاسيكية.[11]

المكون الدلالي (dense/late‑interaction)

  • المُشفِّر المزدوج (Bi-encoder) (متجه واحد). يتم ترميز الاستعلام والمستند بنماذج متجهية، ويُحسب التشابه بناءً على الضرب النقطي (dot-product) أو MIPS. أمثلة: DPR،[12] ANCE،[13] Contriever،[14] GTR،[15] E5.[16]
  • التفاعل المتأخر (Late-interaction) (متجهات متعددة). تقوم بنمذجة التطابقات على مستوى التوكن (token-level) في تفاعل "متأخر": ColBERT/ColBERTv2؛ المقايضة هنا هي دقة أفضل مقابل فهرس/كمون أكبر، ويمكن تخفيف ذلك بواسطة محركات هندسية (PLAID, WARP).[17][18][19]

مخططات التهجين ودمج التصنيفات

  • البحث المتوازي ودمج المرشحين. يتم الحصول على قوائم المرشحين (المتناثرة والكثيفة) بشكل مستقل مع درجاتها الداخلية؛ ثم يتم دمج التصنيفات.[20]
  • RRF (Reciprocal Rank Fusion). تقنية متينة ضد الدرجات غير المتوافقة للتصنيفات، حيث تجمع الرتب المقلوبة:

RRF(d)=i=1m1k+ranki(d), حيث k60 عادةً.[21] مدعومة في المحركات الصناعية (Elasticsearch/OpenSearch) كأداة استرجاع أو معالج مدمج.[22][23]

  • CombSUM/CombMNZ وغيرها. دوال كلاسيكية "لجمع الدرجات" (مع التطبيع إذا لزم الأمر).[24][25][26]
  • المزيج الخطي الموزون.

S(d)=αSsparse(d)+(1α)Sdense(d), α[0,1]. يمكن أن يكون اختيار α ثابتًا أو قابلاً للتعلم (لكل مجموعة/لكل استعلام).[27]

  • تطبيع الدرجات. لـ CombSUM/CombMNZ، غالبًا ما يتم استخدام min-max و z-score وغيرها لمواءمة المقاييس؛[28] بينما يعتمد RRF على الرتب فقط كبديل.
  • الترجيح الديناميكي/التكيفي. توجيه الاستعلامات (query routing)، وسمات الاستعلام، ونماذج LTR لاختيار/ترجيح القنوات؛ تُظهر الأعمال الحديثة أن المزيج البسيط المُدرَّب غالبًا ما يتفوق على RRF وهو قليل الحساسية للتطبيع.[29]

إعادة الترتيب وخطوط الأنابيب متعددة المراحل

عادةً ما تُبنى الأنظمة الهجينة على النحو التالي: استرجاع ← دمج ← إعادة ترتيب. لإعادة الترتيب، يتم استخدام:

  • المُشفِّرات المتقاطعة (Cross-encoders) (BERT/T5). هي الأكثر دقة ولكنها مكلفة: MonoBERT/MonoT5 لإعادة ترتيب أفضل N من المرشحين.[30][31]
  • التفاعل المتأخر (Late-interaction) كأداة لإعادة الترتيب. يمكن لعائلة ColBERT أن تعمل أيضًا كأداة لإعادة الترتيب؛ تعمل المسرّعات الحديثة (PLAID, WARP) على تقليل الكمون دون فقدان الجودة.[32][33]

تُعد المقايضة بين الجودة ↔ الكمون/التكلفة مهمة بشكل خاص في أنظمة RAG واتفاقيات مستوى الخدمة (SLA) الصارمة (انظر تأخيرات الذيل p95/p99).[34]

التقييم على المعايير القياسية (Benchmarks)

  • BEIR. مجموعة موحدة من المجموعات/المهام المتنوعة لتقييم أدوات الاسترجاع في سيناريوهات "الصفر طلقات" (zero-shot) أو "خارج النطاق" (out-of-domain) (على سبيل المثال، TREC‑COVID, NFCorpus, NQ, HotpotQA, FiQA‑2018, DBPedia‑entity, ArguAna, Webis‑Touché‑2020, FEVER/Climate‑FEVER, Scidocs, SciFact, CQADupStack وغيرها).[35]
  • TREC Deep Learning / MS MARCO. موارد كلاسيكية لتدريب/تقييم أدوات الاسترجاع وإعادة الترتيب في وضع البيانات الضخمة.[36][37][38]
  • مقاييس الجودة. nDCG@k, Recall@k, MRR؛ وللأداء — الكمون (latency) p50/p95/p99, QPS (استعلام في الثانية)؛ وللتشغيل — الذاكرة/التكلفة (CPU/GPU, الفهرس).[39][40]
  • دراسات الاستئصال (Ablation studies). يُوصى بتحديد مساهمة كل قناة/وزن والحساسية للمعاملات k في RRF و α في المزج؛ وتقييم المتانة ضد إعادة الصياغة والانحرافات خارج التوزيع (OOD).[41][42]

الجوانب الهندسية وممارسات الإنتاج

  • الفهارس والبحث عن أقرب الجيران التقريبي (ANN). FAISS (Flat/HNSW/IVF‑PQ), HNSW, ScaNN للبحث باستخدام MIPS/تشابه جيب التمام.[43][44][45]
  • حزمة استرجاع المعلومات (IR Stack). Lucene/Anserini/Pyserini لخطوط أنابيب البحث المتناثرة والكثيفة والهجينة؛ سهولة إعادة إنتاج النتائج على BEIR.[46][47]
  • قواعد بيانات المتجهات ومحركات البحث. تمتلك Qdrant, Weaviate, pgvector/PostgreSQL, Vespa, Elasticsearch/OpenSearch أوضاعًا أصلية للبحث الهجين (BM25F+vector) و/أو دمج RRF/المزج الخطي.[48][49][50][51][52]
  • نمط RAG. البنية: استرجاع ← دمج ← إعادة ترتيب ← سياق LLM مع تحديد لعدد التوكنات وتتبع المصادر.[53]
  • تحديث الفهارس، إزالة التكرار، التقطيع (Tokenization). من المهم مواءمة عملية التقطيع بين BM25 ومُنشئ المتجهات؛ ومعايرة الدرجات (التطبيع/التحجيم) قبل المزج.[54]

القيود والأسئلة المفتوحة

  • قابلية النقل وتعدد اللغات. النماذج الكثيفة (GTR/E5) تحسن من قابلية النقل ولكنها حساسة للنطاق/اللغة؛ أما النماذج المتناثرة (SPLADE) فغالبًا ما تكون أكثر متانة في مواجهة الانحرافات خارج التوزيع (OOD).[55][56]
  • التكامل مع نماذج اللغة الكبيرة (LLM) والهلوسة. يقلل الاسترجاع الهجين من الإغفالات والضوضاء في سياقات RAG، لكنه لا يقضي على الهلوسة تمامًا؛ هناك حاجة إلى أدوات إعادة ترتيب صارمة وتصفية للمصادر.[57]
  • التكلفة والخصوصية. تخزين فهارس المتجهات المتعددة، والضغط، والتشفير، والحلول المحلية (on-premise)؛ وتقييم التكلفة الإجمالية للملكية (TCO).
  • الاتجاهات الحديثة. HyDE/doc2query/PRF لتوسيع المستندات/الاستعلامات؛[58][59] تعلم المزج (α لكل استعلام)، نماذج تفاعل متأخر أكثر كفاءة (PLAID/WARP)، المستندات الطويلة، وفهارس المتجهات المتعددة.[60][61]

جدول مقارنة للأساليب

حتى تاريخ 2025‑09‑10 (مثال على مجموعة بيانات BEIR trec‑covid؛ nDCG@10 / Recall@100):[62]

مقارنة الأساليب على trec‑covid
الأسلوب النوع (sparse/dense/hybrid) الفكرة/النموذج مخطط الدمج أداة إعادة الترتيب nDCG@10 / R@100 الكمون (نسبي) المصادر
BM25 sparse مطابقة دقيقة للمصطلحات (PRF/BM25) 0.595 / 0.109 منخفض جدًا [63][64]
SPLADE++ (ED) sparse (learned) توسيع/ترجيح متناثر للمصطلحات 0.727 / 0.128 منخفض–متوسط [65][66]
Contriever (MS MARCO FT) dense مشفر مزدوج بالتعلم التبايني 0.596 / 0.091 متوسط [67][68]
BGE‑base‑en‑v1.5 dense مُضمِّن (embedder) عام قوي 0.781 / 0.141 متوسط [69]
Cohere embed‑english‑v3.0 dense نموذج تضمين نصوص صناعي 0.818 / 0.159 متوسط [70]
BM25 + dense (مثال: BM25+BGE) hybrid استرجاع متوازٍ + دمج القوائم RRF (k≈60) أو مزيج موزون اختياري: MonoT5/ColBERT (يختلف حسب التنفيذ؛ عادةً ما يكون أفضل من أفضل قناة منفردة) متوسط [71][72][73]

ملاحظة: السطر الأخير يوضح المخطط؛ الأرقام الدقيقة تعتمد على اختيار المُضمِّن (embedder)، والتطبيع، ومعاملات الدمج (انظر المصادر والبرامج النصية القابلة لإعادة الإنتاج في Pyserini).

مراجع للقراءة

  • Manning, C.D., Raghavan, P., Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978‑0521865715.
  • Robertson, S., Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval 3(4):333–389. DOI:10.1561/1500000019.
  • Lin, J. et al. (2021). Pyserini: A Python Toolkit for Reproducible IR. SIGIR.
  • Järvelin, K., Kekäläinen, J. (2002). Cumulated Gain‑Based Evaluation of IR Techniques. Information Retrieval 6:241–256. DOI:10.1023/A:1016043826386.
  • Dean, J., Barroso, L.A. (2013). The Tail at Scale. CACM 56(2):74–80. DOI:10.1145/2408776.2408794.

روابط خارجية

ملاحظات

  1. Robertson, S., Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval, 3(4), 333–389. DOI:10.1561/1500000019.
  2. Cormack, G.V., Clarke, C.L.A., Büttcher, S. (2009). Reciprocal Rank Fusion Outperforms Condorcet and Individual Rank Learning Methods. SIGIR 2009, 758–759. PDF.
  3. Bruch, S., Gai, S., Ingber, A. (2023). An Analysis of Fusion Functions for Hybrid Retrieval. ACM TOIS 42(1):1–35. DOI:10.1145/3596512 • arXiv:2210.11934.
  4. Manning, C.D., Raghavan, P., Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978‑0521865715 (انظر الفصول حول TF-IDF، والتقييم، ومشكلة vocabulary mismatch).
  5. Izacard, G. et al. (2022). Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever). TACL 10:1089–1108. arXiv:2112.09118.
  6. Wang, L. et al. (2022/2024). Text Embeddings by Weakly‑Supervised Contrastive Pre‑training (E5). arXiv:2212.03533.
  7. Robertson, S., Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond. DOI:10.1561/1500000019.
  8. Formal, T., Piwowarski, B., Clinchant, S. (2021). SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking. arXiv:2107.05720.
  9. Formal, T. et al. (2022). Making Sparse Neural IR Models More Effective. Findings of EMNLP. arXiv:2205.04733.
  10. Formal, T. et al. (2024). SPLADE‑v3: New baselines for SPLADE. arXiv:2403.06789.
  11. Lin, J., Ma, X. (2021). A Few Brief Notes on DeepImpact, COIL, and uniCOIL. arXiv:2106.14807.
  12. Karpukhin, V. et al. (2020). Dense Passage Retrieval for Open‑Domain QA. EMNLP. arXiv:2004.04906.
  13. Xiong, L. et al. (2021). Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval (ANCE). ICLR. arXiv:2007.00808.
  14. Izacard, G. et al. (2022). TACL. arXiv:2112.09118.
  15. Ni, J. et al. (2021/2022). Large Dual Encoders Are Generalizable Retrievers (GTR). EMNLP. arXiv:2112.07899.
  16. Wang, L. et al. (2022/2024). arXiv:2212.03533.
  17. Khattab, O., Zaharia, M. (2020). ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT. SIGIR. arXiv:2004.12832.
  18. Santhanam, K. et al. (2022). ColBERTv2 & PLAID. NAACL/ArXiv. arXiv:2112.01488; arXiv:2205.09707.
  19. Scheerer, J.L. et al. (2025). WARP: An Efficient Engine for Multi‑Vector Retrieval. arXiv:2501.17788.
  20. Lin, J. et al. (2021). Pyserini: A Python Toolkit for Reproducible IR with Sparse and Dense Representations. SIGIR. PDF.
  21. Cormack, G.V., Clarke, C.L.A., Büttcher, S. (2009). SIGIR. PDF.
  22. Elastic Docs. Reciprocal Rank Fusion. (تاريخ الوصول 2025‑09‑10). elastic.co/docs/.../reciprocal-rank-fusion.
  23. OpenSearch Docs. Score ranker processor (RRF). (تاريخ الوصول 2025‑09‑10). docs.opensearch.org/.../score-ranker-processor/.
  24. Fox, E.A., Shaw, J.A. (1994). Combination of Multiple Searches. TREC‑2, NIST SP 500‑215, 243–252. PDF.
  25. Lee, J.H. (1997). Analyses of Multiple Evidence Combination. SIGIR, 267–276. DOI:10.1145/258525.258587.
  26. Hsu, D.F., Taksa, I. (2005). Comparing Rank and Score Combination Methods for Data Fusion in IR. (Tech. report). PDF.
  27. Bruch, S., Gai, S., Ingber, A. (2023). TOIS. DOI:10.1145/3596512.
  28. Hsu, D.F., Taksa, I. (2005). انظر أعلاه.
  29. Bruch, S., Gai, S., Ingber, A. (2023). TOIS. DOI:10.1145/3596512.
  30. Nogueira, R., Cho, K. (2019). Passage Re‑ranking with BERT. arXiv:1901.04085.
  31. Nogueira, R., Jiang, Z., Lin, J. (2020). Document Ranking with a Pretrained Sequence‑to‑Sequence Model (MonoT5). Findings of EMNLP. arXiv:2003.06713.
  32. Santhanam, K. et al. (2022). arXiv:2205.09707.
  33. Scheerer, J.L. et al. (2025). arXiv:2501.17788.
  34. Dean, J., Barroso, L.A. (2013). The Tail at Scale. CACM 56(2):74–80. DOI:10.1145/2408776.2408794.
  35. Thakur, N. et al. (2021). BEIR: A Heterogeneous Benchmark for Zero‑shot Evaluation of IR Models. NeurIPS Datasets & Benchmarks. arXiv:2104.08663.
  36. Craswell, N. et al. (2020). Overview of the TREC 2019 Deep Learning Track. arXiv:2003.07820.
  37. Craswell, N. et al. (2021). Overview of the TREC 2020 Deep Learning Track. arXiv:2102.07662.
  38. Bajaj, P. et al. (2016). MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. arXiv:1611.09268.
  39. Järvelin, K., Kekäläinen, J. (2002). Cumulated Gain‑Based Evaluation of IR Techniques. Information Retrieval 6:241–256. DOI:10.1023/A:1016043826386.
  40. Dean, J., Barroso, L.A. (2013). CACM. DOI:10.1145/2408776.2408794.
  41. Bruch, S. et al. (2023). DOI:10.1145/3596512.
  42. Ni, J. et al. (2021/2022). arXiv:2112.07899.
  43. Johnson, J., Douze, M., Jégou, H. (2017). Billion‑scale Similarity Search with GPUs (FAISS). arXiv:1702.08734.
  44. Malkov, Y., Yashunin, D. (2020). HNSW. IEEE TPAMI 42(4):824–836. DOI:10.1109/TPAMI.2018.2889473.
  45. Guo, R. et al. (2020). ScaNN: Efficient Vector Similarity Search at Scale. arXiv:1908.10396.
  46. Yang, P., Fang, H., Lin, J. (2018). Anserini: Reproducible IR Research with Lucene. JDIQ 10(4):1–20. DOI:10.1145/3239571.
  47. Lin, J. et al. (2021). SIGIR. PDF.
  48. Qdrant Docs. Hybrid queries (RRF, DBSF). (تاريخ الوصول 2025‑09‑10). qdrant.tech/.../hybrid-queries/.
  49. Weaviate Docs. Hybrid search. (تاريخ الوصول 2025‑09‑10). docs.weaviate.io/weaviate/search/hybrid.
  50. pgvector GitHub. (تاريخ الوصول 2025‑09‑10). github.com/pgvector/pgvector.
  51. Vespa Docs. Hybrid Text Search Tutorial. (تاريخ الوصول 2025‑09‑10). docs.vespa.ai/.../hybrid-search.html.
  52. Elastic Docs. Reciprocal Rank Fusion. (تاريخ الوصول 2025‑09‑10). elastic.co/docs/.../rrf.
  53. Lewis, P. et al. (2020). Retrieval‑Augmented Generation for Knowledge‑Intensive NLP Tasks. NeurIPS. arXiv:2005.11401.
  54. Hsu, D.F., Taksa, I. (2005). انظر أعلاه.
  55. Ni, J. et al. (2021/2022). arXiv:2112.07899.
  56. Formal, T. et al. (2021, 2022, 2024). arXiv:2107.05720; 2205.04733; 2403.06789.
  57. Lewis, P. et al. (2020). arXiv:2005.11401.
  58. Gao, L. et al. (2023). Precise Zero‑Shot Dense Retrieval without Relevance Labels (HyDE). ACL. arXiv:2212.10496.
  59. Nogueira, R. et al. (2019). Document Expansion by Query Prediction. arXiv:1904.08375; docTTTTTquery. PDF.
  60. Santhanam, K. et al. (2022). arXiv:2205.09707.
  61. Scheerer, J.L. et al. (2025). arXiv:2501.17788.
  62. Pyserini BEIR Regressions (تاريخ الوصول 2025‑09‑10): نتائج على trec‑covid لـ BM25/SPLADE/Contriever/BGE/Cohere. castorini.github.io/pyserini/2cr/beir.html.
  63. Robertson, S., Zaragoza, H. (2009). DOI:10.1561/1500000019.
  64. Pyserini BEIR. انظر الرابط أعلاه.
  65. Formal, T. et al. (2021, 2022). arXiv:2107.05720; 2205.04733.
  66. Pyserini BEIR.
  67. Izacard, G. et al. (2022). arXiv:2112.09118.
  68. Pyserini BEIR.
  69. Pyserini BEIR.
  70. Pyserini BEIR.
  71. Cormack et al. (2009). SIGIR. RRF.
  72. Bruch et al. (2023). TOIS.
  73. Elastic/OpenSearch RRF Docs.