Hypothetical Document Embeddings (HyDE) — توسيع المستند الافتراضي
Hypothetical Document Expansion (HyDE) — هي طريقة لتحسين الاسترجاع المتجهي وتوليد معزز بالاسترجاع (RAG)، حيث يقوم نموذج لغة كبير (LLM) بتوليد «مستند افتراضي» بناءً على الاستعلام الأصلي؛ ثم يتم تحويل هذا النص إلى متجه بواسطة مُشفِّر، ويتم البحث في المستندات الحقيقية بناءً على قربها من المتجه الناتج. يسمح هذا النهج باستخدام «أنماط الصلة» المُشفَّرة بواسطة نموذج اللغة الكبير و«ربطها» بمجموعة المستندات باستخدام التضمينات الكثيفة[1].
التعريف والحدس
تقوم طريقة HyDE بتقسيم مهمة البحث إلى مرحلتين:
(1) يقوم نموذج اللغة الكبير (LLM) بإنشاء «مثال لإجابة ذات صلة» (hypothetical document) للاستعلام، مما يؤدي إلى نمذجة سمات الصلة؛
(2) يقوم مُشفِّر تبايني (مثل Contriever) بتحويل هذا النص إلى متجه، يتم من خلاله استرجاع المستندات الحقيقية من الفهرس. قد يحتوي النص المُولَّد على أخطاء واقعية، ولكن الأهم هو الأنماط الموضوعاتية والمصطلحية التي يلتقطها المُشفِّر[2].
التاريخ والمصادر
تعود فكرة توسيع البحث بالنصوص الاصطناعية إلى الأعمال المتعلقة بتوسيع الاستعلام والتغذية الراجعة بالصلة الزائفة (PRF): خوارزمية روكيو ونماذج اللغة للصلة[3][4]. بالنسبة للاسترجاع الكثيف، تم استخدام المُشفِّرات المُدرَّبة بشكل تبايني (Contriever)[5] و Dense Passage Retrieval (DPR)[6]. وقام معيار القياس BEIR بتوحيد التقييم بدون أي أمثلة (zero‑shot)[7]. على هذه الخلفية، تم اقتراح HyDE كطريقة «لإدخال» معرفة الصلة في وضع zero-shot عبر LLM دون الحاجة إلى إعادة تدريب المُشفِّر[8].
الطريقة والصياغة الرياضية
لنفترض أن لدينا مجموعة مستندات ، ومُشفِّر نصوص يُنشئ تمثيلات متجهية للمستندات . لقياس التقارب، يُستخدم إما تشابه جيب التمام أو الضرب القياسي؛ ملاحظة هامة: **يتطابق الضرب القياسي مع تشابه جيب التمام فقط عندما يكون معيار L2 لكلا المتجهين مساويًا للواحد** ()[9].
تعيد HyDE تعريف تمثيل الاستعلام من خلال «مستند افتراضي» يتم توليده بواسطة LLM. رياضيًا:
حيث هو LLM مع تعليمة (على سبيل المثال: «اكتب فقرة تجيب على السؤال...»)، هو مقياس التشابه (جيب التمام أو الضرب القياسي مع التسوية)، و هي مجموعة من مستندًا بأعلى تشابه[10][11].
في الممارسة الهندسية، غالبًا ما يتم توليد **عدة** نصوص افتراضية وتجميع تمثيلاتها، مما يزيد من استقرار الطريقة:
حيث هي معلمات فك التشفير العشوائية (مثل temperature/top‑p). يعمل هذا التجميع (ensembling) على تحسين مقياس الاستدعاء (Recall) مع زيادة معقولة في زمن الاستجابة[12].
مسار العمل الأساسي لـ HyDE
# 1) prompt(query) -> hypothetical_doc # 2) embed(hypothetical_doc) -> v_h # 3) retrieve(index, v_h, k) -> candidates # 4) (optional) rerank(query, candidates) -> topN # 5) (для RAG) stuff / map-reduce / refine на topN
العلاقة بالطرق الأخرى (QE, doc2query, PRF)
- QE (توسيع الاستعلام) تضيف مصطلحات إلى الاستعلام؛ أما HyDE فتولد «شبه مستند» كامل بدلاً من ذلك، وهو ما يتوافق بشكل أفضل مع المُشفِّرات الكثيفة[13].
- doc2query / docTTTTTquery تقوم بتوسيع المستندات باستعلامات اصطناعية قبل الفهرسة[14][15]؛ بينما تقوم HyDE بتوسيع الاستعلام بشكل فوري، دون الحاجة إلى إعادة الفهرسة.
- PRF (Rocchio, Relevance LM) تقوم بتحديث متجه الاستعلام بناءً على النتائج الأعلى ترتيبًا؛ بينما تستخرج HyDE «نمط الصلة» مباشرة من LLM ثم «تربطه» بالمستندات من خلال الاسترجاع من مجموعة المستندات[16].
التكامل مع RAG وإعادة الترتيب
في RAG، تُطبق HyDE كخطوة أولى في الاسترجاع: مستند افتراضي ← تضمين ← k من المرشحين. بعد ذلك، تُستخدم إعادة الترتيب: المُشفِّرات المتقاطعة من فئة BERT[17] أو التفاعل المتأخر لـ ColBERT[18]. لدمج القوائم (على سبيل المثال، الهجين BM25+vector)، يُستخدم عادةً RRF (reciprocal rank fusion): تعمل طريقة RRF على تحسين الجودة الإجمالية للترتيبات المدمجة بشكل مستمر[19].
التقييم على معايير القياس (BEIR وغيرها)
تقيّم الورقة الأصلية HyDE في وضع zero-shot على TREC DL’19/20 (بحث الويب) وعلى مجموعة فرعية من مجموعات بيانات BEIR (Scifact, ArguAna, TREC‑COVID, FiQA, DBPedia, TREC‑NEWS, Climate‑FEVER). جزء من النتائج — حتى تاريخ يوليو 2023:
| الطريقة | DL19 | DL20 | المصدر |
|---|---|---|---|
| BM25 | 30.1 / 50.6 / 75.0 | 28.6 / 48.0 / 78.6 | [20] |
| Contriever (unsup.) | 24.0 / 44.5 / 74.6 | 24.0 / 42.1 / 75.4 | [21] |
| HyDE (Contriever+LLM) | 41.8 / 61.3 / 88.0 | 38.2 / 57.9 / 84.4 | [22] |
| DPR (ft) | 36.5 / 62.2 / 76.9 | 41.8 / 65.3 / 81.4 | [23] |
| ANCE (ft) | 37.1 / 64.5 / 75.5 | 40.8 / 64.6 / 77.6 | [24] |
| الطريقة | Scifact | ArguAna | TREC‑COVID | FiQA | DBPedia | TREC‑NEWS | Climate‑FEVER | المصدر |
|---|---|---|---|---|---|---|---|---|
| BM25 | 67.9 / 92.5 | 39.7 / 93.2 | 59.5 / 49.8 | 23.6 / 54.0 | 31.8 / 46.8 | 39.5 / 44.7 | 16.5 / 42.5 | [25] |
| Contriever | 64.9 / 92.6 | 37.9 / 90.1 | 27.3 / 17.2 | 24.5 / 56.2 | 29.2 / 45.3 | 34.8 / 42.3 | 15.5 / 44.1 | [26] |
| HyDE | 69.1 / 96.4 | 46.6 / 97.9 | 59.3 / 41.4 | 27.3 / 62.1 | 36.8 / 47.2 | 44.0 / 50.9 | 22.3 / 53.0 | [27] |
تعمل HyDE أيضًا على تحسين MRR@100 على مجموعات البيانات متعددة اللغات Mr.TyDi (sw/ko/ja/bn) مقارنةً بـ mContriever[28].
توصيات عملية
- متى تستخدم HyDE
- في أوضاع zero-shot أو النقل (transfer learning) (عند عدم وجود تسميات صلة؛ أو عند وجود «اختلاف» في المجال عن مجموعات بيانات التدريب)[29].
- عندما يكون المطلوب هو زيادة Recall@k بدقة مقبولة — غالبًا ما «تكتشف» HyDE مناطق ذات صلة في الفضاء المتجهي[30].
- الإعدادات النموذجية
- LLM والمُوجِّه: تعليمة مثل «اكتب فقرة تجيب على السؤال...»؛ عشوائية معتدلة (على سبيل المثال، temperature≈0.7)[31].
- عدد النصوص الافتراضية: 1–5؛ متوسط التضمينات يزيد من الاستقرار[32].
- أداة التضمين: (m)Contriever دون إعادة تدريب؛ يمكن استخدام مُشفِّرات مُدرَّبة مسبقًا (يظل تأثير HyDE قائمًا)[33].
- تسوية التضمينات: معيار L2؛ الضرب القياسي يعادل تشابه جيب التمام[34].
- الاسترجاع الهجين: BM25+vector مع إعادة ترتيب لاحقة[35].
- أداة إعادة الترتيب: Cross-Encoder (BERT re‑ranker)[36] أو ColBERT[37].
- دمج النتائج من استراتيجيات مختلفة: RRF (k≈60)[38].
- مراقبة الجودة والتكلفة
- الاسترجاع: nDCG@k, Recall@k, MRR؛ RAG متكامل: EM/F1 أو مقاييس groundedness (RAGAS/TruLens)[39][40].
- التكلفة/زمن الاستجابة: يهيمن على هذه المقاييس توليد LLM وإعادة الترتيب (إن وجدت)؛ يمكن تحسينها من خلال التحكم في عدد «الافتراضيات» وطول الإجابة[41].
القيود والأسئلة المفتوحة
- الهلوسات في النص الافتراضي: قد يُدخل LLM أخطاء واقعية؛ «الربط» من خلال المُشفِّر ومجموعة المستندات يقلل من المخاطر، لكنه لا يزيلها بالكامل[42].
- القيود المتعلقة بالمجال واللغة: يقل مكسب HyDE في المجالات شديدة التخصص واللغات ذات الموارد المحدودة[43].
- زمن الاستجابة والتكلفة: يضيف توليد LLM تأخيرًا وتكلفة مرتبطة بعدد التوكنز؛ وهو أمر حاسم للسيناريوهات الفورية و«الافتراضيات» الطويلة[44].
- الأخلاقيات والانحيازات: يُفضل استخدام نماذج لغة كبيرة آمنة وتطبيق الترشيح[45].
جدول مقارنة الطرق
| الطريقة | الفئة | أين يتم توليد النص | المُشفِّر/الفهرس | أداة إعادة الترتيب (المرحلة الثانية) | مقاييس نموذجية (مثال) | التكلفة/زمن الاستجابة | المصادر |
|---|---|---|---|---|---|---|---|
| HyDE | Query→hypo‑doc | جانب الاستعلام (LLM → فقرة) | (m)Contriever; ANN | BERT re‑rank / ColBERT / RRF | DL19 nDCG@10≈61.3; DL20≈57.9; ArguAna nDCG@10≈46.6 | + توليد LLM؛ + إعادة ترتيب (اختياري) | [46] |
| BM25 | معجمي | — | فهرس مقلوب | اختياري | انظر الجدول (أعلاه) | منخفضة (معجمية) | [47] |
| DPR / ANCE | كثيف (ft) | — | Bi‑encoder; ANN | اختياري | DL19 nDCG@10≈62–65 | متوسطة (بدون LLM) | [48][49] |
| doc2query / docTTTTTquery | توسيع المستند | جانب مجموعة المستندات (قبل الفهرسة) | BM25/sparse+expanded | اختياري | تحسينات على BM25 في MS MARCO | توليد عالٍ في وضع عدم الاتصال؛ سريع في وضع الاتصال | [50][51] |
| PRF (Rocchio, RLM) | QE عبر التغذية الراجعة | الاستعلام (بناءً على النتائج الأعلى) | أي نوع | اختياري | زيادة Recall/مخاطر الانحراف | + جولة استرجاع إضافية | [52] |
انظر أيضًا
- BM25
- البحث بالتمثيلات المتجهية
- RAG
- التغذية الراجعة بالصلة الزائفة
- BEIR
المراجع
- Manning, C. D.; Raghavan, P.; Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978‑0521865715.
- Robertson, S.; Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in IR, 3(4), 333–389. DOI:10.1561/1500000019.
روابط خارجية
- مستودع HyDE: github.com/texttron/hyde.
- التوثيق: Haystack — HyDE: docs.haystack.deepset.ai.
- التوثيق: LangChain — HyDE Retriever: docs.langchain.com.
ملاحظات
- ↑ Gao, L.; Ma, X.; Lin, J.; Callan, J. (2023). ‘‘Precise Zero‑Shot Dense Retrieval without Relevance Labels (HyDE)’’. ACL 2023. pp. 1762–1777. DOI:10.18653/v1/2023.acl-long.99. arXiv:2212.10496
- ↑ Gao, L. et al. (2023). ACL 2023, §3.2. DOI:10.18653/v1/2023.acl-long.99.
- ↑ Rocchio, J. (1971). ‘‘Relevance Feedback in Information Retrieval’’. In: Salton, G. (ed.) The SMART Retrieval System. Prentice‑Hall, pp. 313–323. ISBN 978‑0138145255.
- ↑ Lavrenko, V.; Croft, W. B. (2001). ‘‘Relevance‑Based Language Models’’. SIGIR. DOI:10.1145/383952.383972.
- ↑ Izacard, G. et al. (2021/2022). ‘‘Unsupervised Dense Information Retrieval with Contrastive Learning’’. arXiv:2112.09118.
- ↑ Karpukhin, V. et al. (2020). ‘‘Dense Passage Retrieval for Open‑Domain QA’’. EMNLP. DOI:10.18653/v1/2020.emnlp-main.550.
- ↑ Thakur, N. et al. (2021). ‘‘BEIR: A Heterogeneous Benchmark for Zero‑shot Evaluation of Information Retrieval Models’’. NeurIPS Datasets Track. arXiv:2104.08663.
- ↑ Gao, L. et al. (2023). DOI:10.18653/v1/2023.acl-long.99.
- ↑ Milvus Docs. ‘‘Similarity Metrics’’ — при L2‑нормализации векторов внутр. произведение эквивалентно косинусу. URL: https://milvus.io/docs/v2.2.x/metric.md
- ↑ Gao, L.; Ma, X.; Lin, J.; Callan, J. (2023). ‘‘Precise Zero‑Shot Dense Retrieval without Relevance Labels (HyDE)’’. ACL 2023, §3–4. arXiv:2212.10496. DOI:10.18653/v1/2023.acl-long.99.
- ↑ Izacard, G. et al. (2021/2022). ‘‘Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever)’’. arXiv:2112.09118.
- ↑ Gao, L. et al. (2023). Прил. (ablation): влияние числа гипотетических текстов и параметров генерации. arXiv:2212.10496.
- ↑ Gao, L. et al. (2023). DOI:10.18653/v1/2023.acl-long.99.
- ↑ Nogueira, R. et al. (2019). ‘‘Document Expansion by Query Prediction’’ (doc2query). arXiv:1904.08375.
- ↑ Nogueira, R.; Lin, J. (2019). ‘‘From doc2query to docTTTTTquery’’ (tech report). PDF
- ↑ Rocchio, J. (1971); Lavrenko & Croft (2001), см. выше.
- ↑ Nogueira, R.; Cho, K. (2019). ‘‘Passage Re‑ranking with BERT’’. arXiv:1901.04085.
- ↑ Khattab, O.; Zaharia, M. (2020). ‘‘ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT’’. SIGIR. DOI:10.1145/3397271.3401075; arXiv:2004.12832.
- ↑ Cormack, G. V.; Clarke, C. L. A.; Büttcher, S. (2009). ‘‘Reciprocal Rank Fusion Outperforms Condorcet and Nearly Optimally Combines Rankings’’. SIGIR. DOI:10.1145/1571941.1572114.
- ↑ Gao, L. et al. (2023). Табл. 1. DOI:10.18653/v1/2023.acl-long.99.
- ↑ Izacard, G. et al. (2022); сводные метрики — в Gao et al., 2023, табл. 1. arXiv:2112.09118.
- ↑ Gao, L. et al. (2023). Табл. 1.
- ↑ Karpukhin, V. et al. (2020); сводные — в Gao et al., 2023.
- ↑ Xiong, L. et al. (2021). ICLR. arXiv:2007.00808.
- ↑ Thakur, N. et al. (2021); сводные — в Gao et al., 2023, табл. 2. arXiv:2104.08663.
- ↑ Izacard, G. et al. (2022); сводные — в Gao et al., 2023, табл. 2.
- ↑ Gao, L. et al. (2023). Табл. 2.
- ↑ Gao, L. et al. (2023). Табл. 3. DOI:10.18653/v1/2023.acl-long.99.
- ↑ Gao, L. et al. (2023). §4–5.
- ↑ Gao, L. et al. (2023). §4.2–4.3.
- ↑ Gao, L. et al. (2023). §4.1.
- ↑ Haystack Docs. ‘‘Hypothetical Document Embeddings (HyDE)’’ (инженерная справка). docs.haystack.deepset.ai
- ↑ Gao, L. et al. (2023). Табл. 6.
- ↑ Milvus Docs. ‘‘Similarity Metrics’’.
- ↑ Haystack × Milvus Integration (официальная док.). haystack.deepset.ai
- ↑ Nogueira, R.; Cho, K. (2019). arXiv:1901.04085.
- ↑ Khattab, O.; Zaharia, M. (2020). DOI:10.1145/3397271.3401075.
- ↑ Cormack, G. V. et al. (2009). DOI:10.1145/1571941.1572114.
- ↑ Manning, C. D.; Raghavan, P.; Schütze, H. (2008). Introduction to Information Retrieval. Cambridge Univ. Press. ISBN 978‑0521865715.
- ↑ Es, S. et al. (2023). ‘‘RAGAS: Automated Evaluation of Retrieval‑Augmented Generation’’. arXiv:2309.15217.
- ↑ Gao, L. et al. (2023). §5.
- ↑ Gao, L. et al. (2023). §3.2; §4.1. DOI:10.18653/v1/2023.acl-long.99.
- ↑ Gao, L. et al. (2023). Табл. 3; §4.4.
- ↑ Gao, L. et al. (2023). §4–5.
- ↑ Ouyang, L. et al. (2022). ‘‘Training language models to follow instructions with human feedback (InstructGPT)’’. NeurIPS. arXiv:2203.02155.
- ↑ Gao, L. et al. (2023). Табл. 1–2.
- ↑ Robertson, S.; Zaragoza, H. (2009). ‘‘The Probabilistic Relevance Framework: BM25 and Beyond’’. Found. Trends IR. DOI:10.1561/1500000019.
- ↑ Karpukhin, V. et al. (2020). DOI:10.18653/v1/2020.emnlp-main.550.
- ↑ Xiong, L. et al. (2021). arXiv:2007.00808.
- ↑ Nogueira, R. et al. (2019). arXiv:1904.08375.
- ↑ Nogueira, R.; Lin, J. (2019). tech report.
- ↑ Rocchio, J. (1971). SMART; Lavrenko & Croft (2001) SIGIR.