Vector database — قواعد البيانات المتجهية

From Systems analysis wiki
Jump to navigation Jump to search

قواعد البيانات المتجهية (Vector Databases) هي أنظمة تخزين وبحث متخصصة، مُحسَّنة للتعامل مع التمثيلات العددية عالية الأبعاد (المتجهات) للبيانات غير المهيكلة[1]. في سياق نماذج اللغة الكبيرة (LLM)، توفر هذه القواعد بحثًا دلاليًا فعالًا، وتُعد مكونًا أساسيًا في أنظمة الذكاء الاصطناعي الحديثة، خاصة في معمارية RAG.

على عكس قواعد البيانات العلائقية التقليدية التي تركز على المطابقات الدقيقة، تتخصص قواعد البيانات المتجهية في البحث التقريبي عن أقرب الجيران (Approximate Nearest Neighbor, ANN)، حيث تعثر على الكائنات المتقاربة دلاليًا في فضاء عالي الأبعاد[2].

أسس قواعد البيانات المتجهية

Embeddings - التضمينات المتجهية

التضمينات المتجهية (embeddings) هي تمثيلات عددية للنصوص والصور والصوت وأنواع البيانات الأخرى على شكل متجهات. يتمثل المبدأ الأساسي في أن الكائنات المتقاربة دلاليًا (مثل الكلمات ذات المعاني المتشابهة) تقع بالقرب من بعضها البعض في هذا الفضاء المتجهي[3].

تُنشأ التضمينات النصية الحديثة باستخدام نماذج تعتمد على معمارية المحولات (transformer)، والتي تطبق آليات الانتباه الذاتي (self-attention) لفهم السياق. تتراوح أبعاد هذه التمثيلات بين 256 و1024 بُعدًا أو أكثر لمعظم النماذج الحديثة[4].

مقاييس التشابه

لقياس «المسافة» أو التشابه بين المتجهات، تُستخدم مقاييس مختلفة:

  • تشابه جيب التمام (cosine similarity): يقيس جيب تمام الزاوية بين متجهين. وهو فعال بشكل خاص للتضمينات النصية، لأنه يأخذ في الاعتبار اتجاه المتجهات وليس حجمها[5].
  • المسافة الإقليدية (L2): المسافة المستقيمة القياسية بين نقطتين في الفضاء.
  • الضرب القياسي (dot product): يشبه تشابه جيب التمام ولكنه غير مُعاير[6].

خوارزميات الفهرسة

للبحث السريع في الفضاءات عالية الأبعاد، تُستخدم خوارزميات ANN متخصصة.

HNSW (Hierarchical Navigable Small World) - العالم الصغير الهرمي الملاحي

تستخدم خوارزمية HNSW مفهوم «العالم الصغير» وهيكلًا هرميًا متعدد الطبقات من الرسوم البيانية. تحتوي الطبقات العليا على روابط طويلة للتنقل السريع عبر الفضاء (بحث تقريبي)، بينما تحتوي الطبقات الدنيا على روابط قصيرة للعثور على الجيران بدقة. تُظهر HNSW تعقيدًا زمنيًا لوغاريتميًا O(log N) وتُعد الخيار المفضل لمعظم قواعد البيانات المتجهية الحديثة[7].

IVF (Inverted File) - الملف المقلوب

تقوم خوارزمية IVF بتقسيم الفضاء إلى مجموعات باستخدام عنقدة k-means. يتم البحث في عدد محدود من أقرب المجموعات، مما يسرّع العملية بشكل كبير. عادةً ما يتم اختيار عدد المجموعات ليكون √N، حيث N هو العدد الإجمالي للمتجهات في مجموعة البيانات[8].

LSH (Locality-Sensitive Hashing) - التجزئة الحساسة للموقع

تستخدم خوارزمية LSH عائلة من دوال التجزئة التي تولّد، باحتمالية عالية، نفس قيم التجزئة للمتجهات المتقاربة. وهذا يسمح بتجميع الكائنات المتشابهة بسرعة[9].

قواعد البيانات المتجهية الشائعة

  • Pinecone: قاعدة بيانات متجهية سحابية مُدارة بالكامل مع معمارية بدون خادم (serverless).
  • Qdrant: قاعدة بيانات عالية الأداء مكتوبة بلغة Rust، تدعم الترشيح المتقدم والمعاملات المتوافقة مع ACID.
  • Milvus: قاعدة بيانات مفتوحة المصدر وقابلة للتطوير ذات معمارية سحابية أصلية (cloud-native). تدعم العديد من أنواع الفهارس، بما في ذلك الخيارات المسرَّعة بوحدة معالجة الرسومات (GPU).
  • Weaviate: قاعدة بيانات متجهية مفتوحة المصدر مع واجهة برمجة تطبيقات GraphQL ودعم للرسوم البيانية المعرفية.
  • Chroma: قاعدة بيانات خفيفة الوزن مفتوحة المصدر، مُحسَّنة للنماذج الأولية السريعة والتجارب.
  • FAISS: مكتبة من Meta، وهي ليست قاعدة بيانات متكاملة، لكنها توفر خوارزميات فهرسة عالية الأداء للبيانات الثابتة.

التطبيق مع LLM: معمارية RAG

التوليد المعزز بالاسترجاع (Retrieval-Augmented Generation - RAG) هي معمارية يتم فيها تزويد نموذج اللغة الكبير (LLM) بقاعدة معرفية خارجية عبر البحث المتجهي. تتكون أنظمة RAG من مكونين رئيسيين[10]:

  1. المُسترجِع (Retriever): مكون البحث الذي يستخدم قاعدة بيانات متجهية للعثور على المعلومات ذات الصلة بطلب المستخدم.
  2. المُوَلِّد (Generator): نموذج لغة كبير يستخدم الطلب الأصلي والمعلومات التي عثر عليها المُسترجِع لتوليد الإجابة.

لتحقيق أداء فعال في RAG، يُستخدم البحث الهجين — وهو مزيج من البحث الدلالي (المتجهي) والبحث المعجمي (القائم على الكلمات المفتاحية، مثل BM25)، مما يضمن نتائج أكثر دقة وصلة.

الاتجاهات والتطور المستقبلي

يشهد سوق قواعد البيانات المتجهية نموًا هائلاً، حيث يُتوقع أن يرتفع من 1.98 مليار دولار في عام 2023 إلى 7.13 مليار دولار بحلول عام 2029 (بمعدل نمو سنوي مركب يبلغ 23.7%)[11]. تشمل اتجاهات التطوير الرئيسية ما يلي:

  • الأنظمة متعددة الوسائط: دعم البحث المتزامن عبر النصوص والصور والصوت والفيديو في فضاء متجهي واحد.
  • التحسين التلقائي: استخدام ML لاختيار الفهارس والمعلمات المثلى تلقائيًا.
  • الحوسبة الطرفية (Edge computing): تطوير حلول مدمجة للأجهزة المحمولة وأجهزة إنترنت الأشياء (IoT).
  • الحوسبة الكمومية: إمكانية تسريع بحث التشابه بشكل كبير.
  • الرقائق العصبية الشكل (Neuromorphic chips): محاكاة عمل الدماغ لتحقيق استهلاك طاقة منخفض للغاية عند إجراء عمليات البحث.

روابط خارجية

مراجع للقراءة

  • Malkov, Y.A.; Yashunin, D.A. (2016). Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs. arXiv:1603.09320.
  • Johnson, J.; Douze, M.; Jégou, H. (2017). Billion-Scale Similarity Search with GPUs. arXiv:1702.08734.
  • Datar, M. et al. (2004). Locality-Sensitive Hashing Scheme Based on p-Stable Distributions. SoCG 2004 paper.
  • Guo, N. et al. (2020). ScaNN: Efficient Vector Similarity Search at Scale. In: Proc. ACM SIGKDD 2020, pp. 1571-1580. DOI:10.1145/3394486.3403339.
  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
  • Wang, X. et al. (2021). Milvus: A Purpose-Built Vector Data Management System. In: SIGMOD 2021. DOI:10.1145/3448016.3457550.
  • Lee, J. et al. (2022). OOD-DiskANN: Efficient and Scalable Graph ANNS for Out-of-Distribution Queries. arXiv:2211.12850.
  • Fan, D. et al. (2023). Survey of Vector Database Management Systems. arXiv:2310.14021.
  • Ren, R. et al. (2024). Survey of Filtered Approximate Nearest Neighbor Search over Vector-Scalar Hybrid Data. arXiv:2505.06501.
  • Zhao, H. et al. (2024). Starling: An I/O-Efficient Disk-Resident Graph Index Framework for High-Dimensional Vector Similarity Search. arXiv:2401.02116.
  • Liu, Y. et al. (2025). Memory-Efficient Similarity Search at Billion-Scale: A Taxonomy and Analysis of Vector Compression Techniques. ResearchGate preprint.

المراجع

  1. «What Is a Vector Database?». CloudRaft. [١]
  2. «What is a Vector Database?». Qdrant Blog. [٢]
  3. «What Are Vector Embeddings?». LakeFS. [٣]
  4. «What are embeddings?». Zilliz. [٤]
  5. Sahoo, A., Maiti, J. «A Comparative Study of Similarity Metrics for Textual Embeddings». arXiv:2501.01234. [٥]
  6. «Vector search and dense vector fields». Elastic. [٦]
  7. Malkov, Y. A., Yashunin, D. A. «Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs». arXiv:1603.09320. [٧]
  8. «The index IVF». FAISS Wiki. [٨]
  9. Datar, M., et al. «Locality-Sensitive Hashing Scheme Based on p-Stable Distributions». Symposium on Computational Geometry. [٩]
  10. Lewis, P., et al. «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks». arXiv:2005.11401. [١٠]
  11. «Vector Database Global Market Report 2024». The Business Research Company. [١١]