4 dépôts
Horizontally scalable systems for managing large-scale vector embeddings with replication.
Distinct from Vector Memory Stores: Focuses on the distributed architectural nature rather than AI agent memory specifically
Explore 4 awesome GitHub repositories matching data & databases · Distributed Vector Stores. Refine with filters or upvote what's useful.
Weaviate is a cloud-native vector database and distributed vector store designed to save high-dimensional vectors alongside structured data. It functions as a hybrid search engine that combines vector similarity, keyword matching, and structured metadata filtering within a single query. The system is optimized for retrieval-augmented generation, integrating vector search with generative AI and reranking to power question-and-answer workflows. It distinguishes itself through the ability to merge semantic search with traditional keyword queries and structured metadata filters to improve result
Implements a horizontally scalable, replicated data system for managing large-scale vector embeddings.
DeepLake is AI data infrastructure consisting of a multimodal data lake, a hybrid search engine, and a serverless vector database. It provides a PostgreSQL-based AI data runtime that combines multimodal storage with streaming pipelines to load and shuffle datasets from cloud storage directly into deep learning training pipelines. The system utilizes lazy indexing to store and slice images, audio, and video without loading entire files into memory. It enables retrieval-augmented generation by persisting high-dimensional embeddings in a serverless vector store and implementing hybrid search tha
Provides a serverless vector database for storing high-dimensional embeddings to enable scalable retrieval for language models.
SPTAG est une bibliothèque de recherche de plus proches voisins approximatifs (ANN) par vecteur et un moteur de recherche vectorielle distribué. Il fournit un index vectoriel à grande échelle conçu pour organiser et récupérer des vecteurs similaires à partir de jeux de données massifs en utilisant une recherche de similarité haute performance et des requêtes de proximité. Le système fonctionne comme un gestionnaire d'index vectoriel dynamique, prenant en charge les mises à jour, insertions et suppressions incrémentales de vecteurs sans nécessiter une reconstruction complète de l'index. Il met à l'échelle les opérations de recherche sur plusieurs machines pour gérer des jeux de données à grande échelle et des volumes élevés de requêtes en ligne grâce au traitement distribué des requêtes de recherche. Le projet implémente des capacités de recherche et d'indexation en utilisant des arbres de partitionnement spatial et des graphes de voisinage relatif. Il effectue des recherches de plus proches voisins approximatifs via une traversée itérative de graphes et des calculs de métriques de distance pour localiser les vecteurs les plus proches d'un point de requête.
Scales vector search operations across multiple machines to handle extremely large datasets and online requests.
Ce dépôt est un site de documentation technique et une collection de guides et références pour l'implémentation de services de mise en réseau, de sécurité et d'infrastructure cloud. Il fonctionne comme un portail généré par site statique et une plateforme de contenu headless, séparant les fichiers sources de la couche de présentation pour permettre un rendu flexible. Le projet utilise une documentation basée sur le markdown stockée dans un dépôt Git versionné. Il fournit un contenu technique spécialisé, incluant une documentation de plateforme d'IA pour construire des agents et gérer l'inférence, un guide d'infrastructure cloud pour la configuration DNS et CDN, une référence d'edge computing pour le déploiement serverless, et une documentation de sécurité réseau pour le Zero Trust et la gestion de pare-feu.
Provides globally distributed SQL and key-value stores for direct querying from serverless functions.