12 dépôts
Capabilities for retrieving related data across multiple tables.
Distinguishing note: Focuses on automatic join mapping and filtering.
Explore 12 awesome GitHub repositories matching data & databases · Join Operations. Refine with filters or upvote what's useful.
TypeORM is an object-relational mapper for TypeScript and JavaScript that bridges the gap between object-oriented application code and relational database tables. It provides a comprehensive data persistence layer that allows developers to define database entities using class decorators or configuration objects, enabling seamless interaction with data through object-oriented patterns. The project distinguishes itself through a flexible architecture that supports both the data mapper and repository patterns, alongside a fluent query builder that translates high-level method calls into platform
Retrieves related data automatically using join expressions with custom mapping.
Entity Framework Core is an object-relational mapper that enables developers to interact with database systems using strongly-typed code. It serves as a comprehensive data access framework, providing a unified interface for mapping application objects to relational and non-relational database schemas while managing the lifecycle of data operations through a central context. The project distinguishes itself through a provider-based architecture that decouples core data access logic from specific database engines, allowing for consistent interaction across diverse storage systems. It features a
Executes left join operations by identifying patterns to include records even when no matching inner data exists.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Executes subqueries in filters first to resolve values and applies indexes, or converts eligible joins into semi-joins to prevent redundant row processing.
Ce projet est un guide complet de préparation aux entretiens techniques et une base de connaissances en informatique. Il sert de ressource d'étude structurée conçue pour aider les ingénieurs logiciels à réviser les concepts d'ingénierie fondamentaux et à se préparer aux évaluations de codage professionnelles. Le dépôt se concentre sur un large éventail de domaines théoriques et pratiques, incluant des références détaillées sur l'architecture des applications mobiles et les fondamentaux des systèmes d'exploitation. Il fournit des matériaux sélectionnés sur les modèles d'architecture logicielle et l'analyse des protocoles réseau pour soutenir le développement professionnel. Le contenu couvre des capacités fondamentales telles que les structures de données et les algorithmes, la concurrence et le multithreading, et la gestion de la mémoire. Il inclut également des approfondissements sur l'architecture système, notamment la planification des processus, la communication inter-processus et l'optimisation du rendu UI.
Discusses optimizing the join execution pipeline to accelerate linking related data across tables.
Zombodb est une extension de base de données et un indexeur de données relationnelles qui intègre PostgreSQL avec Elasticsearch. Il fournit une interface de recherche SQL, permettant aux utilisateurs d'exécuter des requêtes de recherche complexes et des agrégations en utilisant des fonctions et une syntaxe SQL standard au lieu d'API JSON natives. Le projet synchronise les données relationnelles de PostgreSQL vers un moteur de recherche distant pour permettre une recherche plein texte et des analyses haute performance. Le système se distingue en reliant les structures relationnelles aux capacités des moteurs de recherche, spécifiquement via l'intégration de recherche géospatiale pour les types géométriques et géographiques. Il implémente une couche de mappage de requête SQL-vers-JSON qui permet une analyse de texte avancée — incluant la correspondance floue, les recherches de proximité et le scoring de pertinence — directement dans un environnement relationnel. Le projet couvre de larges domaines de capacités incluant la gestion du cycle de vie des index, la synchronisation automatisée des données relationnelles et des agrégations analytiques complexes. Il prend en charge l'indexation spatiale pour les requêtes basées sur la localisation, des pipelines d'analyse de texte personnalisés et des outils de surveillance pour auditer les statistiques d'index et la santé du cluster. La sécurité est gérée via des connexions chiffrées entre la base de données et le moteur de recherche utilisant TLS.
Improves performance for complex queries spanning multiple indices via coordination with a search accelerator.
MiniOB is an open-source educational relational database kernel designed for learning the internals of database systems. It implements a dual-engine storage architecture combining B+ Tree and LSM-Tree, supports SQL parsing and query execution, and provides transactional processing with multi-version concurrency control. The system communicates with clients using the MySQL wire protocol and includes a vector database extension for storing and querying high-dimensional vectors. The project distinguishes itself through its comprehensive coverage of core database concepts in a single, learnable c
Evaluate alternative join sequences using cost estimates or heuristic rules to select the most efficient plan.
Velox est un moteur d'exécution de requêtes C++ haute performance et une bibliothèque de traitement de données colonnaires. Il sert de framework composable pour implémenter des moteurs de requêtes analytiques, fournissant un évaluateur d'expressions vectorisées et une boîte à outils pour les systèmes de gestion de données. Le projet se distingue par son utilisation de l'exécution colonnaire vectorisée et de l'allocation mémoire basée sur des arènes pour traiter des jeux de données à grande échelle. Il propose des optimisations spécialisées telles que la mise en cache des tables de jointure broadcast, le push-down de filtres dynamiques et l'encodage par dictionnaire pour réduire la surcharge mémoire et accélérer les lectures analytiques. Le moteur couvre un large éventail de capacités analytiques, incluant l'implémentation de jointures hash, merge et semi, ainsi que l'agrégation parallèle multi-étapes et le calcul de fonctions de fenêtre. Il fournit des primitives pour le stockage colonnaire en mémoire, le décodage de données Parquet et l'intégration avec le stockage cloud. L'extensibilité est assurée par un système d'enregistrement de fonctions pour des fonctions scalaires et d'agrégation personnalisées, avec des bindings de haut niveau disponibles pour connecter la logique C++ à Python.
Implements specific flags to treat null values as either distinct or matching during join operations.
Ce projet est un framework de traitement de données tabulaires haute performance pour R, conçu pour gérer des jeux de données massifs avec efficacité mémoire et vitesse. Il fournit une structure de données améliorée qui utilise la sémantique de référence et la modification sur place pour effectuer des transformations complexes sans la surcharge de copies d'objets inutiles. La bibliothèque se distingue par ses optimisations architecturales de bas niveau, incluant le traitement parallèle multi-threadé, le tri basé sur radix et l'analyse de fichiers mappés en mémoire. En déchargeant les routines critiques de manipulation et d'agrégation de données vers du code C compilé, elle permet une exécution rapide des tâches qui seraient autrement coûteuses en calcul. Son moteur principal prend en charge des opérations relationnelles avancées, telles que les jointures non-équi, glissantes et à intervalles chevauchants, parallèlement à l'indexation secondaire automatique pour accélérer l'accès répété aux données. Au-delà de ses capacités de traitement principales, le projet offre une suite complète d'outils pour la gestion du cycle de vie des données. Cela inclut des utilitaires d'ingestion et de sérialisation à haute vitesse avec détection automatique de type, ainsi qu'un support spécialisé pour l'analyse de séries temporelles et l'agrégation multidimensionnelle. Le framework est conçu pour évoluer, permettant aux utilisateurs d'effectuer des opérations complexes de regroupement, de filtrage et de remodelage sur des jeux de données contenant des milliards de lignes tout en maintenant la stabilité et les performances du système.
Blocks joins that would result in an explosive number of rows to protect system memory.
USearch is a high-performance vector similarity search engine and approximate nearest neighbor index designed for dense embeddings. It functions as a low-level vector database core and high-dimensional vector indexer, providing the primitives necessary to store and retrieve vectors across massive datasets. The engine distinguishes itself through hardware-level SIMD acceleration for distance kernels and a proximity-graph indexing system that enables fast retrieval across billions of vectors. It supports multi-precision vector quantization to balance memory usage and accuracy, and utilizes memo
Creates mappings between two large vector datasets using approximate or semantic join operations.
docetl is an AI-powered document ETL tool and map-reduce orchestrator designed to transform large collections of unstructured documents into structured, queryable tables using language models. It provides a declarative pipeline framework for extracting, cleaning, and transforming data from sources such as PDFs and text files into predefined schemas. The project distinguishes itself through a semantic data integration suite that enables joining datasets and resolving duplicate entities based on embedding-based similarity. It includes an interactive prompt playground for developing and optimizi
Merges disparate datasets by calculating embedding-based similarity scores when exact primary keys are unavailable.
linq2db is a type-safe object-relational mapper that translates LINQ expressions into optimized SQL queries for multiple database providers. It functions as a database mapper that links classes to tables and includes a SQL query builder and a command-line schema tool for generating data classes from existing databases. The project provides high-performance bulk data processing for inserting and loading large volumes of records via batch or binary copy methods. It also supports advanced SQL operations, including window functions, common table expressions for recursive hierarchical querying, an
Provides inner and left join syntax within expressions to combine data from multiple tables.
Fast-paginate is a database utility designed to optimize pagination performance in PHP and Laravel applications. It functions as a transparent layer that intercepts standard query builders to replace default pagination logic with more efficient retrieval strategies, specifically targeting large-scale datasets where traditional offset and limit operations can become resource-intensive. The library distinguishes itself by implementing deferred join techniques, which retrieve only primary keys in an initial subquery before fetching full records to minimize data scanning. It further improves resp
Implements deferred join techniques to retrieve only primary keys in an initial subquery, significantly reducing data scanning and database load.