12 Repos
Capabilities for retrieving related data across multiple tables.
Distinguishing note: Focuses on automatic join mapping and filtering.
Explore 12 awesome GitHub repositories matching data & databases · Join Operations. Refine with filters or upvote what's useful.
TypeORM is an object-relational mapper for TypeScript and JavaScript that bridges the gap between object-oriented application code and relational database tables. It provides a comprehensive data persistence layer that allows developers to define database entities using class decorators or configuration objects, enabling seamless interaction with data through object-oriented patterns. The project distinguishes itself through a flexible architecture that supports both the data mapper and repository patterns, alongside a fluent query builder that translates high-level method calls into platform
Retrieves related data automatically using join expressions with custom mapping.
Entity Framework Core is an object-relational mapper that enables developers to interact with database systems using strongly-typed code. It serves as a comprehensive data access framework, providing a unified interface for mapping application objects to relational and non-relational database schemas while managing the lifecycle of data operations through a central context. The project distinguishes itself through a provider-based architecture that decouples core data access logic from specific database engines, allowing for consistent interaction across diverse storage systems. It features a
Executes left join operations by identifying patterns to include records even when no matching inner data exists.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Executes subqueries in filters first to resolve values and applies indexes, or converts eligible joins into semi-joins to prevent redundant row processing.
Dieses Projekt ist eine umfassende Vorbereitungshilfe für technische Interviews und eine Wissensdatenbank für Informatik. Es dient als strukturierte Lernressource, die Software-Engineers dabei unterstützt, grundlegende Engineering-Konzepte zu wiederholen und sich auf professionelle Coding-Assessments vorzubereiten. Das Repository konzentriert sich auf eine Vielzahl theoretischer und praktischer Bereiche, einschließlich detaillierter Referenzen für mobile App-Architektur und Betriebssystem-Grundlagen. Es bietet kuratierte Materialien zu Software-Architekturmustern und Netzwerkprotokoll-Analyse zur Unterstützung der beruflichen Weiterentwicklung. Der Inhalt deckt fundamentale Bereiche wie Datenstrukturen und Algorithmen, Concurrency und Multithreading sowie Speicherverwaltung ab. Zudem bietet es tiefgehende Einblicke in Systemarchitektur, einschließlich Prozess-Scheduling, Inter-Process-Communication und UI-Rendering-Optimierung.
Discusses optimizing the join execution pipeline to accelerate linking related data across tables.
Zombodb ist eine Datenbankerweiterung und ein relationaler Daten-Indexer, der PostgreSQL mit Elasticsearch integriert. Er bietet eine SQL-Suchschnittstelle, die es Benutzern ermöglicht, komplexe Suchanfragen und Aggregationen unter Verwendung von Standard-SQL-Funktionen und -Syntax anstelle nativer JSON-APIs auszuführen. Das Projekt synchronisiert relationale Daten von PostgreSQL mit einer Remote-Suchmaschine, um leistungsstarke Volltextsuche und Analysen zu ermöglichen. Das System zeichnet sich dadurch aus, dass es relationale Strukturen mit Suchmaschinenfunktionen verbindet, insbesondere durch die Integration der Georaumsuche für Geometrie- und Geografietypen. Es implementiert eine SQL-zu-JSON-Abfrage-Mapping-Schicht, die fortgeschrittene Textanalysen – einschließlich Fuzzy-Matching, Proximity-Suchen und Relevanz-Scoring – direkt in einer relationalen Umgebung ermöglicht. Das Projekt deckt breite Funktionsbereiche ab, einschließlich Index-Lebenszyklusmanagement, automatisierter relationaler Datensynchronisation und komplexer analytischer Aggregationen. Es unterstützt räumliche Indizierung für standortbasierte Abfragen, benutzerdefinierte Textanalyse-Pipelines und Überwachungstools zur Prüfung von Indexstatistiken und Cluster-Gesundheit. Die Sicherheit wird durch verschlüsselte Verbindungen zwischen der Datenbank und der Suchmaschine mittels TLS gewährleistet.
Improves performance for complex queries spanning multiple indices via coordination with a search accelerator.
MiniOB is an open-source educational relational database kernel designed for learning the internals of database systems. It implements a dual-engine storage architecture combining B+ Tree and LSM-Tree, supports SQL parsing and query execution, and provides transactional processing with multi-version concurrency control. The system communicates with clients using the MySQL wire protocol and includes a vector database extension for storing and querying high-dimensional vectors. The project distinguishes itself through its comprehensive coverage of core database concepts in a single, learnable c
Evaluate alternative join sequences using cost estimates or heuristic rules to select the most efficient plan.
Velox ist eine leistungsstarke C++-Abfrage-Ausführungs-Engine und eine Bibliothek für spaltenbasierte Datenverarbeitung. Sie dient als kompositionsfähiges Framework zur Implementierung analytischer Query-Engines und bietet einen vektorisierten Ausdrucksauswerter sowie ein Toolkit für Datenmanagementsysteme. Das Projekt zeichnet sich durch die Verwendung vektorisierter spaltenbasierter Ausführung und arena-basierter Speicherallokation zur Verarbeitung großer Datensätze aus. Es bietet spezialisierte Optimierungen wie Broadcast-Join-Table-Caching, Dynamic-Filter-Push-Down und Dictionary-Encoding, um den Speicher-Overhead zu reduzieren und analytische Lesezugriffe zu beschleunigen. Die Engine deckt ein breites Spektrum analytischer Funktionen ab, einschließlich der Implementierung von Hash-, Merge- und Semi-Joins sowie mehrstufiger paralleler Aggregation und der Berechnung von Fensterfunktionen. Sie bietet Primitive für spaltenbasierte In-Memory-Speicherung, Parquet-Datendekodierung und die Integration mit Cloud-Speichern. Erweiterbarkeit wird durch ein Funktionsregistrierungssystem für benutzerdefinierte Skalar- und Aggregatfunktionen geboten, wobei High-Level-Bindings verfügbar sind, um die C++-Logik mit Python zu verbinden.
Implements specific flags to treat null values as either distinct or matching during join operations.
Dieses Projekt ist ein High-Performance-Framework für die Verarbeitung tabellarischer Daten in R, das für die effiziente und schnelle Handhabung massiver Datensätze entwickelt wurde. Es bietet eine erweiterte Datenstruktur, die Referenzsemantik und In-Place-Modifikation nutzt, um komplexe Transformationen ohne den Overhead unnötiger Objektkopien durchzuführen. Die Bibliothek zeichnet sich durch ihre Low-Level-Architekturoptimierungen aus, einschließlich Multi-Threaded-Parallelverarbeitung, Radix-basiertem Sortieren und Memory-Mapped-File-Parsing. Durch das Auslagern kritischer Datenmanipulations- und Aggregationsroutinen in kompilierten C-Code ermöglicht sie die schnelle Ausführung von Aufgaben, die ansonsten rechenintensiv wären. Ihre Core-Engine unterstützt fortgeschrittene relationale Operationen wie Non-Equi-, Rolling- und Overlapping-Interval-Joins sowie automatische sekundäre Indizierung zur Beschleunigung wiederholter Datenzugriffe. Über ihre primären Verarbeitungsfunktionen hinaus bietet das Projekt eine umfassende Suite an Tools für das Datenlebenszyklus-Management. Dies umfasst Hochgeschwindigkeits-Ingestion- und Serialisierungs-Utilities mit automatischer Typenerkennung sowie spezialisierte Unterstützung für Zeitreihenanalysen und mehrdimensionale Aggregation. Das Framework ist auf Skalierbarkeit ausgelegt und ermöglicht Benutzern die Durchführung komplexer Gruppierungs-, Filter- und Reshaping-Operationen auf Datensätzen mit Milliarden von Zeilen bei gleichzeitiger Systemstabilität und Performance.
Blocks joins that would result in an explosive number of rows to protect system memory.
USearch is a high-performance vector similarity search engine and approximate nearest neighbor index designed for dense embeddings. It functions as a low-level vector database core and high-dimensional vector indexer, providing the primitives necessary to store and retrieve vectors across massive datasets. The engine distinguishes itself through hardware-level SIMD acceleration for distance kernels and a proximity-graph indexing system that enables fast retrieval across billions of vectors. It supports multi-precision vector quantization to balance memory usage and accuracy, and utilizes memo
Creates mappings between two large vector datasets using approximate or semantic join operations.
docetl is an AI-powered document ETL tool and map-reduce orchestrator designed to transform large collections of unstructured documents into structured, queryable tables using language models. It provides a declarative pipeline framework for extracting, cleaning, and transforming data from sources such as PDFs and text files into predefined schemas. The project distinguishes itself through a semantic data integration suite that enables joining datasets and resolving duplicate entities based on embedding-based similarity. It includes an interactive prompt playground for developing and optimizi
Merges disparate datasets by calculating embedding-based similarity scores when exact primary keys are unavailable.
linq2db is a type-safe object-relational mapper that translates LINQ expressions into optimized SQL queries for multiple database providers. It functions as a database mapper that links classes to tables and includes a SQL query builder and a command-line schema tool for generating data classes from existing databases. The project provides high-performance bulk data processing for inserting and loading large volumes of records via batch or binary copy methods. It also supports advanced SQL operations, including window functions, common table expressions for recursive hierarchical querying, an
Provides inner and left join syntax within expressions to combine data from multiple tables.
Fast-paginate is a database utility designed to optimize pagination performance in PHP and Laravel applications. It functions as a transparent layer that intercepts standard query builders to replace default pagination logic with more efficient retrieval strategies, specifically targeting large-scale datasets where traditional offset and limit operations can become resource-intensive. The library distinguishes itself by implementing deferred join techniques, which retrieve only primary keys in an initial subquery before fetching full records to minimize data scanning. It further improves resp
Implements deferred join techniques to retrieve only primary keys in an initial subquery, significantly reducing data scanning and database load.