3 Repos
Execution engines that process query plans through a hierarchy of stages, tasks, and operators.
Distinct from Distributed Query Processing: Distinct from general stream processing: focuses on the execution of query plans through distributed stages and operators.
Explore 3 awesome GitHub repositories matching data & databases · Distributed Query Stream Processors. Refine with filters or upvote what's useful.
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Executes query plans through a hierarchy of stages, tasks, and operators that transform and exchange data across the cluster.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Streams data blocks between query stages to enable low-latency distributed execution.
YDB ist eine verteilte SQL-Datenbank und analytische Engine, die auf horizontale Skalierbarkeit und starke Konsistenz ausgelegt ist. Sie fungiert als Multi-Model-System, das transaktionale und analytische Workloads durch eine verteilte Architektur unterstützt, die serialisierbare ACID-Transaktionen bietet. Das System zeichnet sich durch seine breite Protokollkompatibilität aus und implementiert das PostgreSQL-Wire-Protokoll für Standard-SQL-Treiber sowie das Kafka-Protokoll für Messaging und Streaming. Es dient zudem als Vektordatenbank und unterstützt Vektorindizes sowie die Suche nach ungefähren nächsten Nachbarn (Approximate Nearest Neighbor) für semantische Suche und Embeddings. Die Plattform verwaltet Daten unter Verwendung eines hybriden Speichermodells mit zeilen- und spaltenorientierten Formaten und nutzt vektorisierte Abfrageausführung für Analysen im Petabyte-Maßstab. Ihr operativer Bereich umfasst Change-Data-Capture-Streaming, persistente Queues mit Exactly-Once-Garantie und Multi-Zone-Hochverfügbarkeit. Deployment und Lebenszyklusmanagement werden durch einen Kubernetes-Operator und Infrastructure-as-Code-Provisioning unterstützt.
Runs streaming queries that automatically restart on failure and use checkpoints to persist state.