3 repository-uri
Execution engines that process query plans through a hierarchy of stages, tasks, and operators.
Distinct from Distributed Query Processing: Distinct from general stream processing: focuses on the execution of query plans through distributed stages and operators.
Explore 3 awesome GitHub repositories matching data & databases · Distributed Query Stream Processors. Refine with filters or upvote what's useful.
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Executes query plans through a hierarchy of stages, tasks, and operators that transform and exchange data across the cluster.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Streams data blocks between query stages to enable low-latency distributed execution.
YDB este o bază de date SQL distribuită și un motor analitic conceput pentru scalabilitate orizontală și consistență puternică. Funcționează ca un sistem multi-model care suportă workload-uri tranzacționale și analitice printr-o arhitectură distribuită care oferă tranzacții ACID serializabile. Sistemul se distinge prin compatibilitatea sa largă cu protocoalele, implementând protocolul PostgreSQL pentru driverele SQL standard și protocolul Kafka pentru mesagerie și streaming. Servește, de asemenea, ca o bază de date vectorială, suportând indecși vectoriali și căutări de tip approximate nearest neighbor pentru căutări semantice și embeddings. Platforma gestionează datele folosind un model de stocare hibrid cu formate orientate pe rânduri și pe coloane, utilizând execuția interogărilor vectorizate pentru analize la scară de petabytes. Suprafața sa operațională include streaming de tip change data capture, cozi persistente de tip exactly-once și disponibilitate ridicată multi-zonă. Deployment-ul și gestionarea ciclului de viață sunt susținute printr-un operator Kubernetes și provizionarea de tip infrastructure-as-code.
Runs streaming queries that automatically restart on failure and use checkpoints to persist state.