1 Repo
Execution of SQL-based data transformations and calculations across a distributed cluster.
Distinct from Background SQL Executions: Shortlist candidates focused on background execution or synchronous Node.js calls, not distributed ETL computation
Explore 1 awesome GitHub repository matching data & databases · Distributed SQL Computations. Refine with filters or upvote what's useful.
Chunjun ist ein verteiltes Datenintegrations-Framework und eine SQL-basierte ETL-Pipeline, die entwickelt wurde, um Daten zwischen heterogenen Quellen zu synchronisieren. Es fungiert als Change-Data-Capture-Tool (CDC) und heterogener Datensynchronisierer und nutzt eine verteilte Verarbeitungsumgebung, um Daten über verschiedene Datenbanktypen hinweg zu bewegen und zu transformieren. Das System zeichnet sich durch seine Plugin-basierte Connector-Architektur aus, die die Entwicklung benutzerdefinierter Source- und Sink-Plugins ermöglicht, um die Konnektivität auf nicht unterstützte Datensysteme auszuweiten. Es unterstützt Echtzeit-Change-Data-Capture aus relationalen Datenbank-Logs und implementiert Schema-Evolution-Propagation, um strukturelle Änderungen automatisch von Quell- auf Zieltabellen anzuwenden. Das Framework bietet Funktionen für inkrementelle Datensynchronisierung und quellübergreifende Datenberechnung mittels SQL-Logik. Die Zuverlässigkeit wird durch Checkpoint-basiertes Task-Recovery zur Wiederaufnahme unterbrochener Übertragungen und Dead-Letter-Queues für das Management fehlerhafter Daten zur Prüfung falsch formatierter Datensätze verwaltet. Integrationsaufgaben können über eigenständige Cluster, Yarn oder Kubernetes-Umgebungen bereitgestellt werden, mit Unterstützung für containerisierte Bereitstellung via Docker.
Performs data computation and transformation tasks using SQL logic within a distributed processing environment.