5 Repos
Executing data processing workloads across a cluster of server nodes to increase throughput.
Distinct from Distributed Execution: None of the candidates focus on general ETL workload distribution; most are AI or Redis specific.
Explore 5 awesome GitHub repositories matching data & databases · Distributed Cluster Execution. Refine with filters or upvote what's useful.
Pentaho Kettle ist eine Enterprise-ETL-Datenintegrationsplattform, die darauf ausgelegt ist, Daten zwischen unterschiedlichen Quellen und Zieldatenbanken zu extrahieren, zu transformieren und zu laden. Sie fungiert als metadatengesteuerter Orchestrator, der einen visuellen Workflow-Designer nutzt, um komplexe Sequenzen von Datenaufgaben und Transformationspipelines zu erstellen und zu verwalten. Das System zeichnet sich durch seine verteilte Datenverarbeitungs-Engine aus, die Workloads über Cluster von Server-Nodes hinweg ausführt, um den Durchsatz zu erhöhen. Es verwendet eine Plugin-basierte Architektur, die es ermöglicht, die Plattform über externe JAR-Dateien zu erweitern, um Konnektivität zu diversen Datenbanken und Cloud-Diensten bereitzustellen. Die Plattform deckt ein breites Spektrum an Datenintegrationsfunktionen ab, einschließlich Bulk-Loading, Remote-Dateiverwaltung und Datenstrukturtransformation. Sie bietet Werkzeuge für Datenqualitätsvalidierung, Pipeline-Automatisierung und Job-Lebenszyklusmanagement sowie Überwachungsprogramme zur Verfolgung des Serverzustands und des Echtzeit-Ausführungsstatus.
Distributes heavy data processing workloads across multiple server nodes using network sockets to increase total throughput.
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Executes data processing workloads across a cluster of server nodes to increase throughput using parallel graph processing.
SparkInternals ist ein technisches Referenz- und Architekturhandbuch, das das interne Design und die Implementierung der verteilten Computing-Engine Apache Spark detailliert beschreibt. Es dient als Analyse von Big-Data-Engines und konzentriert sich darauf, wie das System die Cluster-Ausführung sowie das Zusammenspiel zwischen Driver-Nodes, Executors und Workern verwaltet. Das Projekt bietet eine detaillierte Aufschlüsselung, wie logische Pläne in physische Ausführungsstufen konvertiert werden. Es analysiert spezifisch die Mechanik von Data-Shuffle-Operationen, Speicherverwaltung und die Koordination der verteilten Job-Planung. Die Dokumentation deckt ein breites Spektrum an verteilten Computing-Funktionen ab, einschließlich Query-Execution-Planung, Datenabhängigkeitsmanagement und In-Memory-Caching-Strategien. Zudem werden Aufgabenverteilung, parallele Ausführung sowie Prozesse zur Fehlerwiederherstellung und Datenpersistenz untersucht.
Documents the interaction and coordination between driver nodes, executors, and workers for parallel processing.
statsforecast ist eine statistische Hochleistungs-Bibliothek für Zeitreihenprognosen, die darauf ausgelegt ist, Punktprognosen und Vorhersageintervalle zu generieren. Sie fungiert als verteiltes Zeitreihen-Framework, das eine C-basierte Prognose-Engine und einen automatisierten Modellselektor nutzt, um das optimale statistische Modell für jede einzigartige Serie in einem Datensatz zu identifizieren und anzupassen. Das System enthält zudem einen Zeitreihen-Anomaliedetektor, um ungewöhnliche Datenpunkte durch den Vergleich beobachteter Werte mit probabilistischen Prognoseintervallen zu identifizieren. Das Projekt zeichnet sich durch seine Fähigkeit aus, massiv parallele Prognosen für Millionen individueller Serien zu verarbeiten. Dies erreicht es durch ein verteiltes Computing-Framework, Multi-Core-Parallel-Ausführung und kompilierte C-Kernels, die die Kernlogik von ARIMA und exponentieller Glättung beschleunigen. Das System optimiert die großskalige Verarbeitung weiter unter Verwendung eines Long-Format-Datenlayouts und einer Lazy-Evaluation-Datenpipeline, um den Speicher-Overhead zu reduzieren. Die Bibliothek bietet eine umfassende Suite von Modellen, einschließlich AutoARIMA, verschiedenen Methoden der exponentiellen Glättung für intermittierende oder saisonale Nachfrage, Theta-Dekomposition und GARCH-Volatilitätsmodellierung für finanzielles Risiko. Sie deckt breitere Funktionsbereiche ab, wie multivariate Prognosen mit exogenen Variablen, Zeitreihen-Dekomposition und Modellevaluierung mittels historischer Kreuzvalidierung und Sliding-Window-Analyse. Die Bibliothek integriert sich mit Hochleistungs-Datenstrukturen wie Polars und bietet Dienstprogramme, um gespeicherte Modelle als REST-Endpunkte für netzwerkzugängliche Vorhersagen bereitzustellen.
Scales forecasting workloads by partitioning millions of time series across server clusters.
Chunjun ist ein verteiltes Datenintegrations-Framework und eine SQL-basierte ETL-Pipeline, die entwickelt wurde, um Daten zwischen heterogenen Quellen zu synchronisieren. Es fungiert als Change-Data-Capture-Tool (CDC) und heterogener Datensynchronisierer und nutzt eine verteilte Verarbeitungsumgebung, um Daten über verschiedene Datenbanktypen hinweg zu bewegen und zu transformieren. Das System zeichnet sich durch seine Plugin-basierte Connector-Architektur aus, die die Entwicklung benutzerdefinierter Source- und Sink-Plugins ermöglicht, um die Konnektivität auf nicht unterstützte Datensysteme auszuweiten. Es unterstützt Echtzeit-Change-Data-Capture aus relationalen Datenbank-Logs und implementiert Schema-Evolution-Propagation, um strukturelle Änderungen automatisch von Quell- auf Zieltabellen anzuwenden. Das Framework bietet Funktionen für inkrementelle Datensynchronisierung und quellübergreifende Datenberechnung mittels SQL-Logik. Die Zuverlässigkeit wird durch Checkpoint-basiertes Task-Recovery zur Wiederaufnahme unterbrochener Übertragungen und Dead-Letter-Queues für das Management fehlerhafter Daten zur Prüfung falsch formatierter Datensätze verwaltet. Integrationsaufgaben können über eigenständige Cluster, Yarn oder Kubernetes-Umgebungen bereitgestellt werden, mit Unterstützung für containerisierte Bereitstellung via Docker.
Spreads data integration workloads across multiple nodes using Yarn or Kubernetes for parallel processing.