Why is sindresorhus/awesome a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

Provides frameworks for partitioning and processing large-scale datasets across distributed clusters.

Why is apache/spark a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

Functions as a unified engine for partitioning, transforming, and processing massive datasets across distributed clusters.

Why is ray-project/ray a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

A framework that represents data as partitioned blocks to support incremental transformations and parallel execution across large clusters.

Why is dask/dask a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

Creates parallel collections from sequences, files, or URLs to enable distributed processing of unstructured data.

Why is modin-project/modin a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

Partitions, transforms, and processes large-scale Pandas dataframes across distributed computing clusters.

Why is featuretools/featuretools a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

Integrates with distributed computing frameworks to maintain performance when processing large volumes of data.

Why is hazelcast/hazelcast a recommended Distributed Data Processing Frameworks GitHub Repositories repository?

Redistributes data across cluster members to prevent processing bottlenecks.

13 Repos

Awesome GitHub RepositoriesDistributed Data Processing Frameworks

Systems for partitioning, transforming, and processing large-scale datasets across distributed computing clusters.

Distinguishing note: Specifically targets lazy, partitioned data processing rather than general database management or storage.

Explore 13 awesome GitHub repositories matching data & databases · Distributed Data Processing Frameworks. Refine with filters or upvote what's useful.

Finde die besten Repos mit KI.Wir suchen mit KI nach den am besten passenden Repositories.

sindresorhus/awesome
sindresorhus/awesome
476,211Auf GitHub ansehen
Dieses Projekt ist ein von der Community gepflegtes Verzeichnis, das als umfassender Index für Software-Tools, Frameworks und Lehrmaterialien dient. Es fungiert als Open-Source-Wissensdatenbank, die verschiedene technische Bereiche und Ressourcen in einer strukturierten Taxonomie organisiert, um Entwickler bei der Suche nach qualitativ hochwertigen Inhalten zu unterstützen. Das Verzeichnis zeichnet sich durch ein dezentrales Peer-Review-Modell aus, bei dem unabhängige Mitwirkende Einträge kuratieren, verifizieren und aktualisieren, um Genauigkeit und Relevanz sicherzustellen. Alle Informationen werden in einem versionskontrollierten Flat-File-Markdown-Format gespeichert, was Plattformunabhängigkeit, Transparenz und Auditierbarkeit für die gesamte Sammlung gewährleistet. Das Projekt deckt ein breites Spektrum an Fähigkeiten ab, von der Entdeckung technischer Ressourcen über die berufliche Weiterentwicklung bis hin zum Wissensmanagement in der Softwareentwicklung. Es bietet Zugang zu strukturierten Lernpfaden, Infrastruktur- und Sicherheitstools, Datenmanagement-Dienstprogrammen sowie spezialisierten Ressourcen für Bereiche von der Gesundheitsversorgung bis zu den digitalen Geisteswissenschaften. Das Repository wird als öffentliche, versionskontrollierte Sammlung gepflegt, was einen programmatischen Zugriff und Community-gesteuerte Updates der strukturierten Daten ermöglicht.
Provides frameworks for partitioning and processing large-scale datasets across distributed clusters.
awesomeawesome-listlists
Auf GitHub ansehen476,211
apache/spark
apache/spark
43,467Auf GitHub ansehen
Apache Spark is a unified distributed data processing engine designed for large-scale data analysis and computation graphs. It functions as a distributed machine learning framework, a graph processing system, a real-time stream processor, and a SQL analytics engine. The system enables the execution of distributed SQL querying, large-scale graph analysis, and real-time stream analytics across clusters of machines. It also provides a scalable environment for implementing machine learning algorithms and predictive model development on massive datasets. The engine incorporates relational query e
Functions as a unified engine for partitioning, transforming, and processing massive datasets across distributed clusters.
Scalabig-datajavajdbc
Auf GitHub ansehen43,467
ray-project/ray
ray-project/ray
42,895Auf GitHub ansehen
Ray is a distributed computing framework designed to scale Python and Java applications across clusters by abstracting task scheduling and resource management. It functions as a resource-aware execution engine that manages task dependencies, placement, and fault tolerance across networked compute nodes. At its core, the system provides a stateful actor model, allowing developers to define classes that run in dedicated processes to maintain and mutate internal state across remote method calls. The framework distinguishes itself through a robust cross-language interoperability layer, enabling f
A framework that represents data as partitioned blocks to support incremental transformations and parallel execution across large clusters.
Pythondata-sciencedeep-learningdeployment
Auf GitHub ansehen42,895
apache/hadoop
apache/hadoop
15,567Auf GitHub ansehen
Hadoop is a big data infrastructure suite and distributed data processing framework designed to store and process massive datasets across clusters of computers. It consists of a distributed storage system for managing large files across multiple nodes and a parallel computing engine for processing data across a distributed cluster. The framework implements a distributed file system to ensure fault tolerance and high throughput, paired with a programming model that processes large datasets in parallel. It manages the underlying hardware and software environment required for distributed big dat
Provides a framework for partitioning, transforming, and processing large-scale datasets across distributed clusters.
Java
Auf GitHub ansehen15,567
dask/dask
dask/dask
13,746Auf GitHub ansehen
Dask ist ein Framework für paralleles Rechnen und ein verteilter Task-Scheduler, der darauf ausgelegt ist, Python-Data-Science-Workflows von einzelnen Maschinen auf große Cluster zu skalieren. Es fungiert als Cluster-Ressourcenmanager, der die Berechnungslogik orchestriert, indem Aufgaben und deren Abhängigkeiten als gerichtete azyklische Graphen dargestellt werden. Diese Architektur ermöglicht es dem System, die Verteilung von Workloads auf verfügbare Hardware zu automatisieren und gleichzeitig komplexe Ausführungsanforderungen zu verwalten. Das Projekt zeichnet sich durch eine Lazy-Evaluation-Engine aus, die Datenoperationen verzögert, bis sie explizit angefordert werden, was eine globale Graphoptimierung und effiziente Ressourcenzuweisung ermöglicht. Es integriert speicherbewusstes Data-Spilling, um Systemabstürze bei der Verarbeitung von Datensätzen zu verhindern, die den verfügbaren Speicher überschreiten, und nutzt Task-Graph-Fusion, um Sequenzen von Operationen in einzelne Ausführungsschritte zu kombinieren, wodurch Scheduling-Overhead und Inter-Node-Kommunikation minimiert werden. Die Plattform bietet eine umfassende Oberfläche für die Datenanalyse im großen Maßstab, einschließlich Unterstützung für verteiltes maschinelles Lernen, Integration in das Hochleistungsrechnen und parallele Datenverarbeitung. Sie bietet umfangreiche Werkzeuge für das Cluster-Lebenszyklusmanagement, Performance-Profiling und die Echtzeitüberwachung der Aufgabenausführung. Benutzer können diese Umgebungen über verschiedene Infrastrukturen hinweg bereitstellen, einschließlich lokaler Hardware, Cloud-Anbietern, containerisierten Systemen und Hochleistungsrechner-Clustern.
Creates parallel collections from sequences, files, or URLs to enable distributed processing of unstructured data.
Pythondasknumpypandas
Auf GitHub ansehen13,746
modin-project/modin
modin-project/modin
10,389Auf GitHub ansehen
Modin is a distributed dataframe library and parallel data processing engine designed to handle large datasets that exceed system memory. It functions as a distributed computing framework that parallelizes data manipulation tasks across multiple CPU cores or clusters to increase throughput and avoid memory errors. The project mirrors the Pandas API, allowing for the distribution of data workflows without changing core code logic. It utilizes a pluggable backend interface, which enables users to switch between different distributed execution engines to optimize performance based on available h
Partitions, transforms, and processes large-scale Pandas dataframes across distributed computing clusters.
Pythonanalyticsdata-sciencedataframe
Auf GitHub ansehen10,389
apache/beam
apache/beam
8,612Auf GitHub ansehen
Apache Beam is a distributed data pipeline framework and unified data processing model designed to handle both bounded batch data and unbounded real-time streams. It provides a system for building scalable, data-parallel workflows that operate across compute clusters using a single programming model. The framework utilizes a cross-runner pipeline abstraction that decouples the data processing logic from the underlying execution backend, allowing the same pipeline to run on different distributed compute engines. It supports multi-language pipeline development by translating high-level code fro
Provides a system for partitioning, transforming, and processing large-scale datasets across distributed computing clusters.
Java
Auf GitHub ansehen8,612
featuretools/featuretools
featuretools/featuretools
7,655Auf GitHub ansehen
Featuretools is a Python data science library and automated feature engineering framework designed to create predictive features from multiple related datasets. It automates the data preparation and transformation steps required for machine learning models through deep feature synthesis. The library enables the automatic generation of comprehensive feature tables by applying recursive transformations to relational data. It supports the transformation of unstructured text into structured numeric features and allows users to define custom primitives to extend the synthesis process with specific
Integrates with distributed computing frameworks to maintain performance when processing large volumes of data.
Python
Auf GitHub ansehen7,655
hazelcast/hazelcast
hazelcast/hazelcast
6,570Auf GitHub ansehen
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Redistributes data across cluster members to prevent processing bottlenecks.
Javabig-datacachingdata-in-motion
Auf GitHub ansehen6,570
jerrylead/sparkinternals
JerryLead/SparkInternals
5,363Auf GitHub ansehen
SparkInternals ist ein technisches Referenz- und Architekturhandbuch, das das interne Design und die Implementierung der verteilten Computing-Engine Apache Spark detailliert beschreibt. Es dient als Analyse von Big-Data-Engines und konzentriert sich darauf, wie das System die Cluster-Ausführung sowie das Zusammenspiel zwischen Driver-Nodes, Executors und Workern verwaltet. Das Projekt bietet eine detaillierte Aufschlüsselung, wie logische Pläne in physische Ausführungsstufen konvertiert werden. Es analysiert spezifisch die Mechanik von Data-Shuffle-Operationen, Speicherverwaltung und die Koordination der verteilten Job-Planung. Die Dokumentation deckt ein breites Spektrum an verteilten Computing-Funktionen ab, einschließlich Query-Execution-Planung, Datenabhängigkeitsmanagement und In-Memory-Caching-Strategien. Zudem werden Aufgabenverteilung, parallele Ausführung sowie Prozesse zur Fehlerwiederherstellung und Datenpersistenz untersucht.
Analyzes the systems used for partitioning, transforming, and processing large-scale datasets across clusters.
Auf GitHub ansehen5,363
dtstack/chunjun
DTStack/chunjun
4,104Auf GitHub ansehen
Chunjun ist ein verteiltes Datenintegrations-Framework und eine SQL-basierte ETL-Pipeline, die entwickelt wurde, um Daten zwischen heterogenen Quellen zu synchronisieren. Es fungiert als Change-Data-Capture-Tool (CDC) und heterogener Datensynchronisierer und nutzt eine verteilte Verarbeitungsumgebung, um Daten über verschiedene Datenbanktypen hinweg zu bewegen und zu transformieren. Das System zeichnet sich durch seine Plugin-basierte Connector-Architektur aus, die die Entwicklung benutzerdefinierter Source- und Sink-Plugins ermöglicht, um die Konnektivität auf nicht unterstützte Datensysteme auszuweiten. Es unterstützt Echtzeit-Change-Data-Capture aus relationalen Datenbank-Logs und implementiert Schema-Evolution-Propagation, um strukturelle Änderungen automatisch von Quell- auf Zieltabellen anzuwenden. Das Framework bietet Funktionen für inkrementelle Datensynchronisierung und quellübergreifende Datenberechnung mittels SQL-Logik. Die Zuverlässigkeit wird durch Checkpoint-basiertes Task-Recovery zur Wiederaufnahme unterbrochener Übertragungen und Dead-Letter-Queues für das Management fehlerhafter Daten zur Prüfung falsch formatierter Datensätze verwaltet. Integrationsaufgaben können über eigenständige Cluster, Yarn oder Kubernetes-Umgebungen bereitgestellt werden, mit Unterstützung für containerisierte Bereitstellung via Docker.
Provides a distributed framework for synchronizing and transforming data between heterogeneous sources using a plugin-based architecture.
Javabigdatadata-integrationflink
Auf GitHub ansehen4,104
databricks/learning-spark
databricks/learning-spark
3,899Auf GitHub ansehen
This project is a learning curriculum and programming guide for Apache Spark, providing a structured set of educational resources and practical code examples for mastering distributed data processing. It serves as a course for building scalable data workflows and big data engineering pipelines. The repository provides practical source code and project layouts that demonstrate how to connect external data stores, process streaming data, and organize code for distributed environments. It includes implementation examples for scaling machine learning algorithms across clusters to handle large tra
Implements systems for partitioning, transforming, and processing large-scale datasets across compute clusters.
Java
Auf GitHub ansehen3,899
kananinirav/aws-certified-cloud-practitioner-notes
kananinirav/AWS-Certified-Cloud-Practitioner-Notes
3,829Auf GitHub ansehen
This project is a collection of structured study notes and conceptual breakdowns designed for the AWS Certified Cloud Practitioner exam. It serves as a technical reference and study guide, organizing cloud service details and architectural principles to assist in certification preparation. The knowledge base is built using markdown files and includes curated cheat sheets and interactive mind-map visualizations. These tools map complex certification topics into visual hierarchies to enable drill-down study paths and rapid revision. The materials cover a wide range of cloud capabilities, inclu
Explains the use of distributed frameworks for data transformation and machine learning across compute clusters.
HTMLamazon-web-servicesawsaws-certified-cloud-practitioner
Auf GitHub ansehen3,829