13 dépôts
Systems for partitioning, transforming, and processing large-scale datasets across distributed computing clusters.
Distinguishing note: Specifically targets lazy, partitioned data processing rather than general database management or storage.
Explore 13 awesome GitHub repositories matching data & databases · Distributed Data Processing Frameworks. Refine with filters or upvote what's useful.
Ce projet est un répertoire maintenu par la communauté qui sert d'index complet d'outils logiciels, de frameworks et de ressources éducatives. Il fonctionne comme une base de connaissances open source, organisant divers domaines d'ingénierie et ressources techniques dans une taxonomie structurée pour aider les développeurs à découvrir du contenu de haute qualité. Le répertoire se distingue par un modèle de revue par les pairs décentralisé, où des contributeurs indépendants organisent, vérifient et mettent à jour les entrées pour garantir leur exactitude et leur pertinence. Toutes les informations sont stockées dans un format markdown en fichiers plats, contrôlé par version, ce qui garantit l'indépendance de la plateforme, la transparence et l'auditabilité de l'ensemble de la collection. Le projet couvre une vaste surface de capacités, allant de la découverte de ressources techniques à l'avancement professionnel et à la gestion des connaissances en développement logiciel. Il donne accès à des parcours d'apprentissage structurés, des outils d'infrastructure et de sécurité, des utilitaires de gestion de données et des ressources spécialisées pour des domaines allant de la santé aux humanités numériques. Le dépôt est maintenu en tant que collection publique contrôlée par version, permettant un accès programmatique et des mises à jour pilotées par la communauté pour ses données structurées.
Provides frameworks for partitioning and processing large-scale datasets across distributed clusters.
Apache Spark is a unified distributed data processing engine designed for large-scale data analysis and computation graphs. It functions as a distributed machine learning framework, a graph processing system, a real-time stream processor, and a SQL analytics engine. The system enables the execution of distributed SQL querying, large-scale graph analysis, and real-time stream analytics across clusters of machines. It also provides a scalable environment for implementing machine learning algorithms and predictive model development on massive datasets. The engine incorporates relational query e
Functions as a unified engine for partitioning, transforming, and processing massive datasets across distributed clusters.
Ray is a distributed computing framework designed to scale Python and Java applications across clusters by abstracting task scheduling and resource management. It functions as a resource-aware execution engine that manages task dependencies, placement, and fault tolerance across networked compute nodes. At its core, the system provides a stateful actor model, allowing developers to define classes that run in dedicated processes to maintain and mutate internal state across remote method calls. The framework distinguishes itself through a robust cross-language interoperability layer, enabling f
A framework that represents data as partitioned blocks to support incremental transformations and parallel execution across large clusters.
Hadoop is a big data infrastructure suite and distributed data processing framework designed to store and process massive datasets across clusters of computers. It consists of a distributed storage system for managing large files across multiple nodes and a parallel computing engine for processing data across a distributed cluster. The framework implements a distributed file system to ensure fault tolerance and high throughput, paired with a programming model that processes large datasets in parallel. It manages the underlying hardware and software environment required for distributed big dat
Provides a framework for partitioning, transforming, and processing large-scale datasets across distributed clusters.
Dask est un framework de calcul parallèle et un planificateur de tâches distribué conçu pour mettre à l'échelle les flux de travail de science des données Python, des machines uniques aux grands clusters. Il fonctionne comme un gestionnaire de ressources de cluster qui orchestre la logique computationnelle en représentant les tâches et leurs dépendances sous forme de graphes acycliques dirigés. Cette architecture permet au système d'automatiser la distribution des charges de travail sur le matériel disponible tout en gérant des exigences d'exécution complexes. Le projet se distingue par un moteur d'évaluation paresseuse qui diffère les opérations sur les données jusqu'à ce qu'elles soient explicitement demandées, permettant une optimisation globale du graphe et une allocation efficace des ressources. Il intègre le déversement de données conscient de la mémoire pour éviter les plantages du système lors du traitement de jeux de données dépassant la mémoire disponible, et il utilise la fusion de graphes de tâches pour combiner des séquences d'opérations en étapes d'exécution uniques, minimisant la surcharge de planification et la communication entre nœuds. La plateforme fournit une surface de capacités complète pour l'analyse de données à grande échelle, incluant le support pour l'apprentissage automatique distribué, l'intégration du calcul haute performance et le traitement de données parallèle. Elle offre des outils étendus pour la gestion du cycle de vie des clusters, le profilage des performances et la surveillance en temps réel de l'exécution des tâches. Les utilisateurs peuvent déployer ces environnements sur diverses infrastructures, incluant le matériel local, les fournisseurs cloud, les systèmes conteneurisés et les clusters de calcul haute performance.
Creates parallel collections from sequences, files, or URLs to enable distributed processing of unstructured data.
Modin is a distributed dataframe library and parallel data processing engine designed to handle large datasets that exceed system memory. It functions as a distributed computing framework that parallelizes data manipulation tasks across multiple CPU cores or clusters to increase throughput and avoid memory errors. The project mirrors the Pandas API, allowing for the distribution of data workflows without changing core code logic. It utilizes a pluggable backend interface, which enables users to switch between different distributed execution engines to optimize performance based on available h
Partitions, transforms, and processes large-scale Pandas dataframes across distributed computing clusters.
Apache Beam is a distributed data pipeline framework and unified data processing model designed to handle both bounded batch data and unbounded real-time streams. It provides a system for building scalable, data-parallel workflows that operate across compute clusters using a single programming model. The framework utilizes a cross-runner pipeline abstraction that decouples the data processing logic from the underlying execution backend, allowing the same pipeline to run on different distributed compute engines. It supports multi-language pipeline development by translating high-level code fro
Provides a system for partitioning, transforming, and processing large-scale datasets across distributed computing clusters.
Featuretools is a Python data science library and automated feature engineering framework designed to create predictive features from multiple related datasets. It automates the data preparation and transformation steps required for machine learning models through deep feature synthesis. The library enables the automatic generation of comprehensive feature tables by applying recursive transformations to relational data. It supports the transformation of unstructured text into structured numeric features and allows users to define custom primitives to extend the synthesis process with specific
Integrates with distributed computing frameworks to maintain performance when processing large volumes of data.
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Redistributes data across cluster members to prevent processing bottlenecks.
SparkInternals est une référence technique et un guide d'architecture détaillant la conception interne et l'implémentation du moteur de calcul distribué Apache Spark. Il sert d'étude sur l'analyse des moteurs de big data, en se concentrant sur la gestion de l'exécution en cluster et l'interaction entre les nœuds drivers, les exécuteurs et les workers. Le projet fournit une décomposition détaillée de la manière dont les plans logiques sont convertis en étapes d'exécution physiques. Il analyse spécifiquement la mécanique des opérations de shuffle, la gestion de la mémoire et la coordination de la planification des jobs distribués. La documentation couvre un large éventail de capacités de calcul distribué, incluant la planification de l'exécution des requêtes, la gestion des dépendances de données et les stratégies de mise en cache en mémoire. Elle examine également la distribution des tâches, l'exécution parallèle et les processus utilisés pour la reprise sur erreur et la persistance des données.
Analyzes the systems used for partitioning, transforming, and processing large-scale datasets across clusters.
Chunjun est un framework d'intégration de données distribué et un pipeline ETL basé sur SQL conçu pour synchroniser les données entre des sources hétérogènes. Il fonctionne comme un outil de capture de données modifiées (CDC) et un synchroniseur de données hétérogènes, utilisant un environnement de traitement distribué pour déplacer et transformer les données à travers différents types de bases de données. Le système se distingue par son architecture de connecteurs basée sur des plugins, qui permet le développement de plugins de source et de destination personnalisés pour étendre la connectivité aux systèmes de données non pris en charge. Il prend en charge la capture de données modifiées en temps réel à partir des journaux de bases de données relationnelles et implémente la propagation de l'évolution de schéma pour appliquer automatiquement les changements structurels des tables sources aux tables de destination. Le framework fournit des capacités pour la synchronisation de données incrémentielle et le calcul de données inter-sources utilisant la logique SQL. La fiabilité est gérée via une récupération de tâche basée sur des points de contrôle pour reprendre les transferts interrompus et des files d'attente de lettres mortes pour la gestion des données sales afin d'auditer les enregistrements mal formés. Les tâches d'intégration peuvent être déployées sur des clusters autonomes, Yarn ou des environnements Kubernetes, avec une prise en charge du déploiement conteneurisé via Docker.
Provides a distributed framework for synchronizing and transforming data between heterogeneous sources using a plugin-based architecture.
This project is a learning curriculum and programming guide for Apache Spark, providing a structured set of educational resources and practical code examples for mastering distributed data processing. It serves as a course for building scalable data workflows and big data engineering pipelines. The repository provides practical source code and project layouts that demonstrate how to connect external data stores, process streaming data, and organize code for distributed environments. It includes implementation examples for scaling machine learning algorithms across clusters to handle large tra
Implements systems for partitioning, transforming, and processing large-scale datasets across compute clusters.
This project is a collection of structured study notes and conceptual breakdowns designed for the AWS Certified Cloud Practitioner exam. It serves as a technical reference and study guide, organizing cloud service details and architectural principles to assist in certification preparation. The knowledge base is built using markdown files and includes curated cheat sheets and interactive mind-map visualizations. These tools map complex certification topics into visual hierarchies to enable drill-down study paths and rapid revision. The materials cover a wide range of cloud capabilities, inclu
Explains the use of distributed frameworks for data transformation and machine learning across compute clusters.