4 dépôts
Systems for scaling large-scale data computations across multiple hardware devices.
Distinguishing note: Focuses on the infrastructure of array partitioning and inter-device communication rather than high-level data analysis.
Explore 4 awesome GitHub repositories matching data & databases · Distributed Array Processing. Refine with filters or upvote what's useful.
This project is a high-performance numerical computing library designed for large-scale scientific and machine learning workloads. It functions as an automatic differentiation framework and a just-in-time compilation engine, transforming high-level Python code into optimized machine instructions. By enforcing pure functional programming patterns and immutable array semantics, the library ensures that mathematical functions remain compatible with automated graph transformations and symbolic differentiation. The platform distinguishes itself through its distributed array computing capabilities,
Scales large-scale data computations across multiple hardware devices by automatically partitioning arrays and managing communication.
Dask est un framework de calcul parallèle et un planificateur de tâches distribué conçu pour mettre à l'échelle les flux de travail de science des données Python, des machines uniques aux grands clusters. Il fonctionne comme un gestionnaire de ressources de cluster qui orchestre la logique computationnelle en représentant les tâches et leurs dépendances sous forme de graphes acycliques dirigés. Cette architecture permet au système d'automatiser la distribution des charges de travail sur le matériel disponible tout en gérant des exigences d'exécution complexes. Le projet se distingue par un moteur d'évaluation paresseuse qui diffère les opérations sur les données jusqu'à ce qu'elles soient explicitement demandées, permettant une optimisation globale du graphe et une allocation efficace des ressources. Il intègre le déversement de données conscient de la mémoire pour éviter les plantages du système lors du traitement de jeux de données dépassant la mémoire disponible, et il utilise la fusion de graphes de tâches pour combiner des séquences d'opérations en étapes d'exécution uniques, minimisant la surcharge de planification et la communication entre nœuds. La plateforme fournit une surface de capacités complète pour l'analyse de données à grande échelle, incluant le support pour l'apprentissage automatique distribué, l'intégration du calcul haute performance et le traitement de données parallèle. Elle offre des outils étendus pour la gestion du cycle de vie des clusters, le profilage des performances et la surveillance en temps réel de l'exécution des tâches. Les utilisateurs peuvent déployer ces environnements sur diverses infrastructures, incluant le matériel local, les fournisseurs cloud, les systèmes conteneurisés et les clusters de calcul haute performance.
Divides massive datasets into smaller chunks to perform computations that exceed the capacity of local system memory.
Xarray est une bibliothèque de tableaux multidimensionnels Python et un framework de jeux de données étiquetés. Elle étend la structure de données NumPy en ajoutant des étiquettes aux tableaux, permettant l'organisation de données N-dimensionnelles complexes en utilisant des dimensions et des coordonnées nommées. La bibliothèque fournit une interface de données NetCDF pour lire et écrire des formats de données scientifiques tels que NetCDF et Zarr. Elle permet le calcul scientifique sur tableaux en maintenant la relation entre les données et les coordonnées physiques pendant les opérations mathématiques. Le projet couvre l'analyse de données multidimensionnelles, la manipulation de données géospatiales et le traitement de données climatiques. Il prend également en charge l'analyse de séries temporelles pour gérer des séquences d'observations au fil du temps.
Wraps Dask arrays to defer computation until a result is explicitly requested.
Stumpy est une bibliothèque Python pour l'analyse de séries temporelles évolutive centrée sur l'implémentation d'algorithmes de profil de matrice. Elle fournit un framework pour calculer des profils de distance afin d'identifier des modèles répétitifs et des anomalies au sein des données de séries temporelles. Le projet se distingue par sa capacité à mettre à l'échelle des calculs lourds sur du matériel GPU et des clusters distribués utilisant Dask. Il prend en charge l'analyse multidimensionnelle pour découvrir des motifs à travers des flux de données concurrents et offre un calcul incrémentiel pour l'analyse de streaming en temps réel. La bibliothèque couvre un large éventail de techniques d'exploration de séries temporelles, incluant la découverte de motifs, la détection d'anomalies et la correspondance de modèles de séquence. Elle fournit également des outils pour la segmentation sémantique afin de détecter les changements de régime et l'extraction de chaînes temporellement ordonnées de modèles de sous-séquences similaires.
Distributes matrix profile computations across a cluster of machines using Dask integration.