3 Repos
Creation of large-scale arrays from lazy function calls or memory-mapped files.
Distinct from Distributed Array Processing: Distinct from general distributed array processing: focuses on the construction phase from lazy sources.
Explore 3 awesome GitHub repositories matching data & databases · Lazy Array Constructors. Refine with filters or upvote what's useful.
Dask ist ein Framework für paralleles Rechnen und ein verteilter Task-Scheduler, der darauf ausgelegt ist, Python-Data-Science-Workflows von einzelnen Maschinen auf große Cluster zu skalieren. Es fungiert als Cluster-Ressourcenmanager, der die Berechnungslogik orchestriert, indem Aufgaben und deren Abhängigkeiten als gerichtete azyklische Graphen dargestellt werden. Diese Architektur ermöglicht es dem System, die Verteilung von Workloads auf verfügbare Hardware zu automatisieren und gleichzeitig komplexe Ausführungsanforderungen zu verwalten. Das Projekt zeichnet sich durch eine Lazy-Evaluation-Engine aus, die Datenoperationen verzögert, bis sie explizit angefordert werden, was eine globale Graphoptimierung und effiziente Ressourcenzuweisung ermöglicht. Es integriert speicherbewusstes Data-Spilling, um Systemabstürze bei der Verarbeitung von Datensätzen zu verhindern, die den verfügbaren Speicher überschreiten, und nutzt Task-Graph-Fusion, um Sequenzen von Operationen in einzelne Ausführungsschritte zu kombinieren, wodurch Scheduling-Overhead und Inter-Node-Kommunikation minimiert werden. Die Plattform bietet eine umfassende Oberfläche für die Datenanalyse im großen Maßstab, einschließlich Unterstützung für verteiltes maschinelles Lernen, Integration in das Hochleistungsrechnen und parallele Datenverarbeitung. Sie bietet umfangreiche Werkzeuge für das Cluster-Lebenszyklusmanagement, Performance-Profiling und die Echtzeitüberwachung der Aufgabenausführung. Benutzer können diese Umgebungen über verschiedene Infrastrukturen hinweg bereitstellen, einschließlich lokaler Hardware, Cloud-Anbietern, containerisierten Systemen und Hochleistungsrechner-Clustern.
Constructs large-scale arrays from lazy function calls to enable distributed processing.
Xarray is a Python multidimensional array library and labeled dataset framework. It extends the NumPy data structure by adding labels to arrays, allowing for the organization of complex N-dimensional data using named dimensions and coordinates. The library provides a NetCDF data interface for reading and writing scientific data formats such as NetCDF and Zarr. It enables scientific array computing by maintaining the relationship between data and physical coordinates during mathematical operations. The project covers multidimensional data analysis, geospatial data manipulation, and climate da
Wraps Dask arrays to defer computation until a result is explicitly requested.
Stumpy ist eine Python-Bibliothek für skalierbare Zeitreihenanalyse, die sich auf die Implementierung von Matrix-Profile-Algorithmen konzentriert. Sie bietet ein Framework zur Berechnung von Distanzprofilen, um wiederkehrende Muster und Anomalien innerhalb von Zeitreihendaten zu identifizieren. Das Projekt zeichnet sich durch seine Fähigkeit aus, rechenintensive Aufgaben über GPU-Hardware und verteilte Cluster mittels Dask zu skalieren. Es unterstützt multidimensionale Analysen zur Entdeckung von Motiven über gleichzeitige Datenströme hinweg und bietet inkrementelle Berechnungen für Echtzeit-Streaming-Analysen. Die Bibliothek deckt ein breites Spektrum an Zeitreihen-Mining-Techniken ab, einschließlich Motiv-Entdeckung, Anomalieerkennung und Sequenz-Musterabgleich. Sie bietet zudem Tools für semantische Segmentierung zur Erkennung von Regime-Änderungen und die Extraktion zeitlich geordneter Ketten ähnlicher Subsequenz-Muster.
Distributes matrix profile computations across a cluster of machines using Dask integration.