Why is dask/dask a recommended Lazy Array Constructors GitHub Repositories repository?

Constructs large-scale arrays from lazy function calls to enable distributed processing.

Why is pydata/xarray a recommended Lazy Array Constructors GitHub Repositories repository?

Wraps Dask arrays to defer computation until a result is explicitly requested.

Why is stumpy-dev/stumpy a recommended Lazy Array Constructors GitHub Repositories repository?

Distributes matrix profile computations across a cluster of machines using Dask integration.

3 Repos

Awesome GitHub RepositoriesLazy Array Constructors

Creation of large-scale arrays from lazy function calls or memory-mapped files.

Distinct from Distributed Array Processing: Distinct from general distributed array processing: focuses on the construction phase from lazy sources.

Explore 3 awesome GitHub repositories matching data & databases · Lazy Array Constructors. Refine with filters or upvote what's useful.

Finde die besten Repos mit KI.Wir suchen mit KI nach den am besten passenden Repositories.

dask/dask
dask/dask
13,746Auf GitHub ansehen
Dask ist ein Framework für paralleles Rechnen und ein verteilter Task-Scheduler, der darauf ausgelegt ist, Python-Data-Science-Workflows von einzelnen Maschinen auf große Cluster zu skalieren. Es fungiert als Cluster-Ressourcenmanager, der die Berechnungslogik orchestriert, indem Aufgaben und deren Abhängigkeiten als gerichtete azyklische Graphen dargestellt werden. Diese Architektur ermöglicht es dem System, die Verteilung von Workloads auf verfügbare Hardware zu automatisieren und gleichzeitig komplexe Ausführungsanforderungen zu verwalten. Das Projekt zeichnet sich durch eine Lazy-Evaluation-Engine aus, die Datenoperationen verzögert, bis sie explizit angefordert werden, was eine globale Graphoptimierung und effiziente Ressourcenzuweisung ermöglicht. Es integriert speicherbewusstes Data-Spilling, um Systemabstürze bei der Verarbeitung von Datensätzen zu verhindern, die den verfügbaren Speicher überschreiten, und nutzt Task-Graph-Fusion, um Sequenzen von Operationen in einzelne Ausführungsschritte zu kombinieren, wodurch Scheduling-Overhead und Inter-Node-Kommunikation minimiert werden. Die Plattform bietet eine umfassende Oberfläche für die Datenanalyse im großen Maßstab, einschließlich Unterstützung für verteiltes maschinelles Lernen, Integration in das Hochleistungsrechnen und parallele Datenverarbeitung. Sie bietet umfangreiche Werkzeuge für das Cluster-Lebenszyklusmanagement, Performance-Profiling und die Echtzeitüberwachung der Aufgabenausführung. Benutzer können diese Umgebungen über verschiedene Infrastrukturen hinweg bereitstellen, einschließlich lokaler Hardware, Cloud-Anbietern, containerisierten Systemen und Hochleistungsrechner-Clustern.
Constructs large-scale arrays from lazy function calls to enable distributed processing.
Pythondasknumpypandas
Auf GitHub ansehen13,746
pydata/xarray
pydata/xarray
4,159Auf GitHub ansehen
Xarray is a Python multidimensional array library and labeled dataset framework. It extends the NumPy data structure by adding labels to arrays, allowing for the organization of complex N-dimensional data using named dimensions and coordinates. The library provides a NetCDF data interface for reading and writing scientific data formats such as NetCDF and Zarr. It enables scientific array computing by maintaining the relationship between data and physical coordinates during mathematical operations. The project covers multidimensional data analysis, geospatial data manipulation, and climate da
Wraps Dask arrays to defer computation until a result is explicitly requested.
Python
Auf GitHub ansehen4,159
stumpy-dev/stumpy
stumpy-dev/stumpy
4,105Auf GitHub ansehen
Stumpy ist eine Python-Bibliothek für skalierbare Zeitreihenanalyse, die sich auf die Implementierung von Matrix-Profile-Algorithmen konzentriert. Sie bietet ein Framework zur Berechnung von Distanzprofilen, um wiederkehrende Muster und Anomalien innerhalb von Zeitreihendaten zu identifizieren. Das Projekt zeichnet sich durch seine Fähigkeit aus, rechenintensive Aufgaben über GPU-Hardware und verteilte Cluster mittels Dask zu skalieren. Es unterstützt multidimensionale Analysen zur Entdeckung von Motiven über gleichzeitige Datenströme hinweg und bietet inkrementelle Berechnungen für Echtzeit-Streaming-Analysen. Die Bibliothek deckt ein breites Spektrum an Zeitreihen-Mining-Techniken ab, einschließlich Motiv-Entdeckung, Anomalieerkennung und Sequenz-Musterabgleich. Sie bietet zudem Tools für semantische Segmentierung zur Erkennung von Regime-Änderungen und die Extraktion zeitlich geordneter Ketten ähnlicher Subsequenz-Muster.
Distributes matrix profile computations across a cluster of machines using Dask integration.
Pythonanomaly-detectiondaskdata-science
Auf GitHub ansehen4,105

Awesome Lazy Array Constructors GitHub Repositories

dask/dask

pydata/xarray

stumpy-dev/stumpy

Unter-Tags erkunden