Why is jax-ml/jax a recommended Distributed Array Processing GitHub Repositories repository?

Scales large-scale data computations across multiple hardware devices by automatically partitioning arrays and managing communication.

Why is dask/dask a recommended Distributed Array Processing GitHub Repositories repository?

Divides massive datasets into smaller chunks to perform computations that exceed the capacity of local system memory.

Why is pydata/xarray a recommended Distributed Array Processing GitHub Repositories repository?

Wraps Dask arrays to defer computation until a result is explicitly requested.

Why is stumpy-dev/stumpy a recommended Distributed Array Processing GitHub Repositories repository?

Distributes matrix profile computations across a cluster of machines using Dask integration.

4 repository-uri

Awesome GitHub RepositoriesDistributed Array Processing

Systems for scaling large-scale data computations across multiple hardware devices.

Distinguishing note: Focuses on the infrastructure of array partitioning and inter-device communication rather than high-level data analysis.

Explore 4 awesome GitHub repositories matching data & databases · Distributed Array Processing. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

jax-ml/jax
jax-ml/jax
35,828Vezi pe GitHub
This project is a high-performance numerical computing library designed for large-scale scientific and machine learning workloads. It functions as an automatic differentiation framework and a just-in-time compilation engine, transforming high-level Python code into optimized machine instructions. By enforcing pure functional programming patterns and immutable array semantics, the library ensures that mathematical functions remain compatible with automated graph transformations and symbolic differentiation. The platform distinguishes itself through its distributed array computing capabilities,
Scales large-scale data computations across multiple hardware devices by automatically partitioning arrays and managing communication.
Pythonjax
Vezi pe GitHub35,828
dask/dask
dask/dask
13,746Vezi pe GitHub
Dask este un framework de calcul paralel și un scheduler de sarcini distribuit conceput pentru a scala fluxurile de lucru de știința datelor în Python de la mașini individuale la clustere mari. Acesta funcționează ca un manager de resurse de cluster care orchestrează logica computațională prin reprezentarea sarcinilor și a dependențelor acestora sub formă de grafuri aciclice direcționate. Această arhitectură permite sistemului să automatizeze distribuția sarcinilor de lucru pe hardware-ul disponibil, gestionând în același timp cerințe complexe de execuție. Proiectul se distinge printr-un motor de evaluare leneșă (lazy) care amână operațiunile pe date până când sunt solicitate explicit, permițând optimizarea globală a grafului și alocarea eficientă a resurselor. Acesta încorporează „spilling” de date conștient de memorie pentru a preveni blocarea sistemului la procesarea seturilor de date care depășesc memoria disponibilă și utilizează fuziunea grafului de sarcini pentru a combina secvențe de operațiuni în pași de execuție unici, minimizând overhead-ul de programare și comunicarea între noduri. Platforma oferă o suprafață cuprinzătoare de capabilități pentru analiza datelor la scară largă, inclusiv suport pentru învățare automată distribuită, integrare cu calcul de înaltă performanță și procesare paralelă a datelor. Oferă instrumente extinse pentru gestionarea ciclului de viață al clusterului, profilarea performanței și monitorizarea în timp real a execuției sarcinilor. Utilizatorii pot implementa aceste medii pe diverse infrastructuri, inclusiv hardware local, furnizori de cloud, sisteme containerizate și clustere de calcul de înaltă performanță.
Divides massive datasets into smaller chunks to perform computations that exceed the capacity of local system memory.
Pythondasknumpypandas
Vezi pe GitHub13,746
pydata/xarray
pydata/xarray
4,159Vezi pe GitHub
Xarray este o bibliotecă Python pentru array-uri multidimensionale și un framework pentru seturi de date etichetate. Extinde structura de date NumPy prin adăugarea de etichete la array-uri, permițând organizarea datelor complexe N-dimensionale folosind dimensiuni și coordonate denumite. Biblioteca oferă o interfață de date NetCDF pentru citirea și scrierea formatelor de date științifice precum NetCDF și Zarr. Permite calculul științific pe array-uri prin menținerea relației dintre date și coordonatele fizice în timpul operațiunilor matematice. Proiectul acoperă analiza datelor multidimensionale, manipularea datelor geospațiale și procesarea datelor climatice. De asemenea, suportă analiza seriilor temporale pentru gestionarea secvențelor de observații în timp.
Wraps Dask arrays to defer computation until a result is explicitly requested.
Python
Vezi pe GitHub4,159
stumpy-dev/stumpy
stumpy-dev/stumpy
4,105Vezi pe GitHub
Stumpy este o bibliotecă Python pentru analiza scalabilă a seriilor temporale, centrată pe implementarea algoritmilor de profil matriceal. Acesta oferă un framework pentru calcularea profilurilor de distanță pentru a identifica tipare repetitive și anomalii în datele seriilor temporale. Proiectul se distinge prin capacitatea sa de a scala calculele grele pe hardware GPU și clustere distribuite folosind Dask. Suportă analiza multidimensională pentru descoperirea motivelor în fluxuri de date concurente și oferă calcul incremental pentru analiza fluxurilor în timp real. Biblioteca acoperă o gamă largă de tehnici de minare a seriilor temporale, inclusiv descoperirea motivelor, detectarea anomaliilor și potrivirea tiparelor de secvență. Oferă, de asemenea, instrumente pentru segmentarea semantică pentru a detecta schimbările de regim și extragerea lanțurilor ordonate temporal de tipare de sub-secvențe similare.
Distributes matrix profile computations across a cluster of machines using Dask integration.
Pythonanomaly-detectiondaskdata-science
Vezi pe GitHub4,105

Awesome Distributed Array Processing GitHub Repositories

jax-ml/jax

dask/dask

pydata/xarray

stumpy-dev/stumpy

Explorează sub-etichetele