4 repository-uri
Systems for scaling large-scale data computations across multiple hardware devices.
Distinguishing note: Focuses on the infrastructure of array partitioning and inter-device communication rather than high-level data analysis.
Explore 4 awesome GitHub repositories matching data & databases · Distributed Array Processing. Refine with filters or upvote what's useful.
This project is a high-performance numerical computing library designed for large-scale scientific and machine learning workloads. It functions as an automatic differentiation framework and a just-in-time compilation engine, transforming high-level Python code into optimized machine instructions. By enforcing pure functional programming patterns and immutable array semantics, the library ensures that mathematical functions remain compatible with automated graph transformations and symbolic differentiation. The platform distinguishes itself through its distributed array computing capabilities,
Scales large-scale data computations across multiple hardware devices by automatically partitioning arrays and managing communication.
Dask este un framework de calcul paralel și un scheduler de sarcini distribuit conceput pentru a scala fluxurile de lucru de știința datelor în Python de la mașini individuale la clustere mari. Acesta funcționează ca un manager de resurse de cluster care orchestrează logica computațională prin reprezentarea sarcinilor și a dependențelor acestora sub formă de grafuri aciclice direcționate. Această arhitectură permite sistemului să automatizeze distribuția sarcinilor de lucru pe hardware-ul disponibil, gestionând în același timp cerințe complexe de execuție. Proiectul se distinge printr-un motor de evaluare leneșă (lazy) care amână operațiunile pe date până când sunt solicitate explicit, permițând optimizarea globală a grafului și alocarea eficientă a resurselor. Acesta încorporează „spilling” de date conștient de memorie pentru a preveni blocarea sistemului la procesarea seturilor de date care depășesc memoria disponibilă și utilizează fuziunea grafului de sarcini pentru a combina secvențe de operațiuni în pași de execuție unici, minimizând overhead-ul de programare și comunicarea între noduri. Platforma oferă o suprafață cuprinzătoare de capabilități pentru analiza datelor la scară largă, inclusiv suport pentru învățare automată distribuită, integrare cu calcul de înaltă performanță și procesare paralelă a datelor. Oferă instrumente extinse pentru gestionarea ciclului de viață al clusterului, profilarea performanței și monitorizarea în timp real a execuției sarcinilor. Utilizatorii pot implementa aceste medii pe diverse infrastructuri, inclusiv hardware local, furnizori de cloud, sisteme containerizate și clustere de calcul de înaltă performanță.
Divides massive datasets into smaller chunks to perform computations that exceed the capacity of local system memory.
Xarray este o bibliotecă Python pentru array-uri multidimensionale și un framework pentru seturi de date etichetate. Extinde structura de date NumPy prin adăugarea de etichete la array-uri, permițând organizarea datelor complexe N-dimensionale folosind dimensiuni și coordonate denumite. Biblioteca oferă o interfață de date NetCDF pentru citirea și scrierea formatelor de date științifice precum NetCDF și Zarr. Permite calculul științific pe array-uri prin menținerea relației dintre date și coordonatele fizice în timpul operațiunilor matematice. Proiectul acoperă analiza datelor multidimensionale, manipularea datelor geospațiale și procesarea datelor climatice. De asemenea, suportă analiza seriilor temporale pentru gestionarea secvențelor de observații în timp.
Wraps Dask arrays to defer computation until a result is explicitly requested.
Stumpy este o bibliotecă Python pentru analiza scalabilă a seriilor temporale, centrată pe implementarea algoritmilor de profil matriceal. Acesta oferă un framework pentru calcularea profilurilor de distanță pentru a identifica tipare repetitive și anomalii în datele seriilor temporale. Proiectul se distinge prin capacitatea sa de a scala calculele grele pe hardware GPU și clustere distribuite folosind Dask. Suportă analiza multidimensională pentru descoperirea motivelor în fluxuri de date concurente și oferă calcul incremental pentru analiza fluxurilor în timp real. Biblioteca acoperă o gamă largă de tehnici de minare a seriilor temporale, inclusiv descoperirea motivelor, detectarea anomaliilor și potrivirea tiparelor de secvență. Oferă, de asemenea, instrumente pentru segmentarea semantică pentru a detecta schimbările de regim și extragerea lanțurilor ordonate temporal de tipare de sub-secvențe similare.
Distributes matrix profile computations across a cluster of machines using Dask integration.