3 repositorios
Creation of large-scale arrays from lazy function calls or memory-mapped files.
Distinct from Distributed Array Processing: Distinct from general distributed array processing: focuses on the construction phase from lazy sources.
Explore 3 awesome GitHub repositories matching data & databases · Lazy Array Constructors. Refine with filters or upvote what's useful.
Dask es un framework de computación paralela y un programador de tareas distribuido diseñado para escalar flujos de trabajo de ciencia de datos en Python desde máquinas individuales hasta grandes clústeres. Funciona como un gestor de recursos de clúster que orquesta la lógica computacional representando las tareas y sus dependencias como grafos acíclicos dirigidos. Esta arquitectura permite al sistema automatizar la distribución de cargas de trabajo a través del hardware disponible mientras gestiona requisitos de ejecución complejos. El proyecto se distingue por un motor de evaluación perezosa que difiere las operaciones de datos hasta que se solicitan explícitamente, permitiendo la optimización global del grafo y una asignación eficiente de recursos. Incorpora el volcado de datos consciente de la memoria para evitar fallos del sistema al procesar conjuntos de datos que exceden la memoria disponible, y utiliza la fusión de grafos de tareas para combinar secuencias de operaciones en pasos de ejecución únicos, minimizando la sobrecarga de programación y la comunicación entre nodos. La plataforma proporciona una superficie de capacidades integral para el análisis de datos a gran escala, incluyendo soporte para aprendizaje automático distribuido, integración de computación de alto rendimiento y procesamiento de datos en paralelo. Ofrece herramientas extensas para la gestión del ciclo de vida del clúster, perfilado de rendimiento y monitoreo en tiempo real de la ejecución de tareas. Los usuarios pueden desplegar estos entornos en diversas infraestructuras, incluyendo hardware local, proveedores de nube, sistemas en contenedores y clústeres de computación de alto rendimiento.
Constructs large-scale arrays from lazy function calls to enable distributed processing.
Xarray es una librería de arrays multidimensionales de Python y framework de conjuntos de datos etiquetados. Extiende la estructura de datos de NumPy añadiendo etiquetas a los arrays, permitiendo la organización de datos complejos N-dimensionales utilizando dimensiones y coordenadas con nombre. La librería proporciona una interfaz de datos NetCDF para leer y escribir formatos de datos científicos como NetCDF y Zarr. Permite la computación científica de arrays manteniendo la relación entre los datos y las coordenadas físicas durante las operaciones matemáticas. El proyecto cubre el análisis de datos multidimensionales, manipulación de datos geoespaciales y procesamiento de datos climáticos. También admite el análisis de series temporales para gestionar secuencias de observaciones a lo largo del tiempo.
Wraps Dask arrays to defer computation until a result is explicitly requested.
Stumpy es una librería de Python para análisis de series temporales escalable centrada en la implementación de algoritmos de perfil de matriz (matrix profile). Proporciona un framework para calcular perfiles de distancia para identificar patrones repetitivos y anomalías dentro de datos de series temporales. El proyecto se distingue por su capacidad para escalar cálculos pesados a través de hardware GPU y clusters distribuidos utilizando Dask. Admite análisis multidimensional para descubrir motivos a través de flujos de datos concurrentes y ofrece computación incremental para análisis de streaming en tiempo real. La librería cubre una amplia gama de técnicas de minería de series temporales, incluyendo descubrimiento de motivos, detección de anomalías y coincidencia de patrones de secuencia. También proporciona herramientas para segmentación semántica para detectar cambios de régimen y la extracción de cadenas ordenadas temporalmente de patrones de subsecuencia similares.
Distributes matrix profile computations across a cluster of machines using Dask integration.