2 repository-uri
Conversion of query results between different tabular memory formats and data science frameworks.
Distinct from Framework Array Conversions: Existing candidates are too narrow, focusing on specific tensor conversions rather than general dataframe format interoperability.
Explore 2 awesome GitHub repositories matching data & databases · Dataframe Interoperability. Refine with filters or upvote what's useful.
Ibis is a portable Python dataframe library and multi-backend query engine that provides a unified interface for executing data transformations across diverse compute engines. It functions as a Python SQL expression compiler and dialect transpiler, allowing users to define data logic once and execute it across cloud warehouses, embedded databases, and distributed clusters without rewriting code. The project distinguishes itself through a database backend abstraction that decouples transformation logic from the underlying execution engine. It enables polyglot data workflows by mixing raw SQL s
Transforms query results into common data structures such as Pandas, Polars, and PyArrow.
cuml este o bibliotecă de machine learning accelerată pe GPU și un framework care utilizează CUDA pentru a accelera preprocesarea datelor tabelare și execuția modelelor. Oferă o suită de instrumente pentru antrenarea și implementarea modelelor de clasificare, regresie și clustering pe GPU-uri NVIDIA și clustere GPU. Biblioteca este concepută pentru scalabilitate, oferind un mediu de machine learning GPU distribuit care poate răspândi calculul și datele pe mai multe acceleratoare hardware și noduri pentru a gestiona seturi de date care depășesc memoria unui singur dispozitiv. Oglindește interfețele standard ale estimatorilor pentru a permite înlocuirea modelelor bazate pe CPU cu versiuni accelerate pe GPU în cadrul fluxurilor de lucru existente. Proiectul acoperă o gamă largă de capabilități de machine learning, incluzând învățarea supervizată, clustering-ul nesupervizat, căutarea celui mai apropiat vecin și reducerea dimensionalității de înaltă dimensiune. Include, de asemenea, preprocesarea datelor tabelare accelerată hardware pentru scalarea și codificarea caracteristicilor, extracția caracteristicilor textuale, analiza seriilor temporale și explicabilitatea predicțiilor modelului. Utilitarele de suport includ instrumente pentru generarea de seturi de date sintetice, serializarea stării modelului și calcularea metricilor de performanță ale modelului.
Enables seamless data movement between processing libraries by accepting various input formats like arrays and dataframes.