2 dépôts
Conversion of query results between different tabular memory formats and data science frameworks.
Distinct from Framework Array Conversions: Existing candidates are too narrow, focusing on specific tensor conversions rather than general dataframe format interoperability.
Explore 2 awesome GitHub repositories matching data & databases · Dataframe Interoperability. Refine with filters or upvote what's useful.
Ibis is a portable Python dataframe library and multi-backend query engine that provides a unified interface for executing data transformations across diverse compute engines. It functions as a Python SQL expression compiler and dialect transpiler, allowing users to define data logic once and execute it across cloud warehouses, embedded databases, and distributed clusters without rewriting code. The project distinguishes itself through a database backend abstraction that decouples transformation logic from the underlying execution engine. It enables polyglot data workflows by mixing raw SQL s
Transforms query results into common data structures such as Pandas, Polars, and PyArrow.
cuml est une bibliothèque et un framework de machine learning accéléré par GPU qui utilise CUDA pour accélérer le prétraitement des données tabulaires et l'exécution des modèles. Il fournit une suite d'outils pour entraîner et déployer des modèles de classification, de régression et de clustering sur des GPU NVIDIA et des clusters de GPU. La bibliothèque est conçue pour l'évolutivité, offrant un environnement de machine learning GPU distribué qui peut répartir le calcul et les données sur plusieurs accélérateurs matériels et nœuds pour gérer des ensembles de données dépassant la mémoire d'un seul appareil. Elle reflète les interfaces d'estimateur standard pour permettre le remplacement des modèles basés sur CPU par des versions accélérées par GPU au sein des flux de travail existants. Le projet couvre une large gamme de capacités de machine learning, y compris l'apprentissage supervisé, le clustering non supervisé, la recherche du plus proche voisin et la réduction de dimensionnalité de haute dimension. Il inclut également un prétraitement de données tabulaires accéléré par le matériel pour la mise à l'échelle et l'encodage des caractéristiques, l'extraction de caractéristiques de texte, l'analyse de séries temporelles et l'explicabilité des prédictions de modèle. Les utilitaires de support incluent des outils pour la génération d'ensembles de données synthétiques, la sérialisation de l'état du modèle et le calcul des métriques de performance du modèle.
Enables seamless data movement between processing libraries by accepting various input formats like arrays and dataframes.