3 dépôts
Converting query results between different in-memory dataframe and tensor formats.
Distinct from Object Result Fetches: Candidates focus on caching or API transformers; this is specifically about interop between Pandas, Polars, and PyArrow.
Explore 3 awesome GitHub repositories matching data & databases · Dataframe Format Conversion. Refine with filters or upvote what's useful.
Ibis is a portable Python dataframe library and multi-backend query engine that provides a unified interface for executing data transformations across diverse compute engines. It functions as a Python SQL expression compiler and dialect transpiler, allowing users to define data logic once and execute it across cloud warehouses, embedded databases, and distributed clusters without rewriting code. The project distinguishes itself through a database backend abstraction that decouples transformation logic from the underlying execution engine. It enables polyglot data workflows by mixing raw SQL s
Implements a bridge to convert query execution results between SQL backends and formats like Pandas, Polars, and PyArrow.
cuml est une bibliothèque et un framework de machine learning accéléré par GPU qui utilise CUDA pour accélérer le prétraitement des données tabulaires et l'exécution des modèles. Il fournit une suite d'outils pour entraîner et déployer des modèles de classification, de régression et de clustering sur des GPU NVIDIA et des clusters de GPU. La bibliothèque est conçue pour l'évolutivité, offrant un environnement de machine learning GPU distribué qui peut répartir le calcul et les données sur plusieurs accélérateurs matériels et nœuds pour gérer des ensembles de données dépassant la mémoire d'un seul appareil. Elle reflète les interfaces d'estimateur standard pour permettre le remplacement des modèles basés sur CPU par des versions accélérées par GPU au sein des flux de travail existants. Le projet couvre une large gamme de capacités de machine learning, y compris l'apprentissage supervisé, le clustering non supervisé, la recherche du plus proche voisin et la réduction de dimensionnalité de haute dimension. Il inclut également un prétraitement de données tabulaires accéléré par le matériel pour la mise à l'échelle et l'encodage des caractéristiques, l'extraction de caractéristiques de texte, l'analyse de séries temporelles et l'explicabilité des prédictions de modèle. Les utilitaires de support incluent des outils pour la génération d'ensembles de données synthétiques, la sérialisation de l'état du modèle et le calcul des métriques de performance du modèle.
Processes data directly from various in-memory dataframe and tensor formats without requiring manual conversion.
GluonTS est une bibliothèque de séries temporelles probabilistes et un framework de prévision par deep learning. Il fournit une boîte à outils pour construire, entraîner et évaluer des architectures de réseau neuronal qui prédisent les valeurs futures sous forme de distributions de probabilité pour quantifier l'incertitude. Le projet se distingue en prenant en charge la prévision zero-shot et en intégrant diverses approches de modélisation, y compris les réseaux neuronaux probabilistes profonds et des wrappers pour des bibliothèques statistiques externes telles que Prophet et R forecast. Il implémente des primitives architecturales spécialisées comme les convolutions causales et les réseaux résiduels inversibles pour empêcher la fuite d'informations et mapper les représentations latentes en distributions de probabilité valides. Le framework couvre une surface d'ingénierie de données complète, y compris la mise à l'échelle des séries temporelles, les transformations bijectives et la modélisation hiérarchique. Il utilise Apache Arrow et Parquet pour la diffusion d'ensembles de données haute performance et la gestion de l'accès aléatoire. Pour l'évaluation des modèles, il inclut une suite d'évaluation pour mesurer la précision des prévisions et la couverture probabiliste en utilisant des métriques comme la perte quantile et les scores de probabilité de rang continu. La bibliothèque prend en charge le déploiement de modèles via l'intégration avec Amazon SageMaker.
Transforms tabular Pandas dataframes into structured formats suitable for time series modeling.