5 dépôts
Two-dimensional labeled data structures with ordered columns sharing a common index.
Distinct from DataFrame Analysis: Existing candidates focus on exporting, integrating, or analyzing dataframes rather than the core construction of the structure itself.
Explore 5 awesome GitHub repositories matching data & databases · Tabular DataFrames. Refine with filters or upvote what's useful.
This library provides a diagnostic toolkit for automated data profiling and exploratory analysis. It generates comprehensive statistical summaries and visual reports for tabular datasets, enabling users to identify distribution patterns, missing values, and quality anomalies through a unified interface. The project distinguishes itself by offering differential analysis, which allows for the comparison of two dataset versions to track structural and statistical changes over time. It supports large-scale data processing through lazy evaluation and provides interactive widgets that embed directl
Normalizes access to tabular data structures through a consistent API for statistical analysis.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Constructs two-dimensional labeled table structures with ordered columns sharing a common index.
Apache DataFusion is an extensible, columnar SQL query engine that runs embedded within a host application without requiring a separate server process. It processes data in columnar batches using Apache Arrow for memory-efficient analytics, and can scale analytic workloads across multiple nodes for parallel execution. The engine supports both SQL and DataFrame queries through a modular, streaming architecture that allows custom operators, data sources, functions, and optimizer rules. The engine distinguishes itself through its modular extension framework, which enables building custom query e
Constructs and manipulates tabular data through a lazy DataFrame API with filtering, aggregation, and joins.
Ce projet est un livre de recettes d'analyse de données pandas et un guide de science des données Python. Il fournit une collection de recettes programmatiques et d'exemples pour nettoyer, manipuler et analyser des données structurées. Le projet se concentre sur la fourniture d'un environnement d'analyse conteneurisé pour assurer un espace de travail cohérent et des dépendances reproductibles lors de l'exécution de scripts de traitement de données. Il couvre un large éventail de capacités en science des données, y compris l'ingestion de données à partir de sources externes, le nettoyage de données brutes et l'analyse exploratoire des données. Ces recettes démontrent comment effectuer une analyse de données structurées via des techniques telles que le filtrage, l'agrégation de données groupées et le traitement de données textuelles.
Implements data modeling using tabular DataFrames with labeled axes for efficient indexing and slicing.
Ce dépôt sert de ressource éducative et de programme structuré pour effectuer des analyses statistiques avec Python. Il fournit un guide complet sur le flux de travail du calcul scientifique, en se concentrant sur l'application pratique du nettoyage des données, de la modélisation numérique et de la visualisation des distributions. Le tutoriel couvre le processus complet de transformation de données tabulaires brutes en informations exploitables. Il démontre comment manipuler des jeux de données structurés par fusion et agrégation, effectuer des calculs statistiques descriptifs et inférentiels, et ajuster des modèles de régression pour évaluer les relations entre les variables. De plus, le matériel aborde l'estimation de l'incertitude statistique en utilisant des techniques de rééchantillonnage pour générer des intervalles de confiance et des distributions d'échantillonnage. Le contenu est organisé pour aider les apprenants à utiliser les bibliothèques de calcul scientifique standard afin d'identifier des modèles et des tendances au sein d'informations numériques. Il inclut des exemples pratiques pour créer des représentations graphiques de données et exécuter des opérations mathématiques pour interpréter des jeux de données complexes.
Organizes structured information into labeled rows and columns to facilitate complex filtering, merging, and statistical aggregation.