5 repositorios
Two-dimensional labeled data structures with ordered columns sharing a common index.
Distinct from DataFrame Analysis: Existing candidates focus on exporting, integrating, or analyzing dataframes rather than the core construction of the structure itself.
Explore 5 awesome GitHub repositories matching data & databases · Tabular DataFrames. Refine with filters or upvote what's useful.
This library provides a diagnostic toolkit for automated data profiling and exploratory analysis. It generates comprehensive statistical summaries and visual reports for tabular datasets, enabling users to identify distribution patterns, missing values, and quality anomalies through a unified interface. The project distinguishes itself by offering differential analysis, which allows for the comparison of two dataset versions to track structural and statistical changes over time. It supports large-scale data processing through lazy evaluation and provides interactive widgets that embed directl
Normalizes access to tabular data structures through a consistent API for statistical analysis.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Constructs two-dimensional labeled table structures with ordered columns sharing a common index.
Apache DataFusion is an extensible, columnar SQL query engine that runs embedded within a host application without requiring a separate server process. It processes data in columnar batches using Apache Arrow for memory-efficient analytics, and can scale analytic workloads across multiple nodes for parallel execution. The engine supports both SQL and DataFrame queries through a modular, streaming architecture that allows custom operators, data sources, functions, and optimizer rules. The engine distinguishes itself through its modular extension framework, which enables building custom query e
Constructs and manipulates tabular data through a lazy DataFrame API with filtering, aggregation, and joins.
Este proyecto es un libro de recetas de análisis de datos con pandas y una guía de ciencia de datos en Python. Proporciona una colección de recetas programáticas y ejemplos para limpiar, manipular y analizar datos estructurados. El proyecto se centra en proporcionar un entorno de análisis contenedorizado para garantizar un espacio de trabajo consistente y dependencias reproducibles al ejecutar scripts de procesamiento de datos. Cubre una amplia gama de capacidades de ciencia de datos, incluida la ingesta de datos desde fuentes externas, la limpieza de datos sin procesar y el análisis exploratorio de datos. Estas recetas demuestran cómo realizar análisis de datos estructurados mediante técnicas como el filtrado, la agregación de datos agrupados y el procesamiento de datos de texto.
Implements data modeling using tabular DataFrames with labeled axes for efficient indexing and slicing.
Este repositorio sirve como un recurso educativo y un plan de estudios estructurado para realizar análisis estadísticos utilizando Python. Proporciona una guía completa sobre el flujo de trabajo de computación científica, centrándose en la aplicación práctica de la limpieza de datos, el modelado numérico y la visualización de distribuciones. El tutorial cubre el proceso integral de transformar datos tabulares sin procesar en información accionable. Demuestra cómo manipular conjuntos de datos estructurados mediante fusiones y agregaciones, realizar cálculos estadísticos descriptivos e inferenciales, y ajustar modelos de regresión para evaluar las relaciones entre variables. Además, el material aborda la estimación de la incertidumbre estadística utilizando técnicas de remuestreo para generar intervalos de confianza y distribuciones de muestreo. El contenido está organizado para ayudar a los estudiantes a aplicar bibliotecas estándar de computación científica para identificar patrones y tendencias dentro de la información numérica. Incluye ejemplos prácticos para crear representaciones gráficas de datos y ejecutar operaciones matemáticas para interpretar conjuntos de datos complejos.
Organizes structured information into labeled rows and columns to facilitate complex filtering, merging, and statistical aggregation.