5 Repos
Two-dimensional labeled data structures with ordered columns sharing a common index.
Distinct from DataFrame Analysis: Existing candidates focus on exporting, integrating, or analyzing dataframes rather than the core construction of the structure itself.
Explore 5 awesome GitHub repositories matching data & databases · Tabular DataFrames. Refine with filters or upvote what's useful.
This library provides a diagnostic toolkit for automated data profiling and exploratory analysis. It generates comprehensive statistical summaries and visual reports for tabular datasets, enabling users to identify distribution patterns, missing values, and quality anomalies through a unified interface. The project distinguishes itself by offering differential analysis, which allows for the comparison of two dataset versions to track structural and statistical changes over time. It supports large-scale data processing through lazy evaluation and provides interactive widgets that embed directl
Normalizes access to tabular data structures through a consistent API for statistical analysis.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Constructs two-dimensional labeled table structures with ordered columns sharing a common index.
Apache DataFusion is an extensible, columnar SQL query engine that runs embedded within a host application without requiring a separate server process. It processes data in columnar batches using Apache Arrow for memory-efficient analytics, and can scale analytic workloads across multiple nodes for parallel execution. The engine supports both SQL and DataFrame queries through a modular, streaming architecture that allows custom operators, data sources, functions, and optimizer rules. The engine distinguishes itself through its modular extension framework, which enables building custom query e
Constructs and manipulates tabular data through a lazy DataFrame API with filtering, aggregation, and joins.
Dieses Projekt ist ein pandas-Datenanalyse-Kochbuch und ein Python-Data-Science-Leitfaden. Es bietet eine Sammlung programmatischer Rezepte und Beispiele für das Bereinigen, Manipulieren und Analysieren strukturierter Daten. Das Projekt konzentriert sich auf die Bereitstellung einer containerisierten Analyseumgebung, um einen konsistenten Arbeitsbereich und reproduzierbare Abhängigkeiten bei der Ausführung von Datenverarbeitungsskripten zu gewährleisten. Es deckt ein breites Spektrum an Data-Science-Fähigkeiten ab, einschließlich Datenaufnahme aus externen Quellen, Rohdatenbereinigung und explorativer Datenanalyse. Diese Rezepte demonstrieren, wie strukturierte Datenanalyse durch Techniken wie Filtern, Aggregieren gruppierter Daten und die Verarbeitung von Textdaten durchgeführt wird.
Implements data modeling using tabular DataFrames with labeled axes for efficient indexing and slicing.
Dieses Repository dient als Bildungsressource und strukturierter Lehrplan für statistische Analysen mit Python. Es bietet einen umfassenden Leitfaden für den Workflow des wissenschaftlichen Rechnens, mit Fokus auf die praktische Anwendung von Datenbereinigung, numerischer Modellierung und der Visualisierung von Verteilungen. Das Tutorial deckt den gesamten Prozess von der Umwandlung roher tabellarischer Daten in verwertbare Erkenntnisse ab. Es zeigt, wie man strukturierte Datensätze durch Zusammenführen und Aggregation manipuliert, deskriptive und inferenzstatistische Berechnungen durchführt und Regressionsmodelle zur Bewertung von Variablenbeziehungen anpasst. Zusätzlich behandelt das Material die Schätzung statistischer Unsicherheit durch Resampling-Techniken zur Erzeugung von Konfidenzintervallen und Stichprobenverteilungen. Die Inhalte sind darauf ausgelegt, Lernende bei der Anwendung wissenschaftlicher Standardbibliotheken zu unterstützen, um Muster und Trends in numerischen Informationen zu identifizieren. Es enthält praktische Beispiele für die grafische Darstellung von Daten und die Ausführung mathematischer Operationen zur Interpretation komplexer Datensätze.
Organizes structured information into labeled rows and columns to facilitate complex filtering, merging, and statistical aggregation.