3 dépôts
Architectural patterns for partitioning, processing, and reassembling data.
Distinguishing note: Focuses on the structural pattern rather than simple grouping utilities.
Explore 3 awesome GitHub repositories matching data & databases · Split-Apply-Combine Patterns. Refine with filters or upvote what's useful.
Pandas is a high-performance data analysis library that provides a comprehensive framework for manipulating, cleaning, and transforming structured datasets. It centers on labeled one-dimensional and two-dimensional data structures, allowing users to construct, filter, and reshape tabular information while performing complex arithmetic and logical operations. The library distinguishes itself through a sophisticated indexing engine that enables automatic data alignment during calculations and relational merges. By utilizing a block-based memory layout, it optimizes cache locality for vectorized
Implements the split-apply-combine pattern for independent group processing and reassembly.
Ce projet est un livre de recettes d'analyse de données pandas et un guide de science des données Python. Il fournit une collection de recettes programmatiques et d'exemples pour nettoyer, manipuler et analyser des données structurées. Le projet se concentre sur la fourniture d'un environnement d'analyse conteneurisé pour assurer un espace de travail cohérent et des dépendances reproductibles lors de l'exécution de scripts de traitement de données. Il couvre un large éventail de capacités en science des données, y compris l'ingestion de données à partir de sources externes, le nettoyage de données brutes et l'analyse exploratoire des données. Ces recettes démontrent comment effectuer une analyse de données structurées via des techniques telles que le filtrage, l'agrégation de données groupées et le traitement de données textuelles.
Uses the split-apply-combine pattern to process data by categorizing, applying functions, and merging results.
Danfo.js est une bibliothèque d'analyse et de prétraitement de données pour JavaScript qui fournit des structures de données étiquetées haute performance. Elle implémente des dataframes et des séries pour permettre une analyse de données complexe, le calcul statistique et la manipulation de données tabulaires structurées. Le projet sert de bibliothèque de prétraitement pour le machine learning, offrant des utilitaires pour l'encodage d'étiquettes catégorielles, l'encodage one-hot, ainsi que la mise à l'échelle et la standardisation des caractéristiques numériques. Elle facilite spécifiquement la conversion de structures de données étiquetées en tenseurs pour l'entraînement et l'évaluation de modèles. La bibliothèque couvre un large ensemble de capacités incluant les statistiques descriptives, les opérations relationnelles comme la fusion et la jointure, et le traitement de séries temporelles. Elle inclut des outils pour le nettoyage, le filtrage et le regroupement de données, ainsi qu'une interface de visualisation pour générer des graphiques interactifs directement à partir des dataframes. Le système prend en charge l'importation et l'exportation de données via les formats CSV, JSON et Excel.
Implements the split-apply-combine pattern to segment datasets, apply functions, and reassemble results.