2 dépôts
Utilities for filling empty cells or null values in tabular datasets.
Distinct from Random Value Populators: Candidates focus on generating mock data for test databases, whereas this is about filling gaps in existing real datasets.
Explore 2 awesome GitHub repositories matching data & databases · Missing Value Population. Refine with filters or upvote what's useful.
dplyr est une bibliothèque de manipulation de données pour R qui fournit une grammaire pour transformer les data frames tabulaires. Elle fonctionne comme un processeur de data frames en mémoire et un outil d'algèbre relationnelle, utilisant un ensemble cohérent de verbes pour filtrer, sélectionner et résumer les données. Le projet inclut un moteur de traduction SQL qui convertit des expressions de manipulation de données de haut niveau en requêtes optimisées. Cela permet aux utilisateurs d'effectuer des transformations directement sur des bases de données relationnelles distantes et du stockage cloud sans rapatrier les données localement. La bibliothèque couvre une large gamme d'opérations tabulaires, incluant la mutation de colonnes, le sous-ensemble de lignes et la jointure de données relationnelles. Elle offre également des capacités pour l'analyse de données groupées, permettant de partitionner les jeux de données pour des agrégations et des résumés indépendants.
Provides utilities for filling empty cells or replacing null values in tabular datasets.
qsv is a high-performance command line toolkit for querying, transforming, and analyzing comma-separated value files. It functions as a data wrangling interface and a tabular data profiler, featuring a query engine capable of executing SQL statements and joins directly on flat files without requiring a database. The project is distinguished by its ability to process massive datasets that exceed available system memory. This is achieved through disk-based external memory processing, including multithreaded merge sorting, on-disk hash tables for deduplication, and lightweight file indexing for
Provides capabilities to populate empty cells within a dataset.