What are the best Awesome Data Cleaning Procedures GitHub Repositories?

Methods for filtering and correcting errors in datasets. **Distinguishing note:** Focuses on the data preparation and cleaning phase. Explore 19 awesome GitHub repositories matching data & databases · Data Cleaning Procedures. Refine with filters or upvote what's useful. Top picks: microsoft/data-science-for-beginners, morvanzhou/tutorials, cleanlab/cleanlab, autogluon/autogluon, microsoft/vscode-copilot-chat, jvns/pandas-cookbook, datajuicer/data-juicer, wireservice/csvkit, obss/sahi, rasbt/…

Why is microsoft/data-science-for-beginners a recommended Data Cleaning Procedures GitHub Repositories repository?

Demonstrates techniques for filtering datasets and correcting data entry errors.

Why is morvanzhou/tutorials a recommended Data Cleaning Procedures GitHub Repositories repository?

Provides methods for filtering and correcting errors in datasets to prepare them for analysis.

Why is cleanlab/cleanlab a recommended Data Cleaning Procedures GitHub Repositories repository?

Locates mislabeled examples using confident learning algorithms to improve overall data quality.

Why is autogluon/autogluon a recommended Data Cleaning Procedures GitHub Repositories repository?

Removes redundant information by dropping duplicate columns or columns with a single unique value.

Why is microsoft/vscode-copilot-chat a recommended Data Cleaning Procedures GitHub Repositories repository?

Provides a visual interface for performing data cleaning operations like filtering, sorting, and formatting.

Why is jvns/pandas-cookbook a recommended Data Cleaning Procedures GitHub Repositories repository?

Prepares datasets by standardizing messy entries and parsing complex formats like timestamps.

Why is datajuicer/data-juicer a recommended Data Cleaning Procedures GitHub Repositories repository?

Removes duplicate samples using exact matching or fuzzy hashing methods like MinHash and SimHash.

Why is wireservice/csvkit a recommended Data Cleaning Procedures GitHub Repositories repository?

Applies operations like removing duplicates, filling missing values, and reformatting columns from the terminal.

Why is obss/sahi a recommended Data Cleaning Procedures GitHub Repositories repository?

Identifies and removes malformed or invalid entries from model result files to ensure data quality.

Why is rasbt/machine-learning-book a recommended Data Cleaning Procedures GitHub Repositories repository?

Implements procedures for filtering and correcting errors in datasets to improve overall data quality.

19 Repos

Awesome GitHub RepositoriesData Cleaning Procedures

Methods for filtering and correcting errors in datasets.

Distinguishing note: Focuses on the data preparation and cleaning phase.

Explore 19 awesome GitHub repositories matching data & databases · Data Cleaning Procedures. Refine with filters or upvote what's useful.

Finde die besten Repos mit KI.Wir suchen mit KI nach den am besten passenden Repositories.

microsoft/data-science-for-beginners
microsoft/Data-Science-For-Beginners
35,657Auf GitHub ansehen
This project is a comprehensive educational curriculum designed to teach the fundamental concepts, workflows, and tools of data science. It provides a structured learning path that covers the end-to-end data science lifecycle, including data acquisition, maintenance, processing, and pattern discovery, while grounding theoretical knowledge in practical, real-world applications. The curriculum distinguishes itself through a data-driven pedagogical design that utilizes interactive, notebook-based lessons. By combining narrative text with live code blocks, the platform allows learners to experime
Demonstrates techniques for filtering datasets and correcting data entry errors.
Jupyter Notebookdata-analysisdata-sciencedata-visualization
Auf GitHub ansehen35,657
morvanzhou/tutorials
MorvanZhou/tutorials
12,952Auf GitHub ansehen
This repository is a comprehensive collection of instructional guides and practical examples for Python development, focusing on machine learning, data science, and web scraping. It provides implementations for neural networks, reinforcement learning algorithms, and deep learning architectures using PyTorch, alongside detailed manuals for scientific computing and data visualization. The project distinguishes itself by offering specialized tutorials on concurrent programming to optimize CPU performance and guides for setting up Linux development environments. It covers the implementation of ad
Provides methods for filtering and correcting errors in datasets to prepare them for analysis.
Pythonmachine-learningmultiprocessingneural-network
Auf GitHub ansehen12,952
cleanlab/cleanlab
cleanlab/cleanlab
11,513Auf GitHub ansehen
Cleanlab is a data-centric AI library and toolkit designed to improve machine learning model performance by detecting label errors and increasing overall dataset quality. It implements a confident learning framework that iteratively refines label noise estimates by comparing model predictions with estimated label probabilities to identify mislabeled examples. The project provides specialized utilities for active learning optimization, allowing for the selection of the most impactful examples for labeling or re-labeling. It also includes an outlier detection tool to identify atypical data poin
Locates mislabeled examples using confident learning algorithms to improve overall data quality.
Pythonactive-learningannotationanomaly-detection
Auf GitHub ansehen11,513
autogluon/autogluon
autogluon/autogluon
9,997Auf GitHub ansehen
AutoGluon is an automated machine learning framework and multimodal library designed to automate the end-to-end pipeline from data preprocessing to high-accuracy model training and validation. It functions as an automated model trainer for tabular, image, text, and time series data, as well as a tool for time series forecasting and foundation model finetuning. The project is distinguished by its ability to jointly process and fuse different data types, allowing for the construction of multimodal neural networks that integrate images, text, and structured tables. It supports zero-shot inferenc
Removes redundant information by dropping duplicate columns or columns with a single unique value.
Pythonautogluonautomated-machine-learningautoml
Auf GitHub ansehen9,997
microsoft/vscode-copilot-chat
microsoft/vscode-copilot-chat
9,493Auf GitHub ansehen
This project is an AI-powered IDE extension and LLM coding assistant that provides a conversational interface for generating, refactoring, and debugging code. It functions as an AI agent framework and a Model Context Protocol client, connecting AI models to external data sources and tools to automate complex development tasks. The system is distinguished by its use of autonomous AI agents capable of multi-step task execution, including the ability to read files, modify code, and run terminal commands iteratively. It supports recursive agent orchestration through subagent delegation and employ
Provides a visual interface for performing data cleaning operations like filtering, sorting, and formatting.
TypeScript
Auf GitHub ansehen9,493
jvns/pandas-cookbook
jvns/pandas-cookbook
7,086Auf GitHub ansehen
Dieses Projekt ist ein pandas-Datenanalyse-Kochbuch und ein Python-Data-Science-Leitfaden. Es bietet eine Sammlung programmatischer Rezepte und Beispiele für das Bereinigen, Manipulieren und Analysieren strukturierter Daten. Das Projekt konzentriert sich auf die Bereitstellung einer containerisierten Analyseumgebung, um einen konsistenten Arbeitsbereich und reproduzierbare Abhängigkeiten bei der Ausführung von Datenverarbeitungsskripten zu gewährleisten. Es deckt ein breites Spektrum an Data-Science-Fähigkeiten ab, einschließlich Datenaufnahme aus externen Quellen, Rohdatenbereinigung und explorativer Datenanalyse. Diese Rezepte demonstrieren, wie strukturierte Datenanalyse durch Techniken wie Filtern, Aggregieren gruppierter Daten und die Verarbeitung von Textdaten durchgeführt wird.
Prepares datasets by standardizing messy entries and parsing complex formats like timestamps.
Jupyter Notebook
Auf GitHub ansehen7,086
datajuicer/data-juicer
datajuicer/data-juicer
6,574Auf GitHub ansehen
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Removes duplicate samples using exact matching or fuzzy hashing methods like MinHash and SimHash.
Pythondatadata-analysisdata-pipeline
Auf GitHub ansehen6,574
wireservice/csvkit
wireservice/csvkit
6,390Auf GitHub ansehen
csvkit is a composable Unix-style command-line toolkit for converting, filtering, and analyzing CSV files directly from the terminal. It provides a suite of focused single-purpose commands that can be combined via pipes to build complex data processing workflows, with a modular architecture that includes a column-type inference engine for automatically detecting data types and a streaming-pipeline design for efficient handling of tabular data. The toolkit distinguishes itself through its SQL-engine abstraction layer, which allows users to run SQL queries directly against CSV files without req
Applies operations like removing duplicates, filling missing values, and reformatting columns from the terminal.
Python
Auf GitHub ansehen6,390
obss/sahi
obss/sahi
5,372Auf GitHub ansehen
SAHI ist ein Sliced-Inference-Framework und eine Computer-Vision-Pipeline, die entwickelt wurde, um kleine Objekte in hochauflösenden Bildern zu erkennen. Es bietet ein System zur Unterteilung großer Bilder in überlappende Patches, um den Detailverlust zu verhindern, der typischerweise bei der Standard-Modell-Herunterskalierung auftritt, sowie ein Bild-Tiling-Dienstprogramm und ein COCO-Datensatz-Toolkit. Das Projekt zeichnet sich durch einen modellagnostischen Vorhersage-Wrapper aus, der verschiedene Machine-Learning-Frameworks in eine einheitliche Schnittstelle standardisiert. Dies ermöglicht die Implementierung von Sliced Inference und Objekterkennung über verschiedene Modell-Backends hinweg bei gleichzeitiger Beibehaltung eines konsistenten Ausgabeformats. Über die Inferenz hinaus deckt das Framework das Datensatzmanagement für COCO- und YOLO-Formate ab, einschließlich Tools für annotiertes Bild-Slicing, Kategorien-Remapping und Datensatz-Zusammenführung. Es enthält zudem eine Suite zur Bewertung und Überwachung der Modellleistung, mit Metrikberechnung für Präzision und Recall, Erkennungsfehleranalyse und Ergebnisvisualisierung. Das Toolset ist über eine Befehlszeilenschnittstelle zugänglich, um Inferenz-Workflows über Bildverzeichnisse und Videostreams hinweg zu automatisieren.
Identifies and removes malformed or invalid entries from model result files to ensure data quality.
Python
Auf GitHub ansehen5,372
rasbt/machine-learning-book
rasbt/machine-learning-book
5,239Auf GitHub ansehen
Dieses Projekt ist eine umfassende Bildungsressource für Machine Learning und eine Tutorial-Reihe, die als Sammlung interaktiver Jupyter Notebooks bereitgestellt wird. Es bietet praktische Python-Implementierungen für den gesamten Machine-Learning-Lebenszyklus und deckt überwachtes (supervised) und unüberwachtes (unsupervised) Lernen, Deep Learning sowie Reinforcement Learning ab. Die Ressource zeichnet sich durch detaillierte Implementierungsanleitungen für komplexe Architekturen aus, darunter Transformer, Generative Adversarial Networks (GANs) und Convolutional Neural Networks (CNNs). Zudem enthält sie spezialisierte Kursmaterialien für die Entwicklung von Reinforcement-Learning-Agenten mittels Q-Learning und Deep Q-Networks in simulierten Umgebungen. Die Inhalte decken ein breites Spektrum an Data-Science-Fähigkeiten ab, einschließlich Data-Engineering-Pipelines, Feature-Encoding und Dimensionsreduktion. Es bietet umfangreiches Material zur Modellevaluierung durch Kreuzvalidierung und diagnostische Metriken sowie fortgeschrittene Themen wie Natural Language Processing (NLP), Sentiment-Analyse und generative KI. Der gesamte Lehrplan ist für die interaktive Ausführung in Jupyter Notebooks konzipiert und kombiniert ausführbaren Code, Rich Text und Visualisierungen.
Implements procedures for filtering and correcting errors in datasets to improve overall data quality.
Jupyter Notebook
Auf GitHub ansehen5,239
datawhalechina/joyful-pandas
datawhalechina/joyful-pandas
5,164Auf GitHub ansehen
This project is a comprehensive pandas data analysis tutorial and instructional guide designed for learning data manipulation and analysis. It serves as a tabular data processing guide and a manual for time series analysis, providing a structured approach to cleaning, merging, and transforming datasets. The repository functions as a data feature engineering course, providing tutorials on constructing and selecting dataset features to improve machine learning model performance. It also includes a vectorized data operations guide for performing element-wise mathematical computations and matrix
Offers workflows for summarizing, deleting, and filling missing values to prepare raw datasets.
Jupyter Notebookpandas
Auf GitHub ansehen5,164
javascriptdata/danfojs
javascriptdata/danfojs
5,050Auf GitHub ansehen
Danfo.js ist eine Bibliothek für Datenanalyse und Vorverarbeitung für JavaScript, die leistungsstarke gelabelte Datenstrukturen bereitstellt. Sie implementiert Dataframes und Series, um komplexe Datenanalysen, statistische Berechnungen und die Manipulation strukturierter tabellarischer Daten zu ermöglichen. Das Projekt dient als Bibliothek für die Vorverarbeitung beim maschinellen Lernen und bietet Dienstprogramme für kategoriales Label-Encoding, One-Hot-Encoding sowie die Skalierung und Standardisierung numerischer Features. Es erleichtert insbesondere die Konvertierung gelabelter Datenstrukturen in Tensoren für das Modelltraining und die Evaluierung. Die Bibliothek deckt eine breite Palette an Funktionen ab, einschließlich deskriptiver Statistik, relationaler Operationen wie Merging und Joining sowie Zeitreihenverarbeitung. Sie enthält Tools für die Datenbereinigung, Filterung und Gruppierung sowie eine Visualisierungsschnittstelle zur Erstellung interaktiver Diagramme und Plots direkt aus Dataframes. Das System unterstützt den Import und Export von Daten über CSV-, JSON- und Excel-Formate.
Provides procedures for cleaning datasets, including the removal of duplicate values and noise filtering.
TypeScriptdanfojsdata-analysisdata-analytics
Auf GitHub ansehen5,050
openvenues/libpostal
openvenues/libpostal
4,819Auf GitHub ansehen
Libpostal ist eine C-Bibliothek für das Parsen und Normalisieren internationaler Adressen. Sie nutzt statistisches NLP und einen Sprachklassifikator, um unstrukturierte globale Adress-Strings in strukturierte Komponenten zu zerlegen und Straßenadressen durch das Auflösen von Abkürzungen und regionalen Namensvariationen über mehrere Sprachen hinweg zu standardisieren. Das Projekt bietet Tools für die Texttransliteration, um verschiedene Schriftsysteme in standardisierte Latin-ASCII- oder NFD-Formen zu konvertieren. Es enthält zudem Funktionen zur Adress-Deduplizierung, wobei symmetrisches Fuzzy-Matching verwendet wird, um zu identifizieren, ob verschiedene Adressdatensätze denselben physischen Ort referenzieren. Die Bibliothek deckt breitere Textverarbeitungsanforderungen ab, wie UTF-8-Normalisierung sowie die Konvertierung von ausgeschriebenen Zahlen und römischen Ziffern in numerische Darstellungen. Sie ermöglicht Erweiterungen der Adresserkennung durch externe Konfigurationsdateien, um neue Sprachen und Synonyme hinzuzufügen.
Prepares raw location text for databases by removing noise and standardizing regional naming conventions.
C
Auf GitHub ansehen4,819
bramblexu/pydata-notebook
BrambleXu/pydata-notebook
4,657Auf GitHub ansehen
Dieses Projekt ist eine Sammlung von Bildungsressourcen und Lernmaterialien, die sich auf wissenschaftliches Rechnen und Datenanalyse mit Python konzentrieren. Es besteht aus übersetzten Notizen und Jupyter-Notebooks, die Lernende durch das Python-Daten-Ökosystem führen. Die Inhalte decken spezialisierte Workflows ab, darunter numerische Berechnungen, Datenbereinigung und Zeitreihenanalyse. Diese Materialien dienen als Referenz für die Durchführung komplexer Datenmanipulationen und die Verarbeitung sequenzieller Daten zur Identifizierung von Mustern. Die Ressource ist als eine Reihe statischer Dateien und Markdown-Dokumente in einer flachen Verzeichnisstruktur organisiert. Sie integriert ausführbare Code-Zellen innerhalb von Dokumentblöcken und nutzt git-basierte Versionsverwaltung, um Updates der Übersetzungen und Code-Snippets zu verwalten.
Includes instructional materials on methods for filtering and correcting errors in datasets.
Jupyter Notebookchinese-translationdata-analysisjupyter-notebook
Auf GitHub ansehen4,657
nanmicoder/crawlertutorial
NanmiCoder/CrawlerTutorial
4,262Auf GitHub ansehen
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Eliminates redundant entries from extracted datasets using exact and fuzzy matching methods.
Python
Auf GitHub ansehen4,262
codemayq/chinese-chatbot-corpus
codemayq/chinese-chatbot-corpus
4,193Auf GitHub ansehen
Dieses Projekt bietet eine Sammlung verarbeiteter chinesischer Konversationsdatensätze und Preprocessing-Workflows, die für das Training und Instruction-Tuning von Large Language Models (LLMs) entwickelt wurden. Es fungiert als Trainingskorpus aus bereinigtem, standardisiertem chinesischem Text, der als Frage-Antwort-Paare formatiert ist. Das Repository enthält eine Preprocessing-Pipeline und einen Datensatz-Aggregator, die mehrere öffentliche Chat-Quellen in einheitliche Dateien zusammenführen. Diese Tools normalisieren den Text, indem sie traditionelle chinesische Schriftzeichen in vereinfachte Zeichen umwandeln und komplexe Dialogstränge in eine standardisierte Sequenz von Einzel-Turns transformieren. Die resultierenden Daten werden als unabhängige, tabulatorgetrennte Dateien exportiert, was ein konsistentes Schema über verschiedene Quellen hinweg sicherstellt. Dieser technische Workflow konzentriert sich auf die Beseitigung von Formatierungsinkonsistenzen, um rohe Konversationsdaten für Machine-Learning-Aufgaben vorzubereiten.
Cleans raw conversational data to ensure every row represents a valid query-answer pair.
Python
Auf GitHub ansehen4,193
quartz/bad-data-guide
Quartz/bad-data-guide
4,120Auf GitHub ansehen
Dieses Projekt ist eine Sammlung von Referenzmaterialien und Richtlinien für die Implementierung von Data-Audit-Frameworks. Es dient als Referenzleitfaden für Datenqualität und als Handbuch zur Datensatzvalidierung für die Identifizierung häufiger struktureller und statistischer Fehler in Datensätzen. Das Projekt bietet eine strukturierte Wissensbasis für Datenbereinigung, inklusive eines Katalogs realer Datenfehler und praktischer Strategien für deren Erkennung und Behebung. Es enthält spezifische Frameworks zur Evaluierung der Datenherkunft (Provenance) und der Zuverlässigkeit aggregierter Informationen. Das Material deckt ein breites Spektrum an Datenanalyse-Funktionen ab, einschließlich statistischer Integritätsvalidierung zur Erkennung von Manipulationen, Assessments der Stichprobengültigkeit zur Identifizierung von Populations-Bias und Methoden zur strukturellen Fehlererkennung wie Kodierungsprobleme. Zudem beschreibt es Prozesse zur Wiederherstellung tabellarischer Informationen aus visuellen Dokumenten mittels OCR (Optical Character Recognition).
Provides workflows for finding and resolving structural errors and inconsistent values using expert-led mitigation strategies.
datadocumentationguide
Auf GitHub ansehen4,120
dathere/qsv
dathere/qsv
3,687Auf GitHub ansehen
qsv is a high-performance command line toolkit for querying, transforming, and analyzing comma-separated value files. It functions as a data wrangling interface and a tabular data profiler, featuring a query engine capable of executing SQL statements and joins directly on flat files without requiring a database. The project is distinguished by its ability to process massive datasets that exceed available system memory. This is achieved through disk-based external memory processing, including multithreaded merge sorting, on-disk hash tables for deduplication, and lightweight file indexing for
Provides a comprehensive set of procedures for resolving encoding issues and parsing irregular date or number formats.
Rustaickancsv
Auf GitHub ansehen3,687
akramz/hands-on-machine-learning-with-scikit-learn-keras-and-tensorflow
Akramz/Hands-on-Machine-Learning-with-Scikit-Learn-Keras-and-TensorFlow
1,041Auf GitHub ansehen
Dieses Projekt dient als Bildungs- und Praxisressource zur Beherrschung von Machine-Learning-Workflows mit Python. Es bietet eine umfassende Sammlung von Codebeispielen und Übungen, die Benutzer durch die Implementierung prädiktiver Systeme führen, von grundlegenden Algorithmen bis hin zu Deep-Learning-Architekturen. Das Repository zeichnet sich durch einen strukturierten Ansatz für sowohl klassisches Machine Learning als auch das Training neuronaler Netze aus. Es deckt den gesamten Lebenszyklus der Modellentwicklung ab, einschließlich der Orchestrierung wiederverwendbarer Datentransformations-Pipelines, fortgeschrittener Ensemble-Strategien wie Stacking und sequenziellem Training sowie Techniken zur Handhabung großer Datensätze durch inkrementelle Verarbeitung. Das Material umfasst ein breites Fähigkeitsspektrum, einschließlich Klassifizierung, Regression, Clustering und Dimensionsreduktion. Es bietet Tools für eine rigorose Modellevaluierung, wie Fehleranalyse und Leistungsmetriken, neben Optimierungstechniken wie Hyperparameter-Tuning, Regularisierung und automatisierten Trainingskontrollen, um die Zuverlässigkeit und Generalisierung von Modellen sicherzustellen. Der Inhalt ist als eine Reihe von Tutorials und praktischen Übungen organisiert, was es zu einer Referenz für den Aufbau und das Deployment intelligenter Systeme mit Standard-Industrie-Frameworks macht.
Imputes missing values and encodes categorical data to prepare datasets for training.
Jupyter Notebookartificial-intelligencedeep-learningmachine-learning
Auf GitHub ansehen1,041