19 Repos
Methods for filtering and correcting errors in datasets.
Distinguishing note: Focuses on the data preparation and cleaning phase.
Explore 19 awesome GitHub repositories matching data & databases · Data Cleaning Procedures. Refine with filters or upvote what's useful.
This project is a comprehensive educational curriculum designed to teach the fundamental concepts, workflows, and tools of data science. It provides a structured learning path that covers the end-to-end data science lifecycle, including data acquisition, maintenance, processing, and pattern discovery, while grounding theoretical knowledge in practical, real-world applications. The curriculum distinguishes itself through a data-driven pedagogical design that utilizes interactive, notebook-based lessons. By combining narrative text with live code blocks, the platform allows learners to experime
Demonstrates techniques for filtering datasets and correcting data entry errors.
This repository is a comprehensive collection of instructional guides and practical examples for Python development, focusing on machine learning, data science, and web scraping. It provides implementations for neural networks, reinforcement learning algorithms, and deep learning architectures using PyTorch, alongside detailed manuals for scientific computing and data visualization. The project distinguishes itself by offering specialized tutorials on concurrent programming to optimize CPU performance and guides for setting up Linux development environments. It covers the implementation of ad
Provides methods for filtering and correcting errors in datasets to prepare them for analysis.
Cleanlab is a data-centric AI library and toolkit designed to improve machine learning model performance by detecting label errors and increasing overall dataset quality. It implements a confident learning framework that iteratively refines label noise estimates by comparing model predictions with estimated label probabilities to identify mislabeled examples. The project provides specialized utilities for active learning optimization, allowing for the selection of the most impactful examples for labeling or re-labeling. It also includes an outlier detection tool to identify atypical data poin
Locates mislabeled examples using confident learning algorithms to improve overall data quality.
AutoGluon is an automated machine learning framework and multimodal library designed to automate the end-to-end pipeline from data preprocessing to high-accuracy model training and validation. It functions as an automated model trainer for tabular, image, text, and time series data, as well as a tool for time series forecasting and foundation model finetuning. The project is distinguished by its ability to jointly process and fuse different data types, allowing for the construction of multimodal neural networks that integrate images, text, and structured tables. It supports zero-shot inferenc
Removes redundant information by dropping duplicate columns or columns with a single unique value.
This project is an AI-powered IDE extension and LLM coding assistant that provides a conversational interface for generating, refactoring, and debugging code. It functions as an AI agent framework and a Model Context Protocol client, connecting AI models to external data sources and tools to automate complex development tasks. The system is distinguished by its use of autonomous AI agents capable of multi-step task execution, including the ability to read files, modify code, and run terminal commands iteratively. It supports recursive agent orchestration through subagent delegation and employ
Provides a visual interface for performing data cleaning operations like filtering, sorting, and formatting.
Dieses Projekt ist ein pandas-Datenanalyse-Kochbuch und ein Python-Data-Science-Leitfaden. Es bietet eine Sammlung programmatischer Rezepte und Beispiele für das Bereinigen, Manipulieren und Analysieren strukturierter Daten. Das Projekt konzentriert sich auf die Bereitstellung einer containerisierten Analyseumgebung, um einen konsistenten Arbeitsbereich und reproduzierbare Abhängigkeiten bei der Ausführung von Datenverarbeitungsskripten zu gewährleisten. Es deckt ein breites Spektrum an Data-Science-Fähigkeiten ab, einschließlich Datenaufnahme aus externen Quellen, Rohdatenbereinigung und explorativer Datenanalyse. Diese Rezepte demonstrieren, wie strukturierte Datenanalyse durch Techniken wie Filtern, Aggregieren gruppierter Daten und die Verarbeitung von Textdaten durchgeführt wird.
Prepares datasets by standardizing messy entries and parsing complex formats like timestamps.
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Removes duplicate samples using exact matching or fuzzy hashing methods like MinHash and SimHash.
csvkit is a composable Unix-style command-line toolkit for converting, filtering, and analyzing CSV files directly from the terminal. It provides a suite of focused single-purpose commands that can be combined via pipes to build complex data processing workflows, with a modular architecture that includes a column-type inference engine for automatically detecting data types and a streaming-pipeline design for efficient handling of tabular data. The toolkit distinguishes itself through its SQL-engine abstraction layer, which allows users to run SQL queries directly against CSV files without req
Applies operations like removing duplicates, filling missing values, and reformatting columns from the terminal.
SAHI ist ein Sliced-Inference-Framework und eine Computer-Vision-Pipeline, die entwickelt wurde, um kleine Objekte in hochauflösenden Bildern zu erkennen. Es bietet ein System zur Unterteilung großer Bilder in überlappende Patches, um den Detailverlust zu verhindern, der typischerweise bei der Standard-Modell-Herunterskalierung auftritt, sowie ein Bild-Tiling-Dienstprogramm und ein COCO-Datensatz-Toolkit. Das Projekt zeichnet sich durch einen modellagnostischen Vorhersage-Wrapper aus, der verschiedene Machine-Learning-Frameworks in eine einheitliche Schnittstelle standardisiert. Dies ermöglicht die Implementierung von Sliced Inference und Objekterkennung über verschiedene Modell-Backends hinweg bei gleichzeitiger Beibehaltung eines konsistenten Ausgabeformats. Über die Inferenz hinaus deckt das Framework das Datensatzmanagement für COCO- und YOLO-Formate ab, einschließlich Tools für annotiertes Bild-Slicing, Kategorien-Remapping und Datensatz-Zusammenführung. Es enthält zudem eine Suite zur Bewertung und Überwachung der Modellleistung, mit Metrikberechnung für Präzision und Recall, Erkennungsfehleranalyse und Ergebnisvisualisierung. Das Toolset ist über eine Befehlszeilenschnittstelle zugänglich, um Inferenz-Workflows über Bildverzeichnisse und Videostreams hinweg zu automatisieren.
Identifies and removes malformed or invalid entries from model result files to ensure data quality.
Dieses Projekt ist eine umfassende Bildungsressource für Machine Learning und eine Tutorial-Reihe, die als Sammlung interaktiver Jupyter Notebooks bereitgestellt wird. Es bietet praktische Python-Implementierungen für den gesamten Machine-Learning-Lebenszyklus und deckt überwachtes (supervised) und unüberwachtes (unsupervised) Lernen, Deep Learning sowie Reinforcement Learning ab. Die Ressource zeichnet sich durch detaillierte Implementierungsanleitungen für komplexe Architekturen aus, darunter Transformer, Generative Adversarial Networks (GANs) und Convolutional Neural Networks (CNNs). Zudem enthält sie spezialisierte Kursmaterialien für die Entwicklung von Reinforcement-Learning-Agenten mittels Q-Learning und Deep Q-Networks in simulierten Umgebungen. Die Inhalte decken ein breites Spektrum an Data-Science-Fähigkeiten ab, einschließlich Data-Engineering-Pipelines, Feature-Encoding und Dimensionsreduktion. Es bietet umfangreiches Material zur Modellevaluierung durch Kreuzvalidierung und diagnostische Metriken sowie fortgeschrittene Themen wie Natural Language Processing (NLP), Sentiment-Analyse und generative KI. Der gesamte Lehrplan ist für die interaktive Ausführung in Jupyter Notebooks konzipiert und kombiniert ausführbaren Code, Rich Text und Visualisierungen.
Implements procedures for filtering and correcting errors in datasets to improve overall data quality.
This project is a comprehensive pandas data analysis tutorial and instructional guide designed for learning data manipulation and analysis. It serves as a tabular data processing guide and a manual for time series analysis, providing a structured approach to cleaning, merging, and transforming datasets. The repository functions as a data feature engineering course, providing tutorials on constructing and selecting dataset features to improve machine learning model performance. It also includes a vectorized data operations guide for performing element-wise mathematical computations and matrix
Offers workflows for summarizing, deleting, and filling missing values to prepare raw datasets.
Danfo.js ist eine Bibliothek für Datenanalyse und Vorverarbeitung für JavaScript, die leistungsstarke gelabelte Datenstrukturen bereitstellt. Sie implementiert Dataframes und Series, um komplexe Datenanalysen, statistische Berechnungen und die Manipulation strukturierter tabellarischer Daten zu ermöglichen. Das Projekt dient als Bibliothek für die Vorverarbeitung beim maschinellen Lernen und bietet Dienstprogramme für kategoriales Label-Encoding, One-Hot-Encoding sowie die Skalierung und Standardisierung numerischer Features. Es erleichtert insbesondere die Konvertierung gelabelter Datenstrukturen in Tensoren für das Modelltraining und die Evaluierung. Die Bibliothek deckt eine breite Palette an Funktionen ab, einschließlich deskriptiver Statistik, relationaler Operationen wie Merging und Joining sowie Zeitreihenverarbeitung. Sie enthält Tools für die Datenbereinigung, Filterung und Gruppierung sowie eine Visualisierungsschnittstelle zur Erstellung interaktiver Diagramme und Plots direkt aus Dataframes. Das System unterstützt den Import und Export von Daten über CSV-, JSON- und Excel-Formate.
Provides procedures for cleaning datasets, including the removal of duplicate values and noise filtering.
Libpostal ist eine C-Bibliothek für das Parsen und Normalisieren internationaler Adressen. Sie nutzt statistisches NLP und einen Sprachklassifikator, um unstrukturierte globale Adress-Strings in strukturierte Komponenten zu zerlegen und Straßenadressen durch das Auflösen von Abkürzungen und regionalen Namensvariationen über mehrere Sprachen hinweg zu standardisieren. Das Projekt bietet Tools für die Texttransliteration, um verschiedene Schriftsysteme in standardisierte Latin-ASCII- oder NFD-Formen zu konvertieren. Es enthält zudem Funktionen zur Adress-Deduplizierung, wobei symmetrisches Fuzzy-Matching verwendet wird, um zu identifizieren, ob verschiedene Adressdatensätze denselben physischen Ort referenzieren. Die Bibliothek deckt breitere Textverarbeitungsanforderungen ab, wie UTF-8-Normalisierung sowie die Konvertierung von ausgeschriebenen Zahlen und römischen Ziffern in numerische Darstellungen. Sie ermöglicht Erweiterungen der Adresserkennung durch externe Konfigurationsdateien, um neue Sprachen und Synonyme hinzuzufügen.
Prepares raw location text for databases by removing noise and standardizing regional naming conventions.
Dieses Projekt ist eine Sammlung von Bildungsressourcen und Lernmaterialien, die sich auf wissenschaftliches Rechnen und Datenanalyse mit Python konzentrieren. Es besteht aus übersetzten Notizen und Jupyter-Notebooks, die Lernende durch das Python-Daten-Ökosystem führen. Die Inhalte decken spezialisierte Workflows ab, darunter numerische Berechnungen, Datenbereinigung und Zeitreihenanalyse. Diese Materialien dienen als Referenz für die Durchführung komplexer Datenmanipulationen und die Verarbeitung sequenzieller Daten zur Identifizierung von Mustern. Die Ressource ist als eine Reihe statischer Dateien und Markdown-Dokumente in einer flachen Verzeichnisstruktur organisiert. Sie integriert ausführbare Code-Zellen innerhalb von Dokumentblöcken und nutzt git-basierte Versionsverwaltung, um Updates der Übersetzungen und Code-Snippets zu verwalten.
Includes instructional materials on methods for filtering and correcting errors in datasets.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Eliminates redundant entries from extracted datasets using exact and fuzzy matching methods.
Dieses Projekt bietet eine Sammlung verarbeiteter chinesischer Konversationsdatensätze und Preprocessing-Workflows, die für das Training und Instruction-Tuning von Large Language Models (LLMs) entwickelt wurden. Es fungiert als Trainingskorpus aus bereinigtem, standardisiertem chinesischem Text, der als Frage-Antwort-Paare formatiert ist. Das Repository enthält eine Preprocessing-Pipeline und einen Datensatz-Aggregator, die mehrere öffentliche Chat-Quellen in einheitliche Dateien zusammenführen. Diese Tools normalisieren den Text, indem sie traditionelle chinesische Schriftzeichen in vereinfachte Zeichen umwandeln und komplexe Dialogstränge in eine standardisierte Sequenz von Einzel-Turns transformieren. Die resultierenden Daten werden als unabhängige, tabulatorgetrennte Dateien exportiert, was ein konsistentes Schema über verschiedene Quellen hinweg sicherstellt. Dieser technische Workflow konzentriert sich auf die Beseitigung von Formatierungsinkonsistenzen, um rohe Konversationsdaten für Machine-Learning-Aufgaben vorzubereiten.
Cleans raw conversational data to ensure every row represents a valid query-answer pair.
Dieses Projekt ist eine Sammlung von Referenzmaterialien und Richtlinien für die Implementierung von Data-Audit-Frameworks. Es dient als Referenzleitfaden für Datenqualität und als Handbuch zur Datensatzvalidierung für die Identifizierung häufiger struktureller und statistischer Fehler in Datensätzen. Das Projekt bietet eine strukturierte Wissensbasis für Datenbereinigung, inklusive eines Katalogs realer Datenfehler und praktischer Strategien für deren Erkennung und Behebung. Es enthält spezifische Frameworks zur Evaluierung der Datenherkunft (Provenance) und der Zuverlässigkeit aggregierter Informationen. Das Material deckt ein breites Spektrum an Datenanalyse-Funktionen ab, einschließlich statistischer Integritätsvalidierung zur Erkennung von Manipulationen, Assessments der Stichprobengültigkeit zur Identifizierung von Populations-Bias und Methoden zur strukturellen Fehlererkennung wie Kodierungsprobleme. Zudem beschreibt es Prozesse zur Wiederherstellung tabellarischer Informationen aus visuellen Dokumenten mittels OCR (Optical Character Recognition).
Provides workflows for finding and resolving structural errors and inconsistent values using expert-led mitigation strategies.
qsv is a high-performance command line toolkit for querying, transforming, and analyzing comma-separated value files. It functions as a data wrangling interface and a tabular data profiler, featuring a query engine capable of executing SQL statements and joins directly on flat files without requiring a database. The project is distinguished by its ability to process massive datasets that exceed available system memory. This is achieved through disk-based external memory processing, including multithreaded merge sorting, on-disk hash tables for deduplication, and lightweight file indexing for
Provides a comprehensive set of procedures for resolving encoding issues and parsing irregular date or number formats.
Dieses Projekt dient als Bildungs- und Praxisressource zur Beherrschung von Machine-Learning-Workflows mit Python. Es bietet eine umfassende Sammlung von Codebeispielen und Übungen, die Benutzer durch die Implementierung prädiktiver Systeme führen, von grundlegenden Algorithmen bis hin zu Deep-Learning-Architekturen. Das Repository zeichnet sich durch einen strukturierten Ansatz für sowohl klassisches Machine Learning als auch das Training neuronaler Netze aus. Es deckt den gesamten Lebenszyklus der Modellentwicklung ab, einschließlich der Orchestrierung wiederverwendbarer Datentransformations-Pipelines, fortgeschrittener Ensemble-Strategien wie Stacking und sequenziellem Training sowie Techniken zur Handhabung großer Datensätze durch inkrementelle Verarbeitung. Das Material umfasst ein breites Fähigkeitsspektrum, einschließlich Klassifizierung, Regression, Clustering und Dimensionsreduktion. Es bietet Tools für eine rigorose Modellevaluierung, wie Fehleranalyse und Leistungsmetriken, neben Optimierungstechniken wie Hyperparameter-Tuning, Regularisierung und automatisierten Trainingskontrollen, um die Zuverlässigkeit und Generalisierung von Modellen sicherzustellen. Der Inhalt ist als eine Reihe von Tutorials und praktischen Übungen organisiert, was es zu einer Referenz für den Aufbau und das Deployment intelligenter Systeme mit Standard-Industrie-Frameworks macht.
Imputes missing values and encodes categorical data to prepare datasets for training.