21 Repos
Techniques for replacing null entries using constant values or statistical measures.
Distinct from Null Value Handling: Candidates focus on native handling or sentinel replacement; this is the general act of filling missing data.
Explore 21 awesome GitHub repositories matching data & databases · Missing Value Imputation. Refine with filters or upvote what's useful.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Estimates placeholder values for missing data using global statistics or k-nearest neighbors.
Home Assistant is a local home automation platform and server that acts as an IoT device orchestrator. It integrates diverse smart home hardware by wrapping third-party APIs into a standardized logic layer and stores all system state and historical statistics on local hardware to eliminate cloud dependencies. The system functions as a Matter IoT controller and an MQTT home automation bridge, allowing for local interoperability between different manufacturers. It features a state-based entity model and an internal event bus that decouple physical device logic from system automation. The platf
Replaces unknown or unavailable sensor states with default values or alternative logic branches.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Replaces null values with constants, column-specific dictionaries, or calculated statistics.
This project is a machine learning educational resource and implementation guide for Python. It provides a collection of executable code and notebooks that demonstrate predictive modeling, data analysis workflows, and the implementation of various machine learning algorithms. The repository features practical examples of classification, regression, and clustering tasks using Scikit-Learn, alongside tutorials for building and training deep learning architectures with TensorFlow. These include implementations of convolutional and recurrent networks. The content covers a broad range of capabili
Implements techniques for resolving missing tabular data through removal or statistical imputation.
Smile is a comprehensive JVM machine learning library and statistical computing toolkit. It provides a suite of algorithms for classification, regression, and clustering, implemented natively for Java, Scala, and Kotlin. The project also functions as a deep learning framework, a natural language processing library, and an inference engine for large language models. The library distinguishes itself through GPU acceleration via LibTorch bindings and support for the ONNX model interchange format. It includes specialized capabilities for large language model inference, featuring Byte-Pair Encodin
Fills missing data points using statistical or model-based imputation methods.
Dieses Projekt ist ein Lehrplan für Machine Learning und eine Lernplattform, die über interaktive Jupyter Notebooks bereitgestellt wird. Es dient als umfassender Leitfaden zur Beherrschung des Python-Data-Science-Toolkits und bietet strukturierte Tutorials für numerisches Rechnen, Manipulation tabellarischer Daten und statistische Visualisierung. Der Lehrplan enthält spezifische Implementierungsleitfäden für Scikit-Learn und einen praktischen Kurs zu TensorFlow für den Aufbau, das Training und das Deployment neuronaler Netze und Computer-Vision-Modelle. Er deckt den End-to-End-Prozess des Aufbaus prädiktiver Modelle ab, von der anfänglichen Problemformulierung und Aufgabenkategorisierung bis hin zum Deployment der Modelle über interaktive Weboberflächen. Das Projekt deckt ein breites Funktionsspektrum ab, einschließlich numerischem Rechnen mit mehrdimensionalen Arrays, explorativer Datenanalyse und Datenvorverarbeitungsroutinen. Es bietet detaillierte Workflows für überwachtes und unüberwachtes Lernen, automatisierte Machine-Learning-Pipelines, Hyperparameter-Optimierung und Modellbewertung mittels Klassifizierungsmetriken und Kreuzvalidierung. Der Bildungsinhalt ist als eine Reihe von Notebooks strukturiert, die Python-Code mit narrativen Erklärungen verknüpfen, um Data-Science-Workflows zu dokumentieren.
Employs techniques for replacing null entries using constant values or statistical measures like median imputation.
Concurrent Ruby is a comprehensive concurrency toolkit for the Ruby language that provides thread-safe data structures, synchronization primitives, and asynchronous execution patterns. It implements core concurrency abstractions including an actor model framework where isolated actors communicate through asynchronous message passing, a future and promise system for composing non-blocking operations, and thread pool executors that manage reusable worker threads for concurrent task execution. The library distinguishes itself through a broad set of coordination mechanisms that go beyond basic th
Returns a supplied default value when an optional container is empty.
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Provides a widget to detect and process missing entries using imputation or removal strategies.
Dieses Projekt bietet eine übersetzte Version der Anleitungen und API-Referenzen der Machine-Learning-Bibliothek scikit-learn für chinesischsprachige Nutzer. Es dient als lokalisierte Wissensdatenbank und technische Referenz für die Implementierung prädiktiver Datenanalysen und statistischer Modellierung unter Verwendung eines Python-basierten Toolkits. Die Ressource deckt die Implementierung von überwachtem Lernen ab, einschließlich Klassifizierungs- und Regressionsaufgaben, sowie Workflows für unüberwachtes Lernen zur Mustererkennung und Anomalieerkennung. Zudem bietet sie Anleitungen zur Data-Science-Ausbildung, mit speziellem Fokus auf die Nutzung von scikit-learn für Machine Learning. Die Dokumentation enthält detaillierte Anweisungen zur Datenvorverarbeitung, Dimensionsreduktion und Feature-Selektion. Sie erläutert zudem die Modellevaluierung und -optimierung durch Leistungsmetriken, Hyperparameter-Optimierung und Generalisierungsvalidierung sowie die Verwendung von Vorhersage-Pipelines und Natural-Language-Processing-Dienstprogrammen.
Explains techniques for filling missing data gaps using iterative estimators to maintain dataset integrity.
cuml ist eine GPU-beschleunigte Machine-Learning-Bibliothek und ein Framework, das CUDA nutzt, um die Vorverarbeitung tabellarischer Daten und die Modellausführung zu beschleunigen. Es bietet eine Suite von Tools zum Trainieren und Bereitstellen von Klassifizierungs-, Regressions- und Clustering-Modellen auf NVIDIA-GPUs und GPU-Clustern. Die Bibliothek ist auf Skalierbarkeit ausgelegt und bietet eine verteilte GPU-Machine-Learning-Umgebung, die Berechnungen und Daten über mehrere Hardware-Beschleuniger und Knoten hinweg verteilen kann, um Datensätze zu verarbeiten, die den Speicher eines einzelnen Geräts überschreiten. Sie spiegelt Standard-Estimator-Schnittstellen wider, um den Austausch von CPU-basierten Modellen durch GPU-beschleunigte Versionen innerhalb bestehender Workflows zu ermöglichen. Das Projekt deckt ein breites Spektrum an Machine-Learning-Funktionen ab, einschließlich überwachtem Lernen, unüberwachtem Clustering, Nearest-Neighbor-Suche und hochdimensionaler Dimensionsreduktion. Es enthält zudem hardwarebeschleunigte Vorverarbeitung tabellarischer Daten für Feature-Skalierung und -Kodierung, Text-Feature-Extraktion, Zeitreihenanalyse und Erklärbarkeit von Modellvorhersagen. Unterstützende Hilfsmittel umfassen Tools zur Generierung synthetischer Datensätze, zur Serialisierung des Modellzustands und zur Berechnung von Modell-Performance-Metriken.
Fills gaps in datasets using univariate imputation to complete missing data points.
r4ds ist ein Data-Science-Lehrplan und eine Bildungsressource, die für die Beherrschung der Programmiersprache R entwickelt wurde. Es bietet einen strukturierten Lernpfad für den End-to-End-Prozess des Importierens, Bereinigens, Transformierens und Visualisierens von Daten. Das Projekt betont einen Leitfaden für reproduzierbare Data Science und einen umfassenden Lehrplan für Data Wrangling. Es enthält spezialisierte Tutorials zur Grammatik der Grafik für geschichtete Datenvisualisierung sowie technische Publikationen, die mit Quarto erstellt wurden und ausführbaren Code mit erzählendem Text verbinden. Das Material deckt ein breites Spektrum analytischer Funktionen ab, einschließlich Datenaufnahme aus diversen Quellen, relationalem Daten-Joining und der Verwaltung kategorialer Variablen. Es behandelt zudem Datenbereinigung, mathematische Modellierung und die Erstellung professioneller Berichte und Präsentationen in verschiedenen Formaten. Der Lehrplan konzentriert sich auf die praktische Anwendung funktionaler Programmierung und Tidy-Data-Prinzipien, um transparente und wiederholbare Analysen zu erstellen.
Populates null entries by carrying the last observation forward or applying fixed default values.
This is an interactive notebook-based course that teaches machine learning from Python fundamentals through deep learning and natural language processing. It uses real datasets and multiple frameworks within a structured, hands-on curriculum that combines concise explanations with executable code cells, built-in datasets, and embedded exercise checkpoints. Learning progresses through data preparation and exploration, classical machine learning workflows, computer vision with convolutional neural networks, and natural language processing with deep learning, all delivered as a cohesive progressi
Provides workflows for filling missing data using mean, median, or most frequent values.
Dieses Projekt ist ein umfassendes Bildungsprogramm und Deep-Learning-Framework, das darauf ausgelegt ist, praktisches Deep Learning mit PyTorch anhand von Notebooks und Codebeispielen zu vermitteln. Es dient als High-Level-Bibliothek zum Erstellen, Trainieren und Bereitstellen neuronaler Netze und fungiert als Modell-Trainings-Orchestrator, der PyTorch-Modelle, Optimierer und Verlustfunktionen koordiniert. Das Projekt bietet spezialisierte Toolkits für Computer Vision, Natural Language Processing und die Vorverarbeitung tabellarischer Daten. Es zeichnet sich durch fortschrittliche Trainingskontrollen aus, wie z. B. diskriminative Lernraten, ein Zwei-Wege-Callback-System zur Anpassung der Trainingslogik und eine High-Level-Learner-Abstraktion, die die Geräteplatzierung und Trainingsschleifen automatisiert. Das Framework deckt ein breites Fähigkeitsspektrum ab, einschließlich der automatisierten Konstruktion von Datenpipelines, der Analyse von Modellarchitekturen und der Leistungsbewertung bei Klassifizierungs-, Regressions- und Segmentierungsaufgaben. Es enthält zudem Dienstprogramme für verteiltes Training über mehrere GPUs, Mixed-Precision-Training zur Speicheroptimierung und spezialisierte Unterstützung für medizinische Bilddaten. Das Projekt wird als eine Reihe von Jupyter Notebooks bereitgestellt.
Provides imputation strategies to fill missing entries in continuous columns using medians, modes, or constants.
This is a pandas-based technical analysis library and financial feature engineering tool. It serves as a vectorized indicator calculator that transforms raw price and volume data into derived metrics for time series analysis. The library uses a NumPy-based engine to perform mathematical operations across entire arrays, avoiding iterative loops to maintain high performance. It organizes technical indicators into a modular class hierarchy with a consistent interface, allowing for bulk feature generation and the direct appending of results as new columns to a pandas DataFrame. The system covers
Provides configurable forward-fill and zero-fill strategies to handle calculation gaps in financial datasets.
Dieses Projekt ist ein Framework für wissenschaftliches Rechnen im .NET-Ökosystem und bietet eine umfassende Suite von Bibliotheken für numerische Analyse, Statistik und mathematische Optimierung. Es dient als grundlegendes Toolkit für die Entwicklung von Anwendungen in den Bereichen Machine Learning, digitale Signalverarbeitung und Computer Vision. Das Framework bietet spezialisierte Toolkits für das Training und die Bereitstellung prädiktiver Modelle, einschließlich neuronaler Netze, Support Vector Machines und Entscheidungsbäumen. Es zeichnet sich zudem durch tiefe Integrationen für Echtzeit-Bildanalyse aus, wie etwa Objektverfolgung und Gesichtserkennung, ergänzt durch eine dedizierte Bibliothek für digitale Signalverarbeitung zur Erfassung und Filterung von Audio- und Sensorsignalen. Das Funktionsspektrum erstreckt sich auf hochgradige Matrixzerlegung und lineare Algebra, probabilistische Zustandsmodellierung und heuristische Suchalgorithmen. Es deckt zudem eine breite Palette an Datenmanipulations-Dienstprogrammen ab, von Dimensionsreduktion und Normalisierung bis hin zur Organisation räumlicher Daten und Komponenten für wissenschaftliche Visualisierung. Das System enthält Hardware-Integrationscontroller für Kamerakonfiguration, GPIO-Port-Management und spezialisierte Tiefensensor-Hardware.
Fills empty data entries using statistical measures or constant values to maintain dataset integrity.
This project is a collection of comprehensive guides and reference materials designed for technical interviews, machine learning system design, and professional development. It serves as a technical knowledge base and a career coaching manual, providing structured resources to help candidates navigate the machine learning hiring landscape. The resource distinguishes itself by offering detailed frameworks for comparing industry roles, analyzing company types, and planning long-term career progression. It provides specific guidance on evaluating employer organizational health, identifying resea
Fills or models absent data points while mitigating selection bias from imputation.
json_repair is a Python library that automatically fixes common JSON syntax errors, such as trailing commas, missing quotes, unclosed brackets, and stray text, producing valid JSON output. It can also complete broken structures by closing unclosed arrays and objects, and fill missing values with sensible defaults like empty strings or null. The library distinguishes itself by handling JSON from large language model outputs, stripping markdown fences, comments, and surrounding prose before parsing. It supports schema-guided repairs, using a JSON Schema to fill missing values, coerce data types
Fills missing JSON fields with sensible defaults like empty strings or null during repair.
Nixtla ist eine Zeitreihenanalyse-Plattform, die auf einem Transformer-basierten Foundation-Modell basiert. Sie bietet Zero-Shot-Inferenz für Prognosen und Anomalieerkennung, wodurch das System zukünftige Werte für neue Zeitreihen vorhersagen kann, ohne dass ein Modell-Retraining erforderlich ist. Das Projekt ist für Analysen im großen Maßstab konzipiert und nutzt verteilte Inferenz-Skalierung und Prognose-Parallelisierung, um Millionen von Datenreihen zu verarbeiten. Es unterstützt Fine-Tuning-Anpassungen, um vortrainierte Gewichte für domänenspezifische Datensätze anzupassen, und bietet Bereitstellungsoptionen, die von lokaler Ausführung und privaten Containern bis hin zur Integration als Stored Procedures innerhalb von Snowflake reichen. Die Funktionen umfassen Prognosen für lange Horizonte und intermittierende Nachfrage, What-if-Szenarioanalysen und die Quantifizierung von Prognoseunsicherheiten. Das System bietet zudem eine vollständige Data-Engineering-Pipeline zum Prüfen, Bereinigen und Anreichern von Zeitreihendaten mit exogenen Variablen und datumsbasierten Indikatoren. Die Modellzuverlässigkeit wird durch Cross-Validation-Backtesting, Validierung der Prognosegenauigkeit und Experiment-Tracking für Hyperparameter-Logging verwaltet.
Handles target series containing NaN values by managing continuous timestamp sequences to maintain reliability.
Dieses Projekt ist ein High-Performance-Framework für die Verarbeitung tabellarischer Daten in R, das für die effiziente und schnelle Handhabung massiver Datensätze entwickelt wurde. Es bietet eine erweiterte Datenstruktur, die Referenzsemantik und In-Place-Modifikation nutzt, um komplexe Transformationen ohne den Overhead unnötiger Objektkopien durchzuführen. Die Bibliothek zeichnet sich durch ihre Low-Level-Architekturoptimierungen aus, einschließlich Multi-Threaded-Parallelverarbeitung, Radix-basiertem Sortieren und Memory-Mapped-File-Parsing. Durch das Auslagern kritischer Datenmanipulations- und Aggregationsroutinen in kompilierten C-Code ermöglicht sie die schnelle Ausführung von Aufgaben, die ansonsten rechenintensiv wären. Ihre Core-Engine unterstützt fortgeschrittene relationale Operationen wie Non-Equi-, Rolling- und Overlapping-Interval-Joins sowie automatische sekundäre Indizierung zur Beschleunigung wiederholter Datenzugriffe. Über ihre primären Verarbeitungsfunktionen hinaus bietet das Projekt eine umfassende Suite an Tools für das Datenlebenszyklus-Management. Dies umfasst Hochgeschwindigkeits-Ingestion- und Serialisierungs-Utilities mit automatischer Typenerkennung sowie spezialisierte Unterstützung für Zeitreihenanalysen und mehrdimensionale Aggregation. Das Framework ist auf Skalierbarkeit ausgelegt und ermöglicht Benutzern die Durchführung komplexer Gruppierungs-, Filter- und Reshaping-Operationen auf Datensätzen mit Milliarden von Zeilen bei gleichzeitiger Systemstabilität und Performance.
Fills missing data points by replacing them with the first available non-missing value from a set.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Replaces missing entries in continuous columns with computed values for tabular data preparation.