21 repository-uri
Techniques for replacing null entries using constant values or statistical measures.
Distinct from Null Value Handling: Candidates focus on native handling or sentinel replacement; this is the general act of filling missing data.
Explore 21 awesome GitHub repositories matching data & databases · Missing Value Imputation. Refine with filters or upvote what's useful.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Estimates placeholder values for missing data using global statistics or k-nearest neighbors.
Home Assistant is a local home automation platform and server that acts as an IoT device orchestrator. It integrates diverse smart home hardware by wrapping third-party APIs into a standardized logic layer and stores all system state and historical statistics on local hardware to eliminate cloud dependencies. The system functions as a Matter IoT controller and an MQTT home automation bridge, allowing for local interoperability between different manufacturers. It features a state-based entity model and an internal event bus that decouple physical device logic from system automation. The platf
Replaces unknown or unavailable sensor states with default values or alternative logic branches.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Replaces null values with constants, column-specific dictionaries, or calculated statistics.
This project is a machine learning educational resource and implementation guide for Python. It provides a collection of executable code and notebooks that demonstrate predictive modeling, data analysis workflows, and the implementation of various machine learning algorithms. The repository features practical examples of classification, regression, and clustering tasks using Scikit-Learn, alongside tutorials for building and training deep learning architectures with TensorFlow. These include implementations of convolutional and recurrent networks. The content covers a broad range of capabili
Implements techniques for resolving missing tabular data through removal or statistical imputation.
Smile is a comprehensive JVM machine learning library and statistical computing toolkit. It provides a suite of algorithms for classification, regression, and clustering, implemented natively for Java, Scala, and Kotlin. The project also functions as a deep learning framework, a natural language processing library, and an inference engine for large language models. The library distinguishes itself through GPU acceleration via LibTorch bindings and support for the ONNX model interchange format. It includes specialized capabilities for large language model inference, featuring Byte-Pair Encodin
Fills missing data points using statistical or model-based imputation methods.
Acest proiect este un curriculum educațional de machine learning și o platformă de învățare livrată prin Jupyter Notebooks interactive. Servește drept ghid cuprinzător pentru stăpânirea toolkit-ului de data science Python, oferind tutoriale structurate pentru calcul numeric, manipularea datelor tabelare și vizualizarea statistică. Curriculum-ul include ghiduri specifice de implementare pentru Scikit-Learn și un curs practic despre TensorFlow pentru construirea, antrenarea și deployment-ul rețelelor neuronale și a modelelor de computer vision. Acoperă procesul end-to-end de construire a modelelor predictive, de la formularea inițială a problemei și categorizarea sarcinilor până la deployment-ul modelelor prin interfețe web interactive. Proiectul acoperă o suprafață largă de capabilități, inclusiv calcul numeric cu array-uri multidimensionale, analiză exploratorie a datelor și rutine de preprocesare a datelor. Oferă fluxuri de lucru detaliate pentru învățarea supervizată și nesupervizată, pipeline-uri de machine learning automatizat, optimizarea hiperparametrilor și evaluarea modelelor folosind metrici de clasificare și cross-validation. Conținutul educațional este organizat ca o serie de notebook-uri care intercalează codul Python cu explicații narative pentru a documenta fluxurile de lucru în data science.
Employs techniques for replacing null entries using constant values or statistical measures like median imputation.
Concurrent Ruby is a comprehensive concurrency toolkit for the Ruby language that provides thread-safe data structures, synchronization primitives, and asynchronous execution patterns. It implements core concurrency abstractions including an actor model framework where isolated actors communicate through asynchronous message passing, a future and promise system for composing non-blocking operations, and thread pool executors that manage reusable worker threads for concurrent task execution. The library distinguishes itself through a broad set of coordination mechanisms that go beyond basic th
Returns a supplied default value when an optional container is empty.
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Provides a widget to detect and process missing entries using imputation or removal strategies.
Acest proiect oferă o versiune tradusă a ghidurilor bibliotecii de machine learning scikit-learn și a referințelor API pentru vorbitorii de chineză. Servește drept bază de cunoștințe localizată și referință tehnică pentru implementarea analizei predictive a datelor și a modelării statistice folosind un toolkit bazat pe Python. Resursa acoperă implementarea învățării supervizate, inclusiv sarcini de clasificare și regresie, și fluxuri de lucru de învățare nesupervizată pentru descoperirea modelelor și detectarea anomaliilor. De asemenea, oferă îndrumări privind educația în data science, concentrându-se în mod specific pe utilizarea scikit-learn pentru machine learning. Documentația include instrucțiuni detaliate privind preprocesarea datelor, reducerea dimensionalității și selecția trăsăturilor. Detaliază în continuare evaluarea și reglarea modelelor prin metrici de performanță, optimizarea hiperparametrilor și validarea generalizării, precum și utilizarea pipeline-urilor de predicție și a utilitarelor de procesare a limbajului natural.
Explains techniques for filling missing data gaps using iterative estimators to maintain dataset integrity.
cuml este o bibliotecă de machine learning accelerată pe GPU și un framework care utilizează CUDA pentru a accelera preprocesarea datelor tabelare și execuția modelelor. Oferă o suită de instrumente pentru antrenarea și implementarea modelelor de clasificare, regresie și clustering pe GPU-uri NVIDIA și clustere GPU. Biblioteca este concepută pentru scalabilitate, oferind un mediu de machine learning GPU distribuit care poate răspândi calculul și datele pe mai multe acceleratoare hardware și noduri pentru a gestiona seturi de date care depășesc memoria unui singur dispozitiv. Oglindește interfețele standard ale estimatorilor pentru a permite înlocuirea modelelor bazate pe CPU cu versiuni accelerate pe GPU în cadrul fluxurilor de lucru existente. Proiectul acoperă o gamă largă de capabilități de machine learning, incluzând învățarea supervizată, clustering-ul nesupervizat, căutarea celui mai apropiat vecin și reducerea dimensionalității de înaltă dimensiune. Include, de asemenea, preprocesarea datelor tabelare accelerată hardware pentru scalarea și codificarea caracteristicilor, extracția caracteristicilor textuale, analiza seriilor temporale și explicabilitatea predicțiilor modelului. Utilitarele de suport includ instrumente pentru generarea de seturi de date sintetice, serializarea stării modelului și calcularea metricilor de performanță ale modelului.
Fills gaps in datasets using univariate imputation to complete missing data points.
r4ds este un curriculum de știința datelor și o resursă educațională concepută pentru stăpânirea limbajului de programare R. Oferă o cale de învățare structurată pentru procesul end-to-end de importare, curățare, transformare și vizualizare a datelor. Proiectul pune accent pe un ghid de știința datelor reproductibil și un curriculum cuprinzător pentru manipularea datelor (data wrangling). Include tutoriale specializate despre gramatica graficelor pentru vizualizarea stratificată a datelor și publicații tehnice create cu Quarto care îmbină codul executabil cu proza narativă. Materialul acoperă o gamă largă de capabilități analitice, inclusiv ingestia de date din surse diverse, unirea datelor relaționale și gestionarea variabilelor categorice. De asemenea, abordează curățarea datelor, modelarea matematică și generarea de rapoarte și prezentări profesionale în formate multiple. Curriculum-ul se concentrează pe aplicarea practică a programării funcționale și a principiilor „tidy data” pentru a crea analize transparente și repetabile.
Populates null entries by carrying the last observation forward or applying fixed default values.
This is an interactive notebook-based course that teaches machine learning from Python fundamentals through deep learning and natural language processing. It uses real datasets and multiple frameworks within a structured, hands-on curriculum that combines concise explanations with executable code cells, built-in datasets, and embedded exercise checkpoints. Learning progresses through data preparation and exploration, classical machine learning workflows, computer vision with convolutional neural networks, and natural language processing with deep learning, all delivered as a cohesive progressi
Provides workflows for filling missing data using mean, median, or most frequent values.
Acest proiect este un program educațional cuprinzător și un framework de deep learning conceput pentru a preda deep learning practic folosind PyTorch prin notebook-uri și exemple de cod. Servește drept bibliotecă de nivel înalt pentru construirea, antrenarea și implementarea rețelelor neuronale, acționând ca un orchestrator de antrenare a modelelor care coordonează modelele PyTorch, optimizatoarele și funcțiile de loss. Proiectul oferă toolkit-uri specializate pentru computer vision, procesarea limbajului natural și preprocesarea datelor tabelare. Se distinge prin controale avansate de antrenare, cum ar fi rate de învățare discriminative, un sistem de callback bidirecțional pentru personalizarea logicii de antrenare și o abstractizare de nivel înalt a learner-ului care automatizează plasarea pe dispozitiv și buclele de antrenare. Framework-ul acoperă o suprafață largă de capabilități, inclusiv construcția automată a pipeline-urilor de date, analiza arhitecturii modelelor și evaluarea performanței în sarcini de clasificare, regresie și segmentare. Include, de asemenea, utilitare pentru antrenarea distribuită pe mai multe GPU-uri, antrenarea cu precizie mixtă pentru optimizarea memoriei și suport specializat pentru date de imagistică medicală. Proiectul este livrat sub formă de serie de Jupyter Notebooks.
Provides imputation strategies to fill missing entries in continuous columns using medians, modes, or constants.
This is a pandas-based technical analysis library and financial feature engineering tool. It serves as a vectorized indicator calculator that transforms raw price and volume data into derived metrics for time series analysis. The library uses a NumPy-based engine to perform mathematical operations across entire arrays, avoiding iterative loops to maintain high performance. It organizes technical indicators into a modular class hierarchy with a consistent interface, allowing for bulk feature generation and the direct appending of results as new columns to a pandas DataFrame. The system covers
Provides configurable forward-fill and zero-fill strategies to handle calculation gaps in financial datasets.
Acest proiect este un framework de calcul științific pentru ecosistemul .NET, oferind o suită cuprinzătoare de biblioteci pentru analiză numerică, statistică și optimizare matematică. Acesta servește ca un toolkit fundamental pentru dezvoltarea aplicațiilor în machine learning, procesarea semnalelor digitale și computer vision. Framework-ul oferă toolkit-uri specializate pentru antrenarea și implementarea modelelor predictive, inclusiv rețele neuronale, mașini cu vectori suport (SVM) și arbori de decizie. Se distinge, de asemenea, prin integrări profunde pentru analiză vizuală în timp real, cum ar fi urmărirea obiectelor și detectarea trăsăturilor faciale, alături de o bibliotecă dedicată de procesare a semnalelor digitale pentru captarea și filtrarea semnalelor audio și ale senzorilor. Suprafața de capabilități se extinde la descompunerea matricială de nivel înalt și algebră liniară, modelarea probabilistică a stărilor și algoritmi de căutare euristică. Acoperă, de asemenea, o gamă largă de utilitare pentru manipularea datelor, de la reducerea dimensionalității și normalizare până la organizarea datelor spațiale și componente de vizualizare științifică. Sistemul include controllere de integrare hardware pentru configurarea camerei, gestionarea porturilor GPIO și hardware specializat de detectare a adâncimii.
Fills empty data entries using statistical measures or constant values to maintain dataset integrity.
This project is a collection of comprehensive guides and reference materials designed for technical interviews, machine learning system design, and professional development. It serves as a technical knowledge base and a career coaching manual, providing structured resources to help candidates navigate the machine learning hiring landscape. The resource distinguishes itself by offering detailed frameworks for comparing industry roles, analyzing company types, and planning long-term career progression. It provides specific guidance on evaluating employer organizational health, identifying resea
Fills or models absent data points while mitigating selection bias from imputation.
json_repair is a Python library that automatically fixes common JSON syntax errors, such as trailing commas, missing quotes, unclosed brackets, and stray text, producing valid JSON output. It can also complete broken structures by closing unclosed arrays and objects, and fill missing values with sensible defaults like empty strings or null. The library distinguishes itself by handling JSON from large language model outputs, stripping markdown fences, comments, and surrounding prose before parsing. It supports schema-guided repairs, using a JSON Schema to fill missing values, coerce data types
Fills missing JSON fields with sensible defaults like empty strings or null during repair.
Nixtla este o platformă de analiză a seriilor temporale centrată pe un model de bază bazat pe transformer. Oferă inferență zero-shot pentru prognoză și detectarea anomaliilor, permițând sistemului să prezică valori viitoare pentru noi serii temporale fără a necesita reantrenarea modelului. Proiectul este conceput pentru analiză la scară largă, utilizând scalarea inferenței distribuite și paralelizarea prognozelor pentru a procesa milioane de serii de date. Suportă adaptarea prin fine-tuning pentru a ajusta ponderile preantrenate pentru seturi de date specifice domeniului și oferă opțiuni de implementare variind de la execuție locală și containere private până la integrarea ca proceduri stocate în Snowflake. Capabilitățile includ prognoza cererii pe termen lung și intermitente, analiza scenariilor „ce-ar fi dacă” și cuantificarea incertitudinii predicțiilor. Sistemul oferă, de asemenea, un pipeline complet de inginerie a datelor pentru auditarea, curățarea și îmbogățirea datelor seriilor temporale cu variabile exogene și indicatori bazați pe dată. Fiabilitatea modelului este gestionată prin backtesting cu validare încrucișată, validarea acurateței prognozei și urmărirea experimentelor pentru logarea hiperparametrilor.
Handles target series containing NaN values by managing continuous timestamp sequences to maintain reliability.
Acest proiect este un framework de procesare a datelor tabelare de înaltă performanță pentru R, conceput pentru a gestiona seturi de date masive cu eficiență a memoriei și viteză. Oferă o structură de date îmbunătățită care utilizează semantica de referință și modificarea in-place pentru a efectua transformări complexe fără overhead-ul copierii inutile a obiectelor. Biblioteca se distinge prin optimizările sale arhitecturale de nivel scăzut, inclusiv procesarea paralelă multi-threaded, sortarea bazată pe radix și parsarea fișierelor mapate în memorie. Prin descărcarea rutinelor critice de manipulare și agregare a datelor către cod C compilat, permite execuția rapidă a sarcinilor care altfel ar fi costisitoare din punct de vedere computațional. Motorul său de bază suportă operațiuni relaționale avansate, cum ar fi join-uri non-equi, rolling și intervale suprapuse, alături de indexarea secundară automată pentru a accelera accesul repetat la date. Dincolo de capabilitățile sale primare de procesare, proiectul oferă o suită cuprinzătoare de instrumente pentru gestionarea ciclului de viață al datelor. Aceasta include utilitare de ingestie și serializare de mare viteză cu detectare automată a tipului, precum și suport specializat pentru analiza seriilor temporale și agregarea multidimensională. Framework-ul este construit pentru a scala, permițând utilizatorilor să efectueze operațiuni complexe de grupare, filtrare și remodelare pe seturi de date care conțin miliarde de rânduri, menținând în același timp stabilitatea și performanța sistemului.
Fills missing data points by replacing them with the first available non-missing value from a set.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Replaces missing entries in continuous columns with computed values for tabular data preparation.