21 مستودعات
Techniques for replacing null entries using constant values or statistical measures.
Distinct from Null Value Handling: Candidates focus on native handling or sentinel replacement; this is the general act of filling missing data.
Explore 21 awesome GitHub repositories matching data & databases · Missing Value Imputation. Refine with filters or upvote what's useful.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Estimates placeholder values for missing data using global statistics or k-nearest neighbors.
Home Assistant is a local home automation platform and server that acts as an IoT device orchestrator. It integrates diverse smart home hardware by wrapping third-party APIs into a standardized logic layer and stores all system state and historical statistics on local hardware to eliminate cloud dependencies. The system functions as a Matter IoT controller and an MQTT home automation bridge, allowing for local interoperability between different manufacturers. It features a state-based entity model and an internal event bus that decouple physical device logic from system automation. The platf
Replaces unknown or unavailable sensor states with default values or alternative logic branches.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Replaces null values with constants, column-specific dictionaries, or calculated statistics.
This project is a machine learning educational resource and implementation guide for Python. It provides a collection of executable code and notebooks that demonstrate predictive modeling, data analysis workflows, and the implementation of various machine learning algorithms. The repository features practical examples of classification, regression, and clustering tasks using Scikit-Learn, alongside tutorials for building and training deep learning architectures with TensorFlow. These include implementations of convolutional and recurrent networks. The content covers a broad range of capabili
Implements techniques for resolving missing tabular data through removal or statistical imputation.
Smile is a comprehensive JVM machine learning library and statistical computing toolkit. It provides a suite of algorithms for classification, regression, and clustering, implemented natively for Java, Scala, and Kotlin. The project also functions as a deep learning framework, a natural language processing library, and an inference engine for large language models. The library distinguishes itself through GPU acceleration via LibTorch bindings and support for the ONNX model interchange format. It includes specialized capabilities for large language model inference, featuring Byte-Pair Encodin
Fills missing data points using statistical or model-based imputation methods.
هذا المشروع عبارة عن منهج تعليمي للتعلم الآلي ومنصة تعليمية يتم تقديمها من خلال دفاتر Jupyter التفاعلية. يعمل كدليل شامل لإتقان مجموعة أدوات علوم البيانات في Python، ويوفر دروساً منظمة للحوسبة العددية، ومعالجة البيانات الجدولية، والتصور الإحصائي. يتضمن المنهج أدلة تنفيذ محددة لـ Scikit-Learn ودورة عملية حول TensorFlow لبناء وتدريب ونشر الشبكات العصبية ونماذج رؤية الحاسب. ويغطي العملية الشاملة لبناء النماذج التنبؤية، من صياغة المشكلة الأولية وتصنيف المهام إلى نشر النماذج عبر واجهات الويب التفاعلية. يغطي المشروع سطح إمكانات واسع بما في ذلك الحوسبة العددية مع المصفوفات متعددة الأبعاد، وتحليل البيانات الاستكشافي، وروتينات معالجة البيانات مسبقاً. ويوفر سير عمل مفصلاً للتعلم الخاضع للإشراف وغير الخاضع للإشراف، وخطوط أنابيب التعلم الآلي المؤتمتة، وتحسين المعلمات الفائقة، وتقييم النموذج باستخدام مقاييس التصنيف والتحقق المتبادل. يتم تنظيم المحتوى التعليمي كسلسلة من الدفاتر التي تتداخل فيها أكواد Python مع التفسيرات السردية لتوثيق سير عمل علوم البيانات.
Employs techniques for replacing null entries using constant values or statistical measures like median imputation.
Concurrent Ruby is a comprehensive concurrency toolkit for the Ruby language that provides thread-safe data structures, synchronization primitives, and asynchronous execution patterns. It implements core concurrency abstractions including an actor model framework where isolated actors communicate through asynchronous message passing, a future and promise system for composing non-blocking operations, and thread pool executors that manage reusable worker threads for concurrent task execution. The library distinguishes itself through a broad set of coordination mechanisms that go beyond basic th
Returns a supplied default value when an optional container is empty.
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Provides a widget to detect and process missing entries using imputation or removal strategies.
يوفر هذا المشروع نسخة مترجمة من أدلة مكتبة تعلم الآلة scikit-learn ومراجع واجهة برمجة التطبيقات للمتحدثين باللغة الصينية. يعمل كقاعدة معرفية مترجمة ومرجع تقني لتنفيذ تحليل البيانات التنبؤي والنمذجة الإحصائية باستخدام مجموعة أدوات قائمة على Python. يغطي المورد تنفيذ التعلم الخاضع للإشراف، بما في ذلك مهام التصنيف والانحدار، وسير عمل التعلم غير الخاضع للإشراف لاكتشاف الأنماط وكشف الشذوذ. كما يوفر توجيهاً حول تعليم علم البيانات، مع التركيز بشكل خاص على استخدام scikit-learn لتعلم الآلة. تتضمن الوثائق تعليمات مفصلة حول معالجة البيانات مسبقاً، وتقليل الأبعاد، واختيار الميزات. كما تفصل تقييم النماذج وضبطها من خلال مقاييس الأداء، وتحسين المعلمات الفائقة، والتحقق من التعميم، بالإضافة إلى استخدام خطوط أنابيب التنبؤ وأدوات معالجة اللغات الطبيعية.
Explains techniques for filling missing data gaps using iterative estimators to maintain dataset integrity.
cuml هي مكتبة وإطار عمل للتعلم الآلي مسرع بواسطة GPU يستخدم CUDA لتسريع معالجة البيانات الجدولية وتنفيذ النماذج. توفر مجموعة من الأدوات لتدريب ونشر نماذج التصنيف، والانحدار، والتجميع على وحدات معالجة الرسومات NVIDIA وعناقيد GPU. تم تصميم المكتبة لقابلية التوسع، حيث توفر بيئة تعلم آلي موزعة على GPU يمكنها توزيع الحساب والبيانات عبر مسرعات أجهزة وعقد متعددة للتعامل مع مجموعات البيانات التي تتجاوز ذاكرة الجهاز الواحد. تعكس واجهات المقدر القياسية للسماح باستبدال النماذج القائمة على CPU بإصدارات مسرعة بواسطة GPU داخل سير العمل الحالي. يغطي المشروع مجموعة واسعة من قدرات التعلم الآلي، بما في ذلك التعلم الخاضع للإشراف، والتجميع غير الخاضع للإشراف، والبحث عن أقرب جار، وتقليل الأبعاد عالي الأبعاد. كما يتضمن معالجة بيانات جدولية مسرعة بواسطة الأجهزة لتوسيع الميزات والترميز، واستخراج ميزات النص، وتحليل السلاسل الزمنية، وقابلية تفسير تنبؤ النموذج. تشمل الأدوات المساعدة أدوات لإنشاء مجموعات بيانات اصطناعية، وتسلسل حالة النموذج، وحساب مقاييس أداء النموذج.
Fills gaps in datasets using univariate imputation to complete missing data points.
r4ds هو منهج لعلوم البيانات ومورد تعليمي مصمم لإتقان لغة البرمجة R. يوفر مسار تعلم منظماً للعملية الشاملة لاستيراد البيانات، وتنظيمها، وتحويلها، وتصورها. يركز المشروع على دليل علوم البيانات القابل للتكرار ومنهج شامل لمعالجة البيانات. يتضمن دروساً تعليمية متخصصة حول قواعد الرسومات لتصور البيانات الطبقي والمنشورات التقنية التي تم إنشاؤها باستخدام Quarto والتي تمزج بين الكود القابل للتنفيذ والنثر السردي. تغطي المادة مجموعة واسعة من القدرات التحليلية، بما في ذلك استيعاب البيانات من مصادر متنوعة، وربط البيانات العلائقية، وإدارة المتغيرات الفئوية. كما تتناول تنظيف البيانات، والنمذجة الرياضية، وإنشاء تقارير وعروض تقديمية احترافية متعددة التنسيقات. يركز المنهج على التطبيق العملي للبرمجة الوظيفية ومبادئ البيانات المرتبة (Tidy data) لإنشاء تحليلات شفافة وقابلة للتكرار.
Populates null entries by carrying the last observation forward or applying fixed default values.
This is an interactive notebook-based course that teaches machine learning from Python fundamentals through deep learning and natural language processing. It uses real datasets and multiple frameworks within a structured, hands-on curriculum that combines concise explanations with executable code cells, built-in datasets, and embedded exercise checkpoints. Learning progresses through data preparation and exploration, classical machine learning workflows, computer vision with convolutional neural networks, and natural language processing with deep learning, all delivered as a cohesive progressi
Provides workflows for filling missing data using mean, median, or most frequent values.
This repository is a comprehensive educational program and deep learning framework designed to teach practical deep learning using PyTorch through notebooks and code examples. It serves as a high-level library for building, training, and deploying neural networks, acting as a model training orchestrator that coordinates PyTorch models, optimizers, and loss functions. The project provides specialized toolkits for computer vision, natural language processing, and tabular data preprocessing. It distinguishes itself through advanced training controls such as discriminative learning rates, a two-w
Provides imputation strategies to fill missing entries in continuous columns using medians, modes, or constants.
This is a pandas-based technical analysis library and financial feature engineering tool. It serves as a vectorized indicator calculator that transforms raw price and volume data into derived metrics for time series analysis. The library uses a NumPy-based engine to perform mathematical operations across entire arrays, avoiding iterative loops to maintain high performance. It organizes technical indicators into a modular class hierarchy with a consistent interface, allowing for bulk feature generation and the direct appending of results as new columns to a pandas DataFrame. The system covers
Provides configurable forward-fill and zero-fill strategies to handle calculation gaps in financial datasets.
هذا المشروع عبارة عن إطار عمل للحوسبة العلمية لنظام .NET، يوفر مجموعة شاملة من المكتبات للتحليل العددي، والإحصاء، والتحسين الرياضي. يعمل كمجموعة أدوات أساسية لتطوير التطبيقات في تعلم الآلة، ومعالجة الإشارات الرقمية، ورؤية الحاسوب. يوفر إطار العمل مجموعات أدوات متخصصة لتدريب ونشر النماذج التنبؤية، بما في ذلك الشبكات العصبية، وآلات ناقل الدعم، وأشجار القرار. كما يتميز بتكامل عميق للتحليل المرئي في الوقت الفعلي، مثل تتبع الكائنات واكتشاف ملامح الوجه، إلى جانب مكتبة مخصصة لمعالجة الإشارات الرقمية لالتقاط وتصفية إشارات الصوت والمستشعرات. تمتد مساحة الإمكانيات إلى تحليل المصفوفات عالي المستوى والجبر الخطي، ونمذجة الحالة الاحتمالية، وخوارزميات البحث الاستكشافي. كما تغطي مجموعة واسعة من أدوات معالجة البيانات، من تقليل الأبعاد والتطبيع إلى تنظيم البيانات المكانية ومكونات التصور العلمي. يتضمن النظام وحدات تحكم تكامل الأجهزة لتكوين الكاميرا، وإدارة منافذ GPIO، وأجهزة استشعار العمق المتخصصة.
Fills empty data entries using statistical measures or constant values to maintain dataset integrity.
This project is a collection of comprehensive guides and reference materials designed for technical interviews, machine learning system design, and professional development. It serves as a technical knowledge base and a career coaching manual, providing structured resources to help candidates navigate the machine learning hiring landscape. The resource distinguishes itself by offering detailed frameworks for comparing industry roles, analyzing company types, and planning long-term career progression. It provides specific guidance on evaluating employer organizational health, identifying resea
Fills or models absent data points while mitigating selection bias from imputation.
json_repair is a Python library that automatically fixes common JSON syntax errors, such as trailing commas, missing quotes, unclosed brackets, and stray text, producing valid JSON output. It can also complete broken structures by closing unclosed arrays and objects, and fill missing values with sensible defaults like empty strings or null. The library distinguishes itself by handling JSON from large language model outputs, stripping markdown fences, comments, and surrounding prose before parsing. It supports schema-guided repairs, using a JSON Schema to fill missing values, coerce data types
Fills missing JSON fields with sensible defaults like empty strings or null during repair.
Nixtla is a time series analysis platform centered on a transformer-based foundation model. It provides zero-shot inference for forecasting and anomaly detection, allowing the system to predict future values for new time series without requiring model retraining. The project is designed for large-scale analysis, using distributed inference scaling and forecast parallelization to process millions of data series. It supports fine-tuning adaptation to adjust pretrained weights for domain-specific datasets and offers deployment options ranging from local execution and private containers to integr
Handles target series containing NaN values by managing continuous timestamp sequences to maintain reliability.
هذا المشروع هو إطار عمل لمعالجة البيانات الجدولية عالي الأداء لـ R، مصمم للتعامل مع مجموعات البيانات الضخمة بكفاءة في الذاكرة وسرعة. يوفر هيكل بيانات محسناً يستخدم دلالات المرجع والتعديل في المكان لإجراء تحويلات معقدة دون عبء نسخ الكائنات غير الضروري. تتميز المكتبة بتحسيناتها المعمارية منخفضة المستوى، بما في ذلك المعالجة المتوازية متعددة الخيوط، والفرز القائم على الجذر، وتحليل الملفات المعينة في الذاكرة. من خلال تفريغ إجراءات معالجة البيانات والتجميع الحرجة إلى كود C مجمع، فإنه يتيح التنفيذ السريع للمهام التي قد تكون مكلفة حسابياً. يدعم محركها الأساسي عمليات علائقية متقدمة، مثل الانضمامات غير المتساوية، والمتدحرجة، والمتداخلة، إلى جانب الفهرسة الثانوية التلقائية لتسريع الوصول المتكرر للبيانات. إلى جانب إمكانات المعالجة الأساسية، يقدم المشروع مجموعة شاملة من الأدوات لإدارة دورة حياة البيانات. يتضمن ذلك أدوات استيعاب وتسلسل عالية السرعة مع الكشف التلقائي عن النوع، بالإضافة إلى دعم متخصص لتحليل السلاسل الزمنية والتجميع متعدد الأبعاد. تم بناء إطار العمل ليتوسع، مما يسمح للمستخدمين بإجراء عمليات تجميع وتصفية وإعادة تشكيل معقدة على مجموعات بيانات تحتوي على مليارات الصفوف مع الحفاظ على استقرار النظام وأدائه.
Fills missing data points by replacing them with the first available non-missing value from a set.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Replaces missing entries in continuous columns with computed values for tabular data preparation.