22 repository-uri
Tools for cleaning and formatting raw data for machine learning ingestion.
Distinguishing note: Focuses on training-specific data preparation, distinct from general data cleaning.
Explore 22 awesome GitHub repositories matching data & databases · Data Preprocessing Pipelines. Refine with filters or upvote what's useful.
Keras is a high-level deep learning API used to design, build, and train neural networks for tasks such as computer vision, natural language processing, and time series forecasting. It provides a framework for defining model architectures and optimizing weights through a structured interface. The project is defined by a backend-agnostic design that allows the same model code to run across different compute engines. This multi-backend execution enables users to swap underlying engines to optimize for specific hardware or performance requirements. The system supports distributed model training
Ships data preprocessing pipelines to clean and format raw datasets for efficient machine learning ingestion.
This project provides a collection of practical machine learning code examples, including implementations for supervised, unsupervised, and reinforcement learning algorithms. It features deep learning model implementations for convolutional, recurrent, and generative architectures, alongside specific examples of reinforcement learning agents that maximize rewards in simulated environments. The repository includes dedicated data preprocessing pipelines for sanitization, feature scaling, and dimensionality reduction. It also provides implementations for a wide range of specific models, such as
Provides dedicated pipelines for data sanitization, scaling, and dimensionality reduction.
Label Studio is a multi-modal data annotation platform designed to create and manage high-quality training datasets for machine learning. It functions as a self-hosted, containerized environment that supports secure, private deployments, including air-gapped configurations. The platform provides a centralized workspace for labeling diverse media types, such as images, text, audio, and time-series data, to support supervised and reinforcement learning workflows. The platform distinguishes itself through deep integration with machine learning backends, enabling active learning loops, automated
Applies automated preprocessing routines to raw data inputs to prepare them for manual annotation or model training.
This project is a deep learning library designed for training neural networks on irregular data structures, including graphs, 3D meshes, and point clouds. It functions as an extension to the PyTorch framework, providing specialized layers and kernels that enable the processing of complex, non-Euclidean information. The library distinguishes itself through a geometric deep learning toolkit that manages the unique requirements of graph-based data. It utilizes sparse matrix-based message passing to aggregate information across nodes and employs dynamic computational graph construction to accommo
Automates the transformation and feature engineering of raw graph or point cloud data to prepare it for neural network input.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Provides implementations of pipelines that sequence data preprocessing and estimator steps into a single workflow.
Nerfstudio este un framework de dezvoltare modular pentru antrenarea, vizualizarea și exportarea reprezentărilor de scene tridimensionale derivate din seturi de date de imagini bidimensionale. Oferă un pipeline de reconstrucție neuronală a scenei care convertește imaginile brute și datele camerei în active 3D de înaltă fidelitate și videoclipuri cinematografice folosind un renderer volumetric diferențiabil. Sistemul dispune de un vizualizator interactiv bazat pe web care permite utilizatorilor să monitorizeze progresul antrenamentului și să inspecteze geometria scenei neuronale în timp real. Decuplează arhitecturile rețelelor neuronale de bucla de antrenament printr-o interfață modulară standardizată, permițând dezvoltarea și experimentarea arhitecturilor personalizate de câmpuri de radianță neuronală. Framework-ul acoperă o gamă largă de capabilități, inclusiv preprocesarea seturilor de date pentru calculul poziției camerei, evaluarea fidelității modelului și generarea de secvențe video cinematografice prin interpolarea traiectoriei camerei. Include, de asemenea, utilitare pentru exportarea scenelor antrenate ca active 3D și nori de puncte pentru utilizare în software-uri de modelare externe. Execuția hardware consistentă este susținută prin medii containerizate care includ drivere grafice și dependențe de sistem.
Provides pipelines for calculating camera poses and spatial orientations from raw visual inputs.
This is a cross-platform framework for building, training, and deploying custom machine learning models within the .NET ecosystem. It provides a predictive modeling engine for classification, regression, and forecasting tasks, alongside an inference runtime to generate predictions across different hardware architectures. The framework includes a gradient boosting library and supports interoperability with external models via a standardized open format. It features tools for prediction explainability, allowing the analysis of feature importance to debug model behavior and identify bias. The p
Provides tools for cleaning and transforming raw datasets from files or databases to prepare them for ML pipelines.
This repository is the official documentation for TensorFlow, a machine learning framework. It provides comprehensive guides, tutorials, and API references for building, training, and deploying machine learning models. The documentation covers the full lifecycle of machine learning projects, from constructing data pipelines and building neural networks with high-level APIs to customizing training loops and deploying trained models in production, on edge devices, or in browsers. The documentation includes step-by-step tutorials for a range of tasks, including reinforcement learning, ranking mo
Builds input pipelines to clean and transform data before feeding it into machine learning models.
River este un framework Python pentru online machine learning, conceput pentru a antrena și evalua modele pe date de tip streaming. Permite învățarea incrementală prin actualizarea parametrilor modelului la fiecare observație, eliminând nevoia de a stoca seturi de date complete de antrenament în memorie. Biblioteca se distinge printr-un sistem dedicat de detectare a concept drift-ului, care monitorizează schimbările în distribuțiile datelor pentru a declanșa adaptarea modelului. De asemenea, oferă un framework de validare progresivă care simulează deployment-ul în timp real prin testarea modelelor pe eșantioane înainte de a le utiliza pentru antrenament. Sistemul acoperă o gamă largă de capabilități de streaming, inclusiv feature engineering în timp real, prognoza seriilor temporale și detectarea anomaliilor online. Suportă învățarea nesupervizată prin clustering incremental și arbori de decizie, precum și agregarea de tip ensemble și politici de tip bandit pentru selecția modelelor. Proiectul include utilitare pentru ingestia de date de streaming din surse precum fișiere CSV și API-uri, precum și instrumente pentru calcularea statisticilor în mișcare și a schițelor de date eficiente din punct de vedere al memoriei.
Chains preprocessing and estimation steps into sequential workflows for transforming raw streaming features.
Acest proiect este un curriculum educațional de machine learning și o platformă de învățare livrată prin Jupyter Notebooks interactive. Servește drept ghid cuprinzător pentru stăpânirea toolkit-ului de data science Python, oferind tutoriale structurate pentru calcul numeric, manipularea datelor tabelare și vizualizarea statistică. Curriculum-ul include ghiduri specifice de implementare pentru Scikit-Learn și un curs practic despre TensorFlow pentru construirea, antrenarea și deployment-ul rețelelor neuronale și a modelelor de computer vision. Acoperă procesul end-to-end de construire a modelelor predictive, de la formularea inițială a problemei și categorizarea sarcinilor până la deployment-ul modelelor prin interfețe web interactive. Proiectul acoperă o suprafață largă de capabilități, inclusiv calcul numeric cu array-uri multidimensionale, analiză exploratorie a datelor și rutine de preprocesare a datelor. Oferă fluxuri de lucru detaliate pentru învățarea supervizată și nesupervizată, pipeline-uri de machine learning automatizat, optimizarea hiperparametrilor și evaluarea modelelor folosind metrici de clasificare și cross-validation. Conținutul educațional este organizat ca o serie de notebook-uri care intercalează codul Python cu explicații narative pentru a documenta fluxurile de lucru în data science.
Provides tools for cleaning and formatting raw data through reusable preprocessing pipelines for ML ingestion.
LatentSync este un generator video audio-driven și un model de lip sync cu difuzie latentă, conceput pentru a sincroniza mișcările buzelor unui vorbitor într-un video cu o pistă audio țintă. Oferă un framework de antrenament pentru sincronizarea buzelor, pentru dezvoltarea rețelelor de sincronizare pe seturi de date video și audio personalizate. Sistemul utilizează un pipeline de preprocesare video pentru a curăța, segmenta și alinia datele faciale. Include un instrument de evaluare a sincronizării vizuale care calculează scoruri de încredere pentru a măsura acuratețea alinierii audio și vizuale în videoclipurile generate. Proiectul acoperă capabilități pentru dezvoltarea rețelelor de sincronizare personalizate, gestionarea configurației de antrenament pentru memoria hardware și rezoluție, precum și evaluarea video sintetică.
Ships a suite of tools for cleaning, segmenting, and aligning face data to prepare video datasets.
NVIDIA DALI is a GPU-accelerated data loading and preprocessing library designed for deep learning workflows. It constructs high-performance data pipelines that offload decoding, augmentation, and normalization to the GPU, eliminating CPU bottlenecks in training and inference. The library reads data from multiple storage formats and streams it directly into GPU memory, with support for multi-GPU execution to scale throughput across large-scale workloads. DALI distinguishes itself by enabling data pipelines to be built once and executed across multiple deep learning frameworks without code cha
Builds GPU-accelerated data loading and preprocessing pipelines that eliminate CPU bottlenecks.
Leaf este un framework de machine learning și toolkit de arhitectură de rețele neuronale utilizat pentru construirea, antrenarea și implementarea modelelor. Funcționează ca un strat de abstractizare hardware, mapând grafuri computaționale de nivel înalt către instrucțiuni de nivel scăzut pe diverse backend-uri CPU și GPU și sisteme de operare. Sistemul permite designul unor structuri flexibile de modele printr-o arhitectură modulară unde straturile container reutilizabile încapsulează ponderi și operații matematice. Acest lucru permite compunerea rețelelor neuronale complexe prin componente imbricate. Framework-ul include un pipeline de inginerie a datelor pentru transformarea seturilor de date brute în tensori curați și un profiler de performanță computațională pentru a identifica blocajele de runtime folosind instrumentație de diagnosticare. Aceste capabilități susțin optimizarea calculului de înaltă performanță și implementarea modelelor cross-hardware.
Transforms raw datasets into clean, structured formats through a processing pipeline for model inference.
Acest proiect oferă o versiune tradusă a ghidurilor bibliotecii de machine learning scikit-learn și a referințelor API pentru vorbitorii de chineză. Servește drept bază de cunoștințe localizată și referință tehnică pentru implementarea analizei predictive a datelor și a modelării statistice folosind un toolkit bazat pe Python. Resursa acoperă implementarea învățării supervizate, inclusiv sarcini de clasificare și regresie, și fluxuri de lucru de învățare nesupervizată pentru descoperirea modelelor și detectarea anomaliilor. De asemenea, oferă îndrumări privind educația în data science, concentrându-se în mod specific pe utilizarea scikit-learn pentru machine learning. Documentația include instrucțiuni detaliate privind preprocesarea datelor, reducerea dimensionalității și selecția trăsăturilor. Detaliază în continuare evaluarea și reglarea modelelor prin metrici de performanță, optimizarea hiperparametrilor și validarea generalizării, precum și utilizarea pipeline-urilor de predicție și a utilitarelor de procesare a limbajului natural.
Describes how to chain scaling and imputation steps into a unified pipeline for model ingestion.
Kaolin este o bibliotecă PyTorch pentru deep learning 3D care oferă o suită cuprinzătoare de instrumente pentru procesarea geometriei 3D, simularea fizicii, vizualizarea datelor și randarea bazată pe gradient pentru computer vision. Biblioteca include un renderer 3D diferențiabil și un toolkit de procesare a geometriei pentru conversia și transformarea reprezentărilor 3D, cum ar fi mesh-urile și norii de puncte (point clouds). Dispune, de asemenea, de un motor de simulare a fizicii 3D pentru a calcula interacțiunile fizice și coliziunile între obiecte și scene tridimensionale. Toolkit-ul oferă utilitare pentru vizualizarea datelor 3D, inclusiv crearea de vizualizări interactive și animații de tip turntable. Capabilitățile suplimentare acoperă gestionarea seturilor de date 3D, preprocesarea datelor și randarea reprezentărilor 3D.
Implements 3D spatial preprocessing pipelines to transform data formats for improved deep learning training speed.
Acest proiect este o resursă educațională cuprinzătoare și un curs pentru construirea de rețele neuronale folosind PyTorch. Acoperă elementele fundamentale ale deep learning-ului, inclusiv manipularea tensorilor, diferențierea automată și construcția componentelor modulare de rețele neuronale. Repository-ul servește drept ghid tehnic pentru mai multe domenii specializate. Oferă detalii de implementare pentru sarcini de computer vision, cum ar fi clasificarea imaginilor, detecția obiectelor și segmentarea semantică, precum și fluxuri de lucru de procesare a limbajului natural (NLP) care implică transformatoare, rețele recurente și modele generative. În plus, include o referință pentru AI generativ, concentrându-se în mod specific pe sinteza de imagini prin modele de difuzie și rețele adversariale. Materialul se extinde către optimizarea modelelor și pipeline-uri de deployment. Acoperă tehnici pentru reducerea dimensiunii modelelor și creșterea vitezei de inferență prin cuantizare și exportul modelelor în formate precum ONNX și TensorRT. Alte domenii de capabilitate includ ingineria datelor pentru încărcarea paralelă, evaluarea modelelor folosind metrici personalizate și deployment-ul modelelor de limbaj mari (LLM) open-source. Proiectul este livrat în principal sub formă de serie de Jupyter Notebooks.
Implements multi-process data loading to ensure the GPU remains saturated during training.
Acest proiect este o colecție de algoritmi fundamentali de machine learning și instrumente implementate de la zero în Python. Servește drept bibliotecă de implementări de bază pentru modele de regresie, clasificare și clustering, concepută pentru a demonstra structurile matematice subiacente ale acestor algoritmi fără a se baza pe framework-uri de machine learning de nivel înalt. Proiectul se concentrează pe implementarea manuală a logicii algoritmice, inclusiv rețele neuronale cu propagare înainte și actualizări de ponderi, precum și diverse modele de învățare supervizată și nesupervizată. Utilizează NumPy pentru vectorizare pentru a efectua calcule matriceale și operațiuni matematice pe seturi de date mari. Toolkit-ul acoperă o gamă largă de capabilități, inclusiv reducerea dimensionalității prin Principal Component Analysis și preprocesarea datelor pentru seturi de date numerice și de imagini. Implementările algoritmice acoperă regresia liniară și Bayesiană, K-Means clustering și metode multiple de clasificare, cum ar fi Support Vector Machines, Decision Trees și K-Nearest Neighbors. Proiectul este livrat sub formă de serie de Jupyter Notebooks.
Implements a preprocessing pipeline that transforms raw numerical and image data into standardized formats.
Acest proiect este o resursă educațională cuprinzătoare și un manual de tutoriale pentru construirea, antrenarea și implementarea modelelor de machine learning folosind TensorFlow 2. Acesta servește drept ghid de învățare structurat, acoperind concepte fundamentale de deep learning, inclusiv arhitecturi de rețele neuronale, diferențiere automată și operații cu tensori. Manualul oferă îndrumări tehnice pentru optimizarea eficienței execuției prin gestionarea memoriei GPU, antrenarea distribuită și cuantizarea modelelor. Include, de asemenea, manuale detaliate pentru construirea de pipeline-uri de date de înaltă performanță și exportul modelelor pentru servere de producție, dispozitive mobile și browsere web. Materialul acoperă o gamă largă de capabilități, inclusiv dezvoltarea de modele cu rețele convoluționale și recurente, implementarea de funcții de loss și straturi personalizate, precum și utilizarea modelelor pre-antrenate pentru transfer learning. De asemenea, abordează strategii de implementare pentru dispozitive edge și utilizarea runtime-urilor bazate pe cloud pentru accelerare hardware. Resursa este implementată sub forma unei colecții de Jupyter Notebooks.
Details the creation and transformation of datasets using parallelization strategies for model feeding.
This project is a comprehensive PyTorch-based framework designed for computer vision model development, training, and benchmarking. It provides a modular toolbox for supervised and self-supervised learning, enabling users to build, fine-tune, and evaluate deep learning architectures through a unified interface. The platform supports a wide range of vision tasks, including object detection, image segmentation, and feature extraction, while also serving as a foundation for multi-modal research that processes text and image inputs simultaneously. The framework distinguishes itself through a high
Constructs data loading, preprocessing, and evaluation workflows by defining datasets, samplers, and transformation sequences.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Exports preprocessed tabular features for use with libraries like XGBoost or Random Forests.