21 dépôts
Tools for cleaning and formatting raw data for machine learning ingestion.
Distinguishing note: Focuses on training-specific data preparation, distinct from general data cleaning.
Explore 21 awesome GitHub repositories matching data & databases · Data Preprocessing Pipelines. Refine with filters or upvote what's useful.
Keras is a high-level deep learning API used to design, build, and train neural networks for tasks such as computer vision, natural language processing, and time series forecasting. It provides a framework for defining model architectures and optimizing weights through a structured interface. The project is defined by a backend-agnostic design that allows the same model code to run across different compute engines. This multi-backend execution enables users to swap underlying engines to optimize for specific hardware or performance requirements. The system supports distributed model training
Ships data preprocessing pipelines to clean and format raw datasets for efficient machine learning ingestion.
This project provides a collection of practical machine learning code examples, including implementations for supervised, unsupervised, and reinforcement learning algorithms. It features deep learning model implementations for convolutional, recurrent, and generative architectures, alongside specific examples of reinforcement learning agents that maximize rewards in simulated environments. The repository includes dedicated data preprocessing pipelines for sanitization, feature scaling, and dimensionality reduction. It also provides implementations for a wide range of specific models, such as
Provides dedicated pipelines for data sanitization, scaling, and dimensionality reduction.
Label Studio is a multi-modal data annotation platform designed to create and manage high-quality training datasets for machine learning. It functions as a self-hosted, containerized environment that supports secure, private deployments, including air-gapped configurations. The platform provides a centralized workspace for labeling diverse media types, such as images, text, audio, and time-series data, to support supervised and reinforcement learning workflows. The platform distinguishes itself through deep integration with machine learning backends, enabling active learning loops, automated
Applies automated preprocessing routines to raw data inputs to prepare them for manual annotation or model training.
This project is a deep learning library designed for training neural networks on irregular data structures, including graphs, 3D meshes, and point clouds. It functions as an extension to the PyTorch framework, providing specialized layers and kernels that enable the processing of complex, non-Euclidean information. The library distinguishes itself through a geometric deep learning toolkit that manages the unique requirements of graph-based data. It utilizes sparse matrix-based message passing to aggregate information across nodes and employs dynamic computational graph construction to accommo
Automates the transformation and feature engineering of raw graph or point cloud data to prepare it for neural network input.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Provides implementations of pipelines that sequence data preprocessing and estimator steps into a single workflow.
Nerfstudio est un framework de développement modulaire pour entraîner, visualiser et exporter des représentations de scènes tridimensionnelles dérivées d'ensembles de données d'images bidimensionnelles. Il fournit un pipeline de reconstruction de scène neuronale qui convertit les images brutes et les données de caméra en actifs 3D haute fidélité et en vidéo cinématographique en utilisant un rendu volumétrique différentiable. Le système dispose d'un visualiseur interactif basé sur le web qui permet aux utilisateurs de surveiller la progression de l'entraînement et d'inspecter la géométrie de la scène neuronale en temps réel. Il découple les architectures de réseaux de neurones de la boucle d'entraînement via une interface modulaire standardisée, permettant le développement et l'expérimentation d'architectures de champs de radiance neuronaux personnalisées. Le framework couvre un large éventail de capacités, notamment le prétraitement des ensembles de données pour le calcul de la pose de la caméra, l'évaluation de la fidélité du modèle et la génération de séquences vidéo cinématographiques via l'interpolation de trajectoire de caméra. Il inclut également des utilitaires pour exporter des scènes entraînées en tant qu'actifs 3D et nuages de points pour une utilisation dans des logiciels de modélisation externes. L'exécution matérielle cohérente est prise en charge par des environnements conteneurisés qui regroupent les pilotes graphiques et les dépendances système.
Provides pipelines for calculating camera poses and spatial orientations from raw visual inputs.
This is a cross-platform framework for building, training, and deploying custom machine learning models within the .NET ecosystem. It provides a predictive modeling engine for classification, regression, and forecasting tasks, alongside an inference runtime to generate predictions across different hardware architectures. The framework includes a gradient boosting library and supports interoperability with external models via a standardized open format. It features tools for prediction explainability, allowing the analysis of feature importance to debug model behavior and identify bias. The p
Provides tools for cleaning and transforming raw datasets from files or databases to prepare them for ML pipelines.
This repository is the official documentation for TensorFlow, a machine learning framework. It provides comprehensive guides, tutorials, and API references for building, training, and deploying machine learning models. The documentation covers the full lifecycle of machine learning projects, from constructing data pipelines and building neural networks with high-level APIs to customizing training loops and deploying trained models in production, on edge devices, or in browsers. The documentation includes step-by-step tutorials for a range of tasks, including reinforcement learning, ranking mo
Builds input pipelines to clean and transform data before feeding it into machine learning models.
River est un framework Python pour le machine learning en ligne (online machine learning), conçu pour entraîner et évaluer des modèles sur des données en streaming. Il permet un apprentissage incrémental en mettant à jour les paramètres du modèle une observation à la fois, éliminant le besoin de stocker des jeux de données d'entraînement complets en mémoire. La bibliothèque se distingue par un système dédié de détection de dérive de concept (concept drift) qui surveille les changements dans les distributions de données pour déclencher l'adaptation du modèle. Elle fournit également un framework de validation progressive qui simule un déploiement en temps réel en testant les modèles sur des échantillons avant de les utiliser pour l'entraînement. Le système couvre un large éventail de capacités de streaming, incluant l'ingénierie de caractéristiques (feature engineering) en temps réel, la prévision de séries temporelles et la détection d'anomalies en ligne. Il prend en charge l'apprentissage non supervisé via le clustering incrémental et les arbres de décision, ainsi que l'agrégation ensembliste et les politiques de bandit pour la sélection de modèles. Le projet inclut des utilitaires pour l'ingestion de données en streaming à partir de sources telles que des fichiers CSV et des API, ainsi que des outils pour calculer des statistiques courantes et des esquisses de données (data sketches) économes en mémoire.
Chains preprocessing and estimation steps into sequential workflows for transforming raw streaming features.
Ce projet est un cursus éducatif en machine learning et une plateforme d'apprentissage délivrée via des Jupyter Notebooks interactifs. Il sert de guide complet pour maîtriser le toolkit de science des données Python, fournissant des tutoriels structurés pour le calcul numérique, la manipulation de données tabulaires et la visualisation statistique. Le cursus inclut des guides d'implémentation spécifiques pour Scikit-Learn et un cours pratique sur TensorFlow pour construire, entraîner et déployer des réseaux de neurones et des modèles de vision par ordinateur. Il couvre le processus de bout en bout de la construction de modèles prédictifs, de la formulation initiale du problème et de la catégorisation des tâches au déploiement des modèles via des interfaces web interactives. Le projet couvre une large surface de capacités incluant le calcul numérique avec des tableaux multidimensionnels, l'analyse exploratoire des données et les routines de prétraitement des données. Il fournit des flux de travail détaillés pour l'apprentissage supervisé et non supervisé, les pipelines de machine learning automatisés, l'optimisation des hyperparamètres et l'évaluation des modèles utilisant des métriques de classification et la validation croisée. Le contenu éducatif est organisé sous forme d'une série de notebooks qui entremêlent code Python et explications narratives pour documenter les flux de travail en science des données.
Provides tools for cleaning and formatting raw data through reusable preprocessing pipelines for ML ingestion.
LatentSync est un générateur de vidéo piloté par l'audio et un modèle de synchronisation labiale par diffusion latente conçu pour synchroniser les mouvements des lèvres d'un locuteur dans une vidéo avec une piste audio cible. Il fournit un framework d'entraînement de synchronisation labiale pour développer des réseaux de synchronisation sur des jeux de données vidéo et audio personnalisés. Le système utilise un pipeline de prétraitement vidéo pour nettoyer, segmenter et aligner les données faciales. Il inclut un outil d'évaluation de synchronisation visuelle qui calcule des scores de confiance pour mesurer la précision de l'alignement audio et visuel dans les vidéos générées. Le projet couvre des capacités pour le développement de réseaux de synchronisation personnalisés, la gestion de la configuration d'entraînement pour la mémoire matérielle et la résolution, ainsi que l'évaluation de vidéo synthétique.
Ships a suite of tools for cleaning, segmenting, and aligning face data to prepare video datasets.
NVIDIA DALI is a GPU-accelerated data loading and preprocessing library designed for deep learning workflows. It constructs high-performance data pipelines that offload decoding, augmentation, and normalization to the GPU, eliminating CPU bottlenecks in training and inference. The library reads data from multiple storage formats and streams it directly into GPU memory, with support for multi-GPU execution to scale throughput across large-scale workloads. DALI distinguishes itself by enabling data pipelines to be built once and executed across multiple deep learning frameworks without code cha
Builds GPU-accelerated data loading and preprocessing pipelines that eliminate CPU bottlenecks.
Leaf est un framework de machine learning et une boîte à outils d'architecture de réseaux de neurones utilisés pour construire, entraîner et déployer des modèles. Il fonctionne comme une couche d'abstraction matérielle, mappant des graphes de calcul de haut niveau vers des instructions de bas niveau sur divers backends CPU et GPU et systèmes d'exploitation. Le système permet la conception de structures de modèles flexibles via une architecture modulaire où des couches de conteneurs réutilisables encapsulent les poids et les opérations mathématiques. Cela permet la composition de réseaux de neurones complexes via des composants imbriqués. Le framework inclut un pipeline d'ingénierie de données pour transformer des jeux de données bruts en tenseurs propres et un profileur de performance de calcul pour identifier les goulots d'étranglement à l'exécution via une instrumentation de diagnostic. Ces capacités supportent l'optimisation du calcul haute performance et le déploiement de modèles multi-matériel.
Transforms raw datasets into clean, structured formats through a processing pipeline for model inference.
Ce projet fournit une version traduite des guides et références API de la bibliothèque de machine learning scikit-learn pour les sinophones. Il sert de base de connaissances localisée et de référence technique pour implémenter l'analyse prédictive de données et la modélisation statistique en utilisant une boîte à outils basée sur Python. La ressource couvre l'implémentation de l'apprentissage supervisé, incluant les tâches de classification et de régression, ainsi que les workflows d'apprentissage non supervisé pour la découverte de motifs et la détection d'anomalies. Elle fournit également des conseils sur l'éducation en data science, en se concentrant spécifiquement sur l'utilisation de scikit-learn pour le machine learning. La documentation inclut des instructions détaillées sur le prétraitement des données, la réduction de dimensionnalité et la sélection de caractéristiques. Elle détaille en outre l'évaluation et le réglage des modèles via des métriques de performance, l'optimisation des hyperparamètres et la validation de généralisation, ainsi que l'utilisation de pipelines de prédiction et d'utilitaires de traitement du langage naturel.
Describes how to chain scaling and imputation steps into a unified pipeline for model ingestion.
Kaolin est une bibliothèque de deep learning 3D PyTorch fournissant une suite complète d'outils pour le traitement de géométrie 3D, la simulation physique, la visualisation de données et le rendu basé sur le gradient pour la vision par ordinateur. La bibliothèque inclut un moteur de rendu 3D différentiable et une boîte à outils de traitement de géométrie pour convertir et transformer des représentations 3D telles que des maillages (meshes) et des nuages de points. Elle dispose également d'un moteur de simulation physique 3D pour calculer les interactions physiques et les collisions entre des objets et des scènes tridimensionnels. La boîte à outils fournit des utilitaires pour la visualisation de données 3D, incluant la création de vues interactives et d'animations de type plateau tournant. Les capacités supplémentaires couvrent la gestion des jeux de données 3D, le prétraitement des données et le rendu de représentations 3D.
Implements 3D spatial preprocessing pipelines to transform data formats for improved deep learning training speed.
This project is a comprehensive instructional resource and course for building neural networks using PyTorch. It covers the fundamental building blocks of deep learning, including tensor manipulation, automatic differentiation, and the construction of modular neural network components. The repository serves as a technical guide for several specialized domains. It provides implementation details for computer vision tasks such as image classification, object detection, and semantic segmentation, as well as natural language processing workflows involving transformers, recurrent networks, and gen
Implements multi-process data loading to ensure the GPU remains saturated during training.
This project is a collection of foundational machine learning algorithms and tools implemented from scratch in Python. It serves as a library of core implementations for regression, classification, and clustering models, designed to demonstrate the underlying mathematical structures of these algorithms without relying on high-level machine learning frameworks. The project focuses on the manual implementation of algorithmic logic, including neural networks with forward propagation and weight updates, as well as various supervised and unsupervised learning models. It utilizes NumPy for vectoriz
Implements a preprocessing pipeline that transforms raw numerical and image data into standardized formats.
Ce projet est une ressource pédagogique complète et un manuel de tutoriels pour construire, entraîner et déployer des modèles de machine learning avec TensorFlow 2. Il sert de guide d'apprentissage structuré couvrant les concepts fondamentaux du deep learning, notamment les architectures de réseaux de neurones, la différenciation automatique et les opérations sur les tenseurs. Le manuel fournit des conseils techniques pour optimiser l'efficacité de l'exécution via la gestion de la mémoire GPU, l'entraînement distribué et la quantification de modèles. Il inclut également des guides détaillés pour construire des pipelines de données haute performance et exporter des modèles vers des serveurs de production, des appareils mobiles et des navigateurs web. Le contenu couvre un large éventail de capacités, incluant le développement de modèles avec des réseaux convolutifs et récurrents, l'implémentation de fonctions de perte et de couches personnalisées, ainsi que l'utilisation de modèles pré-entraînés pour le transfer learning. Il aborde également les stratégies de déploiement pour les appareils edge et l'utilisation d'environnements d'exécution cloud pour l'accélération matérielle. La ressource est implémentée sous forme d'une collection de Jupyter Notebooks.
Details the creation and transformation of datasets using parallelization strategies for model feeding.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Exports preprocessed tabular features for use with libraries like XGBoost or Random Forests.
Scanpy is a Python library for the preprocessing, visualization, and analysis of large-scale single-cell gene expression datasets. It serves as a toolkit for single-cell RNA sequencing analysis, providing a framework to process and analyze genomic data from individual cells to identify biological markers and cell types. The library includes a scalable data processing pipeline for cleaning and preparing genomic data, a clustering framework for grouping cells with similar expression profiles, and a system for modeling transitions between cell states to reconstruct biological development and dif
Provides vectorized preprocessing pipelines using NumPy and SciPy for high-throughput normalization and scaling of cell data.