22 repositorios
Tools for cleaning and formatting raw data for machine learning ingestion.
Distinguishing note: Focuses on training-specific data preparation, distinct from general data cleaning.
Explore 22 awesome GitHub repositories matching data & databases · Data Preprocessing Pipelines. Refine with filters or upvote what's useful.
Keras is a high-level deep learning API used to design, build, and train neural networks for tasks such as computer vision, natural language processing, and time series forecasting. It provides a framework for defining model architectures and optimizing weights through a structured interface. The project is defined by a backend-agnostic design that allows the same model code to run across different compute engines. This multi-backend execution enables users to swap underlying engines to optimize for specific hardware or performance requirements. The system supports distributed model training
Ships data preprocessing pipelines to clean and format raw datasets for efficient machine learning ingestion.
This project provides a collection of practical machine learning code examples, including implementations for supervised, unsupervised, and reinforcement learning algorithms. It features deep learning model implementations for convolutional, recurrent, and generative architectures, alongside specific examples of reinforcement learning agents that maximize rewards in simulated environments. The repository includes dedicated data preprocessing pipelines for sanitization, feature scaling, and dimensionality reduction. It also provides implementations for a wide range of specific models, such as
Provides dedicated pipelines for data sanitization, scaling, and dimensionality reduction.
Label Studio is a multi-modal data annotation platform designed to create and manage high-quality training datasets for machine learning. It functions as a self-hosted, containerized environment that supports secure, private deployments, including air-gapped configurations. The platform provides a centralized workspace for labeling diverse media types, such as images, text, audio, and time-series data, to support supervised and reinforcement learning workflows. The platform distinguishes itself through deep integration with machine learning backends, enabling active learning loops, automated
Applies automated preprocessing routines to raw data inputs to prepare them for manual annotation or model training.
This project is a deep learning library designed for training neural networks on irregular data structures, including graphs, 3D meshes, and point clouds. It functions as an extension to the PyTorch framework, providing specialized layers and kernels that enable the processing of complex, non-Euclidean information. The library distinguishes itself through a geometric deep learning toolkit that manages the unique requirements of graph-based data. It utilizes sparse matrix-based message passing to aggregate information across nodes and employs dynamic computational graph construction to accommo
Automates the transformation and feature engineering of raw graph or point cloud data to prepare it for neural network input.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Provides implementations of pipelines that sequence data preprocessing and estimator steps into a single workflow.
Nerfstudio es un framework de desarrollo modular para entrenar, visualizar y exportar representaciones de escenas tridimensionales derivadas de conjuntos de datos de imágenes bidimensionales. Proporciona un pipeline de reconstrucción de escenas neuronales que convierte imágenes sin procesar y datos de cámara en activos 3D de alta fidelidad y video cinematográfico utilizando un renderizador volumétrico diferenciable. El sistema cuenta con un visualizador interactivo basado en web que permite a los usuarios monitorear el progreso del entrenamiento e inspeccionar la geometría de la escena neuronal en tiempo real. Desacopla las arquitecturas de redes neuronales del bucle de entrenamiento a través de una interfaz modular estandarizada, permitiendo el desarrollo y la experimentación de arquitecturas de campos de radiancia neuronal personalizados. El framework cubre una amplia gama de capacidades, incluyendo preprocesamiento de conjuntos de datos para el cálculo de la pose de la cámara, evaluación de la fidelidad del modelo y la generación de secuencias de video cinematográficas mediante la interpolación de la trayectoria de la cámara. También incluye utilidades para exportar escenas entrenadas como activos 3D y nubes de puntos para su uso en software de modelado externo. La ejecución consistente del hardware es compatible a través de entornos en contenedores que agrupan controladores de gráficos y dependencias del sistema.
Provides pipelines for calculating camera poses and spatial orientations from raw visual inputs.
This is a cross-platform framework for building, training, and deploying custom machine learning models within the .NET ecosystem. It provides a predictive modeling engine for classification, regression, and forecasting tasks, alongside an inference runtime to generate predictions across different hardware architectures. The framework includes a gradient boosting library and supports interoperability with external models via a standardized open format. It features tools for prediction explainability, allowing the analysis of feature importance to debug model behavior and identify bias. The p
Provides tools for cleaning and transforming raw datasets from files or databases to prepare them for ML pipelines.
This repository is the official documentation for TensorFlow, a machine learning framework. It provides comprehensive guides, tutorials, and API references for building, training, and deploying machine learning models. The documentation covers the full lifecycle of machine learning projects, from constructing data pipelines and building neural networks with high-level APIs to customizing training loops and deploying trained models in production, on edge devices, or in browsers. The documentation includes step-by-step tutorials for a range of tasks, including reinforcement learning, ranking mo
Builds input pipelines to clean and transform data before feeding it into machine learning models.
River es un framework de Python para machine learning online, diseñado para entrenar y evaluar modelos en datos de streaming. Permite el aprendizaje incremental actualizando los parámetros del modelo una observación a la vez, eliminando la necesidad de almacenar datasets de entrenamiento completos en memoria. La librería se distingue por un sistema dedicado de detección de concept drift que monitorea cambios en las distribuciones de datos para disparar la adaptación del modelo. También proporciona un framework de validación progresiva que simula el despliegue en tiempo real probando modelos en muestras antes de usarlos para el entrenamiento. El sistema cubre un amplio rango de capacidades de streaming, incluyendo ingeniería de características en tiempo real, pronóstico de series temporales y detección de anomalías online. Soporta aprendizaje no supervisado mediante clustering incremental y árboles de decisión, así como agregación de ensamblajes y políticas de bandidos para la selección de modelos. El proyecto incluye utilidades para la ingesta de datos de streaming desde fuentes como archivos CSV y APIs, así como herramientas para calcular estadísticas en ejecución y sketches de datos eficientes en memoria.
Chains preprocessing and estimation steps into sequential workflows for transforming raw streaming features.
Este proyecto es un currículo educativo de machine learning y plataforma de aprendizaje entregada a través de Jupyter Notebooks interactivos. Sirve como una guía completa para dominar el toolkit de ciencia de datos de Python, proporcionando tutoriales estructurados para computación numérica, manipulación de datos tabulares y visualización estadística. El currículo incluye guías de implementación específicas para Scikit-Learn y un curso práctico sobre TensorFlow para construir, entrenar y desplegar redes neuronales y modelos de visión artificial. Cubre el proceso de extremo a extremo de construcción de modelos predictivos, desde la formulación inicial del problema y categorización de tareas hasta el despliegue de modelos mediante interfaces web interactivas. El proyecto cubre una amplia superficie de capacidades incluyendo computación numérica con arrays multidimensionales, análisis exploratorio de datos y rutinas de preprocesamiento de datos. Proporciona flujos de trabajo detallados para aprendizaje supervisado y no supervisado, pipelines de machine learning automatizado, optimización de hiperparámetros y evaluación de modelos utilizando métricas de clasificación y validación cruzada. El contenido educativo está organizado como una serie de notebooks que intercalan código Python con explicaciones narrativas para documentar flujos de trabajo de ciencia de datos.
Provides tools for cleaning and formatting raw data through reusable preprocessing pipelines for ML ingestion.
LatentSync es un generador de video impulsado por audio y modelo de difusión latente de sincronización labial diseñado para sincronizar los movimientos labiales de un hablante en un video con una pista de audio objetivo. Proporciona un framework de entrenamiento de sincronización labial para desarrollar redes de sincronización en datasets personalizados de video y audio. El sistema utiliza un pipeline de preprocesamiento de video para limpiar, segmentar y alinear datos faciales. Incluye una herramienta de evaluación de sincronización visual que calcula puntuaciones de confianza para medir la precisión de la alineación de audio y video en los videos generados. El proyecto cubre capacidades para el desarrollo de redes de sincronización personalizadas, gestión de configuración de entrenamiento para memoria de hardware y resolución, y evaluación de video sintético.
Ships a suite of tools for cleaning, segmenting, and aligning face data to prepare video datasets.
NVIDIA DALI is a GPU-accelerated data loading and preprocessing library designed for deep learning workflows. It constructs high-performance data pipelines that offload decoding, augmentation, and normalization to the GPU, eliminating CPU bottlenecks in training and inference. The library reads data from multiple storage formats and streams it directly into GPU memory, with support for multi-GPU execution to scale throughput across large-scale workloads. DALI distinguishes itself by enabling data pipelines to be built once and executed across multiple deep learning frameworks without code cha
Builds GPU-accelerated data loading and preprocessing pipelines that eliminate CPU bottlenecks.
Leaf is a machine learning framework and neural network architecture toolkit used for building, training, and deploying models. It functions as a hardware abstraction layer, mapping high-level computational graphs to low-level instructions across various CPU and GPU backends and operating systems. The system enables the design of flexible model structures through a modular architecture where reusable container layers encapsulate weights and mathematical operations. This allows for the composition of complex neural networks via nested components. The framework includes a data engineering pipe
Transforms raw datasets into clean, structured formats through a processing pipeline for model inference.
Este proyecto proporciona una versión traducida de las guías y referencias de API de la biblioteca de machine learning scikit-learn para hablantes de chino. Sirve como base de conocimientos localizada y referencia técnica para implementar análisis de datos predictivos y modelado estadístico utilizando un kit de herramientas basado en Python. El recurso cubre la implementación de aprendizaje supervisado, incluyendo tareas de clasificación y regresión, y flujos de trabajo de aprendizaje no supervisado para el descubrimiento de patrones y detección de anomalías. También proporciona orientación sobre educación en ciencia de datos, centrándose específicamente en el uso de scikit-learn para machine learning. La documentación incluye instrucciones detalladas sobre preprocesamiento de datos, reducción de dimensionalidad y selección de características. Detalla además la evaluación y ajuste de modelos mediante métricas de rendimiento, optimización de hiperparámetros y validación de generalización, así como el uso de pipelines de predicción y utilidades de procesamiento de lenguaje natural.
Describes how to chain scaling and imputation steps into a unified pipeline for model ingestion.
Kaolin es una librería de aprendizaje profundo 3D para PyTorch que proporciona un conjunto integral de herramientas para el procesamiento de geometría 3D, simulación física, visualización de datos y renderizado basado en gradientes para visión artificial. La librería incluye un renderizador 3D diferenciable y un kit de herramientas de procesamiento de geometría para convertir y transformar representaciones 3D como mallas (meshes) y nubes de puntos. También cuenta con un motor de simulación física 3D para calcular interacciones físicas y colisiones entre objetos y escenas tridimensionales. El kit de herramientas proporciona utilidades para la visualización de datos 3D, incluyendo la creación de vistas interactivas y animaciones de rotación. Las capacidades adicionales cubren la gestión de datasets 3D, preprocesamiento de datos y renderizado de representaciones 3D.
Implements 3D spatial preprocessing pipelines to transform data formats for improved deep learning training speed.
Este proyecto es un recurso educativo integral y un curso para construir redes neuronales usando PyTorch. Cubre los bloques de construcción fundamentales del deep learning, incluyendo la manipulación de tensores, la diferenciación automática y la construcción de componentes modulares de redes neuronales. El repositorio sirve como guía técnica para varios dominios especializados. Proporciona detalles de implementación para tareas de visión artificial como clasificación de imágenes, detección de objetos y segmentación semántica, así como flujos de trabajo de procesamiento de lenguaje natural que involucran transformers, redes recurrentes y modelos generativos. Además, incluye una referencia para IA generativa, centrándose específicamente en la síntesis de imágenes mediante modelos de difusión y redes adversarias. El material se extiende a pipelines de optimización y despliegue de modelos. Cubre técnicas para reducir el tamaño del modelo y aumentar la velocidad de inferencia mediante cuantización y la exportación de modelos a formatos como ONNX y TensorRT. Otras áreas de capacidad incluyen ingeniería de datos para carga paralela, evaluación de modelos mediante métricas personalizadas y el despliegue de modelos de lenguaje grandes (LLM) de código abierto. El proyecto se entrega principalmente como una serie de Jupyter Notebooks.
Implements multi-process data loading to ensure the GPU remains saturated during training.
Este proyecto es una colección de algoritmos y herramientas fundamentales de machine learning implementados desde cero en Python. Sirve como una librería de implementaciones centrales para modelos de regresión, clasificación y clustering, diseñada para demostrar las estructuras matemáticas subyacentes de estos algoritmos sin depender de frameworks de machine learning de alto nivel. El proyecto se centra en la implementación manual de la lógica algorítmica, incluyendo redes neuronales con propagación hacia adelante y actualizaciones de pesos, así como varios modelos de aprendizaje supervisado y no supervisado. Utiliza NumPy para la vectorización para realizar cálculos matriciales y operaciones matemáticas en grandes datasets. El toolkit cubre una amplia gama de capacidades, incluyendo reducción de dimensionalidad mediante Análisis de Componentes Principales (PCA) y preprocesamiento de datos para datasets numéricos y de imágenes. Las implementaciones algorítmicas abarcan regresión lineal y bayesiana, clustering K-Means y múltiples métodos de clasificación como Máquinas de Vectores de Soporte (SVM), Árboles de Decisión y K-Vecinos Más Cercanos (KNN). El proyecto se entrega como una serie de Jupyter Notebooks.
Implements a preprocessing pipeline that transforms raw numerical and image data into standardized formats.
Este proyecto es un recurso educativo integral y un manual de tutoriales para construir, entrenar y desplegar modelos de machine learning usando TensorFlow 2. Sirve como una guía de aprendizaje estructurada que cubre conceptos fundamentales de deep learning, incluyendo arquitecturas de redes neuronales, diferenciación automática y operaciones con tensores. El manual proporciona orientación técnica sobre cómo optimizar la eficiencia de ejecución mediante la gestión de memoria de GPU, entrenamiento distribuido y cuantización de modelos. También incluye guías detalladas para construir pipelines de datos de alto rendimiento y exportar modelos para servidores de producción, dispositivos móviles y navegadores web. El material abarca una amplia gama de capacidades, incluyendo el desarrollo de modelos con redes convolucionales y recurrentes, la implementación de funciones de pérdida y capas personalizadas, y el uso de modelos preentrenados para transfer learning. También aborda estrategias de despliegue para dispositivos edge y el uso de entornos de ejecución en la nube para aceleración por hardware. El recurso está implementado como una colección de Jupyter Notebooks.
Details the creation and transformation of datasets using parallelization strategies for model feeding.
This project is a comprehensive PyTorch-based framework designed for computer vision model development, training, and benchmarking. It provides a modular toolbox for supervised and self-supervised learning, enabling users to build, fine-tune, and evaluate deep learning architectures through a unified interface. The platform supports a wide range of vision tasks, including object detection, image segmentation, and feature extraction, while also serving as a foundation for multi-modal research that processes text and image inputs simultaneously. The framework distinguishes itself through a high
Constructs data loading, preprocessing, and evaluation workflows by defining datasets, samplers, and transformation sequences.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Exports preprocessed tabular features for use with libraries like XGBoost or Random Forests.