Why is autumnai/leaf a recommended Machine Learning Data Preparation GitHub Repositories repository?

Provides workflows for transforming raw datasets into clean tensors to ensure high quality training and inference.

Why is javascriptdata/danfojs a recommended Machine Learning Data Preparation GitHub Repositories repository?

Transforms labeled data structures into tensors required for training and evaluating machine learning models.

Why is fastai/course-v3 a recommended Machine Learning Data Preparation GitHub Repositories repository?

Transforms raw data items into normalized float tensors suitable for deep learning model consumption.

Why is airbnb/aerosolve a recommended Machine Learning Data Preparation GitHub Repositories repository?

Implements a specialized domain-specific transformation language for converting raw data into model-ready representations.

Why is layumi/person_reid_baseline_pytorch a recommended Machine Learning Data Preparation GitHub Repositories repository?

Automatically extracts unique identity labels from filenames to group images of the same person or vehicle.

Why is microsoft/vott a recommended Machine Learning Data Preparation GitHub Repositories repository?

Allows users to define object locations and assign tags within images to generate ground truth training data.

Why is openimages/dataset a recommended Machine Learning Data Preparation GitHub Repositories repository?

Provides millions of labeled images with bounding boxes and point locations to generate ground truth for computer vision.

Why is xiaotudui/pytorch-tutorial a recommended Machine Learning Data Preparation GitHub Repositories repository?

Covers the preparation of image datasets, including labeling objects to generate ground truth data.

Why is mit-lcp/mimic-code a recommended Machine Learning Data Preparation GitHub Repositories repository?

MIMIC-IV transforms structured health records and clinical notes into formats suitable for machine learning models.

Why is cloud-annotations/cloud-annotations a recommended Machine Learning Data Preparation GitHub Repositories repository?

Provides tools for drawing bounding boxes and polygons to transform raw images into structured training data for machine learning.

11 repositorios

Awesome GitHub RepositoriesMachine Learning Data Preparation

Tools and workflows for transforming raw clinical data into formats suitable for training machine learning models.

Distinct from Machine Learning: The provided candidates are mostly awesome-list pointers to general ML fields; this is a concrete capability for clinical data engineering.

Explore 11 awesome GitHub repositories matching data & databases · Machine Learning Data Preparation. Refine with filters or upvote what's useful.

Encuentra los mejores repositorios con IA.Buscaremos los repositorios que mejor coincidan usando IA.

autumnai/leaf
autumnai/leaf
5,540Ver en GitHub
Leaf is a machine learning framework and neural network architecture toolkit used for building, training, and deploying models. It functions as a hardware abstraction layer, mapping high-level computational graphs to low-level instructions across various CPU and GPU backends and operating systems. The system enables the design of flexible model structures through a modular architecture where reusable container layers encapsulate weights and mathematical operations. This allows for the composition of complex neural networks via nested components. The framework includes a data engineering pipe
Provides workflows for transforming raw datasets into clean tensors to ensure high quality training and inference.
Rust
Ver en GitHub5,540
javascriptdata/danfojs
javascriptdata/danfojs
5,050Ver en GitHub
Danfo.js es una biblioteca de análisis y preprocesamiento de datos para JavaScript que proporciona estructuras de datos etiquetadas de alto rendimiento. Implementa dataframes y series para permitir análisis de datos complejos, computación estadística y la manipulación de datos tabulares estructurados. El proyecto sirve como una biblioteca de preprocesamiento para machine learning, ofreciendo utilidades para codificación de etiquetas categóricas, one-hot encoding y escalado y estandarización de características numéricas. Facilita específicamente la conversión de estructuras de datos etiquetadas en tensores para el entrenamiento y evaluación de modelos. La biblioteca cubre un amplio conjunto de capacidades, incluyendo estadísticas descriptivas, operaciones relacionales como merge y join, y procesamiento de series temporales. Incluye herramientas para limpieza, filtrado y agrupación de datos, así como una interfaz de visualización para generar gráficos interactivos directamente desde los dataframes. El sistema soporta la importación y exportación de datos mediante formatos CSV, JSON y Excel.
Transforms labeled data structures into tensors required for training and evaluating machine learning models.
TypeScriptdanfojsdata-analysisdata-analytics
Ver en GitHub5,050
fastai/course-v3
fastai/course-v3
4,914Ver en GitHub
Este repositorio es un programa educativo integral y un framework de deep learning diseñado para enseñar aprendizaje profundo práctico usando PyTorch a través de notebooks y ejemplos de código. Sirve como una librería de alto nivel para construir, entrenar y desplegar redes neuronales, actuando como un orquestador de entrenamiento de modelos que coordina modelos de PyTorch, optimizadores y funciones de pérdida. El proyecto proporciona kits de herramientas especializados para visión artificial, procesamiento de lenguaje natural y preprocesamiento de datos tabulares. Se distingue por controles de entrenamiento avanzados como tasas de aprendizaje discriminativas, un sistema de callbacks bidireccional para personalizar la lógica de entrenamiento y una abstracción de learner de alto nivel que automatiza la colocación en dispositivos y los bucles de entrenamiento. El framework cubre una amplia superficie de capacidades, incluyendo la construcción automatizada de pipelines de datos, análisis de arquitectura de modelos y evaluación de rendimiento en tareas de clasificación, regresión y segmentación. También incluye utilidades para entrenamiento distribuido en múltiples GPUs, entrenamiento de precisión mixta para optimización de memoria y soporte especializado para datos de imágenes médicas. El proyecto se entrega como una serie de Jupyter Notebooks.
Transforms raw data items into normalized float tensors suitable for deep learning model consumption.
Jupyter Notebookdata-sciencedeep-learningfastai
Ver en GitHub4,914
airbnb/aerosolve
airbnb/aerosolve
4,804Ver en GitHub
Aerosolve es un framework de machine learning diseñado para entrenar y desplegar modelos interpretables. Funciona como una herramienta de ingeniería de características y un entrenador de modelos que utiliza modelado de características dispersas para simplificar la depuración de pesos y acelerar la iteración de datos. El sistema incluye un lenguaje de transformación específico del dominio para convertir familias de datos crudos en representaciones listas para el modelo. También proporciona capacidades para el análisis de contenido visual mediante el mapeo de imágenes en espacios vectoriales densos de alta dimensión para clasificar y organizar datos por estilo o contenido. El framework permite un entrenamiento centrado en el humano al inyectar creencias previas y pesos específicos en el proceso de aprendizaje del modelo. Para el despliegue, utiliza un runtime de inferencia mínimo para ejecutar predicciones ligeras y un mecanismo de puntuación de contexto compartido para procesar múltiples elementos en una sola operación.
Implements a specialized domain-specific transformation language for converting raw data into model-ready representations.
Scala
Ver en GitHub4,804
layumi/person_reid_baseline_pytorch
layumi/Person_reID_baseline_pytorch
4,431Ver en GitHub
Este proyecto es un framework de aprendizaje profundo basado en PyTorch y una línea base de aprendizaje supervisado para la reidentificación de personas y vehículos. Proporciona una tubería completa para entrenar y evaluar modelos diseñados para extraer embeddings de características basados en identidad y hacer coincidir la misma entidad a través de diferentes vistas de cámara. El framework se distingue por su soporte para la coincidencia de identidad cross-modality, permitiendo la recuperación de identidades a través de diferentes sensores de imagen como RGB e infrarrojos. También incluye un refinamiento de recuperación avanzado mediante técnicas de re-ranking, utilizando codificación recíproca y redes neuronales de grafos para mejorar la precisión de la clasificación. El sistema cubre una amplia gama de capacidades de visión por computadora, incluyendo la extracción de embeddings de características, la evaluación de recuperación de imágenes y el preprocesamiento de datos con aumento de borrado aleatorio. Proporciona herramientas para la optimización de modelos mediante la fusión de convolución y normalización por lotes, así como la aceleración de inferencia TensorRT. Se incluyen herramientas de monitoreo y diagnóstico para visualizar mapas de calor de atención del modelo y resultados de identificación. La biblioteca también implementa mecanismos defensivos mediante entrenamiento adversario para aumentar la robustez del modelo.
Automatically extracts unique identity labels from filenames to group images of the same person or vehicle.
Pythonawesome-reidbaselinecircle-loss
Ver en GitHub4,431
microsoft/vott
microsoft/VoTT
4,427Ver en GitHub
VoTT es un software de anotación de visión artificial y herramienta de preparación de datasets para machine learning. Es una aplicación de escritorio diseñada para dibujar cuadros delimitadores (bounding boxes) y asignar etiquetas a objetos en imágenes y videos para crear datasets de entrenamiento para modelos de detección de objetos. La aplicación utiliza una interfaz de escritorio multiplataforma para gestionar recursos de imagen y video. Cuenta con una integración de almacenamiento local para manejar grandes archivos multimedia directamente desde el sistema de archivos de la máquina host e incluye muestreo de video controlado por tasa de fotogramas para extraer imágenes específicas de flujos de video para su etiquetado. El software cubre el ciclo de vida completo de los datos, incluyendo la importación de recursos desde almacenamiento local o en la nube y la conversión de datos anotados a varios formatos de machine learning mediante exportaciones basadas en esquemas. También incorpora cifrado basado en tokens para proteger la configuración sensible del proyecto.
Allows users to define object locations and assign tags within images to generate ground truth training data.
TypeScript
Ver en GitHub4,427
openimages/dataset
openimages/dataset
4,366Ver en GitHub
This project is a computer vision dataset and image annotation repository designed for training and evaluating machine learning models. It provides a large collection of labeled images, serving as an object detection benchmark and a source of pixel-level segmentation data. The repository distinguishes itself as a multimodal visual dataset by pairing images with synchronized voice, text, and mouse traces to support narrative understanding. It further enables the analysis of model fairness through the inclusion of demographic attributes and exhaustive annotations. The dataset covers a broad ra
Provides millions of labeled images with bounding boxes and point locations to generate ground truth for computer vision.
Python
Ver en GitHub4,366
xiaotudui/pytorch-tutorial
xiaotudui/pytorch-tutorial
4,195Ver en GitHub
Este proyecto es un tutorial de aprendizaje profundo (deep learning) en PyTorch y un recurso educativo. Proporciona un plan de estudios estructurado y guías paso a paso para diseñar, entrenar y validar redes neuronales desde cero. El recurso incluye guías específicas sobre la implementación de visión artificial, centrándose en la detección de objetos y la clasificación de imágenes mediante redes neuronales convolucionales. También proporciona instrucciones para optimizar el rendimiento del modelo mediante aceleración por hardware para reducir el tiempo de entrenamiento. Los materiales cubren el ciclo de vida completo del desarrollo de modelos, incluyendo operaciones con tensores, preparación de conjuntos de datos de imágenes y el uso de funciones de pérdida y optimizadores. También aborda la gestión del ciclo de vida del modelo mediante el guardado y recarga de pesos entrenados.
Covers the preparation of image datasets, including labeling objects to generate ground truth data.
Pythonpytorchpytorch-tutorial
Ver en GitHub4,195
mit-lcp/mimic-code
MIT-LCP/mimic-code
3,135Ver en GitHub
mimic-code is a clinical data analysis framework and toolset for processing deidentified electronic health records and intensive care unit data. It provides a healthcare SQL query library and a processing tool to transform raw health records into formats suitable for longitudinal analysis and machine learning. The project features a medical research notebook environment that integrates with cloud-hosted datasets, allowing for remote querying and analysis. It includes a DICOM imaging pipeline to retrieve chest radiographs and link medical imaging with structured clinical metadata. The framewo
MIMIC-IV transforms structured health records and clinical notes into formats suitable for machine learning models.
Jupyter Notebookcritical-careicumimic-iii
Ver en GitHub3,135
cloud-annotations/cloud-annotations
cloud-annotations/cloud-annotations
2,681Ver en GitHub
Cloud Annotations es una plataforma basada en web diseñada para la anotación colaborativa de imágenes y la preparación de datasets de visión artificial. Proporciona una interfaz para que los equipos dibujen cajas delimitadoras y polígonos sobre medios digitales, transformando imágenes crudas en datos de entrenamiento estructurados para modelos de machine learning. La plataforma destaca por un motor de sincronización en tiempo real que permite a múltiples usuarios editar la misma imagen simultáneamente. Al utilizar almacenamiento local basado en navegador y serialización de datos estandarizada, admite flujos de trabajo offline y asegura que las anotaciones exportadas sigan siendo compatibles con los pipelines de entrenamiento de machine learning comunes. La aplicación gestiona datos visuales complejos a través de una arquitectura de estado centralizada y técnicas de renderizado de alto rendimiento. Estas capacidades facilitan el etiquetado de datos consistente en equipos distribuidos, agilizando la creación de datasets para tareas de detección y clasificación de objetos.
Provides tools for drawing bounding boxes and polygons to transform raw images into structured training data for machine learning.
TypeScriptcloud-annotationsdetectionhacktoberfest
Ver en GitHub2,681
puzzledqs/bbox-label-tool
puzzledqs/BBox-Label-Tool
1,132Ver en GitHub
BBox-Label-Tool es una utilidad basada en web diseñada para etiquetar colecciones de imágenes y definir límites espaciales de objetos para respaldar tareas de machine learning supervisado. Proporciona una interfaz para dibujar cuadros delimitadores rectangulares en imágenes, permitiendo a los usuarios registrar datos de coordenadas para conjuntos de datos de detección de objetos y reconocimiento visual. La herramienta opera completamente dentro del navegador, utilizando procesamiento de archivos local para leer imágenes directamente desde el sistema del usuario sin requerir cargas de datos. Mantiene registros de anotaciones a través del almacenamiento del navegador, asegurando que los datos espaciales persistan tras recargar la página. Al capturar interacciones del mouse en un canvas HTML, el software permite la manipulación directa y en tiempo real de las dimensiones de los cuadros delimitadores durante el proceso de anotación. La aplicación incluye utilidades de gestión para navegar por colecciones de imágenes y modificar registros de coordenadas, como guardar, eliminar o limpiar anotaciones para archivos individuales. Esta funcionalidad respalda la preparación estructurada de datos de ground truth para entrenar algoritmos de visión artificial.
Enables the definition of object locations within images to provide ground truth for supervised computer vision algorithms.
Python
Ver en GitHub1,132

Awesome Machine Learning Data Preparation GitHub Repositories

autumnai/leaf

javascriptdata/danfojs

fastai/course-v3

airbnb/aerosolve

layumi/Person_reID_baseline_pytorch

microsoft/VoTT

openimages/dataset

xiaotudui/pytorch-tutorial

MIT-LCP/mimic-code

cloud-annotations/cloud-annotations

puzzledqs/BBox-Label-Tool

Explorar subetiquetas