11 repositorios
Tools and workflows for transforming raw clinical data into formats suitable for training machine learning models.
Distinct from Machine Learning: The provided candidates are mostly awesome-list pointers to general ML fields; this is a concrete capability for clinical data engineering.
Explore 11 awesome GitHub repositories matching data & databases · Machine Learning Data Preparation. Refine with filters or upvote what's useful.
Leaf is a machine learning framework and neural network architecture toolkit used for building, training, and deploying models. It functions as a hardware abstraction layer, mapping high-level computational graphs to low-level instructions across various CPU and GPU backends and operating systems. The system enables the design of flexible model structures through a modular architecture where reusable container layers encapsulate weights and mathematical operations. This allows for the composition of complex neural networks via nested components. The framework includes a data engineering pipe
Provides workflows for transforming raw datasets into clean tensors to ensure high quality training and inference.
Danfo.js es una biblioteca de análisis y preprocesamiento de datos para JavaScript que proporciona estructuras de datos etiquetadas de alto rendimiento. Implementa dataframes y series para permitir análisis de datos complejos, computación estadística y la manipulación de datos tabulares estructurados. El proyecto sirve como una biblioteca de preprocesamiento para machine learning, ofreciendo utilidades para codificación de etiquetas categóricas, one-hot encoding y escalado y estandarización de características numéricas. Facilita específicamente la conversión de estructuras de datos etiquetadas en tensores para el entrenamiento y evaluación de modelos. La biblioteca cubre un amplio conjunto de capacidades, incluyendo estadísticas descriptivas, operaciones relacionales como merge y join, y procesamiento de series temporales. Incluye herramientas para limpieza, filtrado y agrupación de datos, así como una interfaz de visualización para generar gráficos interactivos directamente desde los dataframes. El sistema soporta la importación y exportación de datos mediante formatos CSV, JSON y Excel.
Transforms labeled data structures into tensors required for training and evaluating machine learning models.
Este repositorio es un programa educativo integral y un framework de deep learning diseñado para enseñar aprendizaje profundo práctico usando PyTorch a través de notebooks y ejemplos de código. Sirve como una librería de alto nivel para construir, entrenar y desplegar redes neuronales, actuando como un orquestador de entrenamiento de modelos que coordina modelos de PyTorch, optimizadores y funciones de pérdida. El proyecto proporciona kits de herramientas especializados para visión artificial, procesamiento de lenguaje natural y preprocesamiento de datos tabulares. Se distingue por controles de entrenamiento avanzados como tasas de aprendizaje discriminativas, un sistema de callbacks bidireccional para personalizar la lógica de entrenamiento y una abstracción de learner de alto nivel que automatiza la colocación en dispositivos y los bucles de entrenamiento. El framework cubre una amplia superficie de capacidades, incluyendo la construcción automatizada de pipelines de datos, análisis de arquitectura de modelos y evaluación de rendimiento en tareas de clasificación, regresión y segmentación. También incluye utilidades para entrenamiento distribuido en múltiples GPUs, entrenamiento de precisión mixta para optimización de memoria y soporte especializado para datos de imágenes médicas. El proyecto se entrega como una serie de Jupyter Notebooks.
Transforms raw data items into normalized float tensors suitable for deep learning model consumption.
Aerosolve es un framework de machine learning diseñado para entrenar y desplegar modelos interpretables. Funciona como una herramienta de ingeniería de características y un entrenador de modelos que utiliza modelado de características dispersas para simplificar la depuración de pesos y acelerar la iteración de datos. El sistema incluye un lenguaje de transformación específico del dominio para convertir familias de datos crudos en representaciones listas para el modelo. También proporciona capacidades para el análisis de contenido visual mediante el mapeo de imágenes en espacios vectoriales densos de alta dimensión para clasificar y organizar datos por estilo o contenido. El framework permite un entrenamiento centrado en el humano al inyectar creencias previas y pesos específicos en el proceso de aprendizaje del modelo. Para el despliegue, utiliza un runtime de inferencia mínimo para ejecutar predicciones ligeras y un mecanismo de puntuación de contexto compartido para procesar múltiples elementos en una sola operación.
Implements a specialized domain-specific transformation language for converting raw data into model-ready representations.
Este proyecto es un framework de aprendizaje profundo basado en PyTorch y una línea base de aprendizaje supervisado para la reidentificación de personas y vehículos. Proporciona una tubería completa para entrenar y evaluar modelos diseñados para extraer embeddings de características basados en identidad y hacer coincidir la misma entidad a través de diferentes vistas de cámara. El framework se distingue por su soporte para la coincidencia de identidad cross-modality, permitiendo la recuperación de identidades a través de diferentes sensores de imagen como RGB e infrarrojos. También incluye un refinamiento de recuperación avanzado mediante técnicas de re-ranking, utilizando codificación recíproca y redes neuronales de grafos para mejorar la precisión de la clasificación. El sistema cubre una amplia gama de capacidades de visión por computadora, incluyendo la extracción de embeddings de características, la evaluación de recuperación de imágenes y el preprocesamiento de datos con aumento de borrado aleatorio. Proporciona herramientas para la optimización de modelos mediante la fusión de convolución y normalización por lotes, así como la aceleración de inferencia TensorRT. Se incluyen herramientas de monitoreo y diagnóstico para visualizar mapas de calor de atención del modelo y resultados de identificación. La biblioteca también implementa mecanismos defensivos mediante entrenamiento adversario para aumentar la robustez del modelo.
Automatically extracts unique identity labels from filenames to group images of the same person or vehicle.
VoTT es un software de anotación de visión artificial y herramienta de preparación de datasets para machine learning. Es una aplicación de escritorio diseñada para dibujar cuadros delimitadores (bounding boxes) y asignar etiquetas a objetos en imágenes y videos para crear datasets de entrenamiento para modelos de detección de objetos. La aplicación utiliza una interfaz de escritorio multiplataforma para gestionar recursos de imagen y video. Cuenta con una integración de almacenamiento local para manejar grandes archivos multimedia directamente desde el sistema de archivos de la máquina host e incluye muestreo de video controlado por tasa de fotogramas para extraer imágenes específicas de flujos de video para su etiquetado. El software cubre el ciclo de vida completo de los datos, incluyendo la importación de recursos desde almacenamiento local o en la nube y la conversión de datos anotados a varios formatos de machine learning mediante exportaciones basadas en esquemas. También incorpora cifrado basado en tokens para proteger la configuración sensible del proyecto.
Allows users to define object locations and assign tags within images to generate ground truth training data.
This project is a computer vision dataset and image annotation repository designed for training and evaluating machine learning models. It provides a large collection of labeled images, serving as an object detection benchmark and a source of pixel-level segmentation data. The repository distinguishes itself as a multimodal visual dataset by pairing images with synchronized voice, text, and mouse traces to support narrative understanding. It further enables the analysis of model fairness through the inclusion of demographic attributes and exhaustive annotations. The dataset covers a broad ra
Provides millions of labeled images with bounding boxes and point locations to generate ground truth for computer vision.
Este proyecto es un tutorial de aprendizaje profundo (deep learning) en PyTorch y un recurso educativo. Proporciona un plan de estudios estructurado y guías paso a paso para diseñar, entrenar y validar redes neuronales desde cero. El recurso incluye guías específicas sobre la implementación de visión artificial, centrándose en la detección de objetos y la clasificación de imágenes mediante redes neuronales convolucionales. También proporciona instrucciones para optimizar el rendimiento del modelo mediante aceleración por hardware para reducir el tiempo de entrenamiento. Los materiales cubren el ciclo de vida completo del desarrollo de modelos, incluyendo operaciones con tensores, preparación de conjuntos de datos de imágenes y el uso de funciones de pérdida y optimizadores. También aborda la gestión del ciclo de vida del modelo mediante el guardado y recarga de pesos entrenados.
Covers the preparation of image datasets, including labeling objects to generate ground truth data.
mimic-code is a clinical data analysis framework and toolset for processing deidentified electronic health records and intensive care unit data. It provides a healthcare SQL query library and a processing tool to transform raw health records into formats suitable for longitudinal analysis and machine learning. The project features a medical research notebook environment that integrates with cloud-hosted datasets, allowing for remote querying and analysis. It includes a DICOM imaging pipeline to retrieve chest radiographs and link medical imaging with structured clinical metadata. The framewo
MIMIC-IV transforms structured health records and clinical notes into formats suitable for machine learning models.
Cloud Annotations es una plataforma basada en web diseñada para la anotación colaborativa de imágenes y la preparación de datasets de visión artificial. Proporciona una interfaz para que los equipos dibujen cajas delimitadoras y polígonos sobre medios digitales, transformando imágenes crudas en datos de entrenamiento estructurados para modelos de machine learning. La plataforma destaca por un motor de sincronización en tiempo real que permite a múltiples usuarios editar la misma imagen simultáneamente. Al utilizar almacenamiento local basado en navegador y serialización de datos estandarizada, admite flujos de trabajo offline y asegura que las anotaciones exportadas sigan siendo compatibles con los pipelines de entrenamiento de machine learning comunes. La aplicación gestiona datos visuales complejos a través de una arquitectura de estado centralizada y técnicas de renderizado de alto rendimiento. Estas capacidades facilitan el etiquetado de datos consistente en equipos distribuidos, agilizando la creación de datasets para tareas de detección y clasificación de objetos.
Provides tools for drawing bounding boxes and polygons to transform raw images into structured training data for machine learning.
BBox-Label-Tool es una utilidad basada en web diseñada para etiquetar colecciones de imágenes y definir límites espaciales de objetos para respaldar tareas de machine learning supervisado. Proporciona una interfaz para dibujar cuadros delimitadores rectangulares en imágenes, permitiendo a los usuarios registrar datos de coordenadas para conjuntos de datos de detección de objetos y reconocimiento visual. La herramienta opera completamente dentro del navegador, utilizando procesamiento de archivos local para leer imágenes directamente desde el sistema del usuario sin requerir cargas de datos. Mantiene registros de anotaciones a través del almacenamiento del navegador, asegurando que los datos espaciales persistan tras recargar la página. Al capturar interacciones del mouse en un canvas HTML, el software permite la manipulación directa y en tiempo real de las dimensiones de los cuadros delimitadores durante el proceso de anotación. La aplicación incluye utilidades de gestión para navegar por colecciones de imágenes y modificar registros de coordenadas, como guardar, eliminar o limpiar anotaciones para archivos individuales. Esta funcionalidad respalda la preparación estructurada de datos de ground truth para entrenar algoritmos de visión artificial.
Enables the definition of object locations within images to provide ground truth for supervised computer vision algorithms.