Why is autumnai/leaf a recommended Machine Learning Data Preparation GitHub Repositories repository?

Provides workflows for transforming raw datasets into clean tensors to ensure high quality training and inference.

Why is javascriptdata/danfojs a recommended Machine Learning Data Preparation GitHub Repositories repository?

Transforms labeled data structures into tensors required for training and evaluating machine learning models.

Why is fastai/course-v3 a recommended Machine Learning Data Preparation GitHub Repositories repository?

Transforms raw data items into normalized float tensors suitable for deep learning model consumption.

Why is airbnb/aerosolve a recommended Machine Learning Data Preparation GitHub Repositories repository?

Implements a specialized domain-specific transformation language for converting raw data into model-ready representations.

Why is layumi/person_reid_baseline_pytorch a recommended Machine Learning Data Preparation GitHub Repositories repository?

Automatically extracts unique identity labels from filenames to group images of the same person or vehicle.

Why is microsoft/vott a recommended Machine Learning Data Preparation GitHub Repositories repository?

Allows users to define object locations and assign tags within images to generate ground truth training data.

Why is openimages/dataset a recommended Machine Learning Data Preparation GitHub Repositories repository?

Provides millions of labeled images with bounding boxes and point locations to generate ground truth for computer vision.

Why is xiaotudui/pytorch-tutorial a recommended Machine Learning Data Preparation GitHub Repositories repository?

Covers the preparation of image datasets, including labeling objects to generate ground truth data.

Why is mit-lcp/mimic-code a recommended Machine Learning Data Preparation GitHub Repositories repository?

MIMIC-IV transforms structured health records and clinical notes into formats suitable for machine learning models.

Why is cloud-annotations/cloud-annotations a recommended Machine Learning Data Preparation GitHub Repositories repository?

Provides tools for drawing bounding boxes and polygons to transform raw images into structured training data for machine learning.

11 dépôts

Awesome GitHub RepositoriesMachine Learning Data Preparation

Tools and workflows for transforming raw clinical data into formats suitable for training machine learning models.

Distinct from Machine Learning: The provided candidates are mostly awesome-list pointers to general ML fields; this is a concrete capability for clinical data engineering.

Explore 11 awesome GitHub repositories matching data & databases · Machine Learning Data Preparation. Refine with filters or upvote what's useful.

Trouvez les meilleurs dépôts grâce à l'IA.Nous recherchons les dépôts les plus pertinents grâce à l'IA.

autumnai/leaf
autumnai/leaf
5,540Voir sur GitHub
Leaf est un framework de machine learning et une boîte à outils d'architecture de réseaux de neurones utilisés pour construire, entraîner et déployer des modèles. Il fonctionne comme une couche d'abstraction matérielle, mappant des graphes de calcul de haut niveau vers des instructions de bas niveau sur divers backends CPU et GPU et systèmes d'exploitation. Le système permet la conception de structures de modèles flexibles via une architecture modulaire où des couches de conteneurs réutilisables encapsulent les poids et les opérations mathématiques. Cela permet la composition de réseaux de neurones complexes via des composants imbriqués. Le framework inclut un pipeline d'ingénierie de données pour transformer des jeux de données bruts en tenseurs propres et un profileur de performance de calcul pour identifier les goulots d'étranglement à l'exécution via une instrumentation de diagnostic. Ces capacités supportent l'optimisation du calcul haute performance et le déploiement de modèles multi-matériel.
Provides workflows for transforming raw datasets into clean tensors to ensure high quality training and inference.
Rust
Voir sur GitHub5,540
javascriptdata/danfojs
javascriptdata/danfojs
5,050Voir sur GitHub
Danfo.js est une bibliothèque d'analyse et de prétraitement de données pour JavaScript qui fournit des structures de données étiquetées haute performance. Elle implémente des dataframes et des séries pour permettre une analyse de données complexe, le calcul statistique et la manipulation de données tabulaires structurées. Le projet sert de bibliothèque de prétraitement pour le machine learning, offrant des utilitaires pour l'encodage d'étiquettes catégorielles, l'encodage one-hot, ainsi que la mise à l'échelle et la standardisation des caractéristiques numériques. Elle facilite spécifiquement la conversion de structures de données étiquetées en tenseurs pour l'entraînement et l'évaluation de modèles. La bibliothèque couvre un large ensemble de capacités incluant les statistiques descriptives, les opérations relationnelles comme la fusion et la jointure, et le traitement de séries temporelles. Elle inclut des outils pour le nettoyage, le filtrage et le regroupement de données, ainsi qu'une interface de visualisation pour générer des graphiques interactifs directement à partir des dataframes. Le système prend en charge l'importation et l'exportation de données via les formats CSV, JSON et Excel.
Transforms labeled data structures into tensors required for training and evaluating machine learning models.
TypeScriptdanfojsdata-analysisdata-analytics
Voir sur GitHub5,050
fastai/course-v3
fastai/course-v3
4,914Voir sur GitHub
Ce projet est un programme éducatif complet et un framework de deep learning conçu pour enseigner le deep learning pratique avec PyTorch via des notebooks et des exemples de code. Il sert de bibliothèque de haut niveau pour construire, entraîner et déployer des réseaux de neurones, agissant comme un orchestrateur d'entraînement de modèles qui coordonne les modèles PyTorch, les optimiseurs et les fonctions de perte. Le projet fournit des boîtes à outils spécialisées pour la vision par ordinateur, le traitement du langage naturel et le prétraitement de données tabulaires. Il se distingue par des contrôles d'entraînement avancés tels que des taux d'apprentissage discriminatifs, un système de callback bidirectionnel pour personnaliser la logique d'entraînement, et une abstraction de haut niveau qui automatise le placement sur périphérique et les boucles d'entraînement. Le framework couvre une large surface de capacités, y compris la construction automatisée de pipelines de données, l'analyse d'architecture de modèles et l'évaluation des performances sur des tâches de classification, de régression et de segmentation. Il inclut également des utilitaires pour l'entraînement distribué sur plusieurs GPU, l'entraînement en précision mixte pour l'optimisation de la mémoire, et un support spécialisé pour les données d'imagerie médicale. Le projet est livré sous forme d'une série de Jupyter Notebooks.
Transforms raw data items into normalized float tensors suitable for deep learning model consumption.
Jupyter Notebookdata-sciencedeep-learningfastai
Voir sur GitHub4,914
airbnb/aerosolve
airbnb/aerosolve
4,804Voir sur GitHub
Aerosolve est un framework de machine learning conçu pour l'entraînement et le déploiement de modèles interprétables. Il fonctionne comme un outil d'ingénierie des caractéristiques (feature engineering) et un entraîneur de modèles utilisant la modélisation de caractéristiques creuses (sparse feature modeling) pour simplifier le débogage des poids et accélérer l'itération sur les données. Le système inclut un langage de transformation spécifique au domaine pour convertir des données brutes en représentations prêtes pour le modèle. Il offre également des capacités d'analyse de contenu visuel en mappant les images dans des espaces vectoriels denses de haute dimension pour classer et organiser les données par style ou par contenu. Le framework permet un entraînement centré sur l'humain en injectant des croyances a priori et des poids spécifiques dans le processus d'apprentissage. Pour le déploiement, il utilise un runtime d'inférence minimal pour exécuter des prédictions légères et un mécanisme de scoring à contexte partagé pour traiter plusieurs éléments en une seule opération.
Implements a specialized domain-specific transformation language for converting raw data into model-ready representations.
Scala
Voir sur GitHub4,804
layumi/person_reid_baseline_pytorch
layumi/Person_reID_baseline_pytorch
4,431Voir sur GitHub
Ce projet est un framework d'apprentissage profond basé sur PyTorch et une base de référence d'apprentissage supervisé pour la ré-identification de personnes et de véhicules. Il fournit un pipeline complet pour entraîner et évaluer des modèles conçus pour extraire des embeddings de caractéristiques basés sur l'identité et faire correspondre la même entité à travers différentes vues de caméra. Le framework se distingue par sa prise en charge de la correspondance d'identité multi-modalité, permettant la récupération d'identités à travers différents capteurs d'imagerie tels que le RVB et l'infrarouge. Il inclut également un raffinement de récupération avancé via des techniques de re-classement, utilisant le codage réciproque et les réseaux de neurones sur graphes pour améliorer la précision du classement. Le système couvre un large éventail de capacités de vision par ordinateur, y compris l'extraction d'embeddings de caractéristiques, l'évaluation de la récupération d'images et le prétraitement des données avec une augmentation par effacement aléatoire. Il fournit des outils pour l'optimisation des modèles via la fusion de convolution et de normalisation par lots, ainsi que l'accélération d'inférence TensorRT. Des outils de surveillance et de diagnostic sont inclus pour visualiser les cartes thermiques d'attention des modèles et les résultats d'identification. La bibliothèque implémente également des mécanismes défensifs via l'entraînement antagoniste pour augmenter la robustesse des modèles.
Automatically extracts unique identity labels from filenames to group images of the same person or vehicle.
Pythonawesome-reidbaselinecircle-loss
Voir sur GitHub4,431
microsoft/vott
microsoft/VoTT
4,427Voir sur GitHub
VoTT is a computer vision annotation software and machine learning dataset preparation tool. It is a desktop application designed for drawing bounding boxes and assigning tags to objects in images and videos to create training datasets for object detection models. The application utilizes a cross-platform desktop interface to manage image and video assets. It features a local-first storage integration to handle large media assets directly from the host machine's file system and includes frame-rate controlled video sampling to extract specific images from video streams for labeling. The softw
Allows users to define object locations and assign tags within images to generate ground truth training data.
TypeScript
Voir sur GitHub4,427
openimages/dataset
openimages/dataset
4,366Voir sur GitHub
Ce projet est un jeu de données de vision par ordinateur et un dépôt d'annotation d'images conçu pour entraîner et évaluer des modèles d'apprentissage automatique. Il fournit une grande collection d'images étiquetées, servant de référence pour la détection d'objets et de source de données de segmentation au niveau des pixels. Le dépôt se distingue en tant que jeu de données visuel multimodal en associant des images à des traces vocales, textuelles et de souris synchronisées pour soutenir la compréhension narrative. Il permet en outre l'analyse de l'équité des modèles par l'inclusion d'attributs démographiques et d'annotations exhaustives. Le jeu de données couvre une large gamme de capacités de vision par ordinateur, y compris la détection d'objets via des boîtes englobantes, la segmentation d'instances d'images utilisant des masques de pixels et le mappage de relations visuelles via des triplets objet-attribut. Il prend également en charge la classification au niveau des points, la reconnaissance de texte hiérarchique et la récupération de sous-ensembles de jeux de données curatés basés sur le filtrage par classe ou attribut.
Provides millions of labeled images with bounding boxes and point locations to generate ground truth for computer vision.
Python
Voir sur GitHub4,366
xiaotudui/pytorch-tutorial
xiaotudui/pytorch-tutorial
4,195Voir sur GitHub
Ce projet est un tutoriel de deep learning PyTorch et une ressource pédagogique. Il fournit un programme structuré et des guides étape par étape pour concevoir, entraîner et valider des réseaux de neurones à partir de zéro. La ressource inclut des guides spécifiques sur l'implémentation de la vision par ordinateur, se concentrant sur la détection d'objets et la classification d'images à l'aide de réseaux de neurones convolutifs. Elle fournit également des instructions pour optimiser les performances des modèles via l'accélération matérielle afin de réduire le temps d'entraînement. Les supports couvrent l'intégralité du cycle de vie de développement des modèles, incluant les opérations sur tenseurs, la préparation des jeux de données d'images, ainsi que l'utilisation de fonctions de perte et d'optimiseurs. Il aborde également la gestion du cycle de vie des modèles via la sauvegarde et le rechargement des poids entraînés.
Covers the preparation of image datasets, including labeling objects to generate ground truth data.
Pythonpytorchpytorch-tutorial
Voir sur GitHub4,195
mit-lcp/mimic-code
MIT-LCP/mimic-code
3,135Voir sur GitHub
mimic-code is a clinical data analysis framework and toolset for processing deidentified electronic health records and intensive care unit data. It provides a healthcare SQL query library and a processing tool to transform raw health records into formats suitable for longitudinal analysis and machine learning. The project features a medical research notebook environment that integrates with cloud-hosted datasets, allowing for remote querying and analysis. It includes a DICOM imaging pipeline to retrieve chest radiographs and link medical imaging with structured clinical metadata. The framewo
MIMIC-IV transforms structured health records and clinical notes into formats suitable for machine learning models.
Jupyter Notebookcritical-careicumimic-iii
Voir sur GitHub3,135
cloud-annotations/cloud-annotations
cloud-annotations/cloud-annotations
2,681Voir sur GitHub
Cloud Annotations est une plateforme basée sur le web conçue pour l'annotation collaborative d'images et la préparation de jeux de données de vision par ordinateur. Elle fournit une interface permettant aux équipes de dessiner des boîtes englobantes et des polygones sur des médias numériques, transformant des images brutes en données d'entraînement structurées pour les modèles de machine learning. La plateforme se distingue par un moteur de synchronisation en temps réel qui permet à plusieurs utilisateurs d'éditer la même image simultanément. En utilisant le stockage local basé sur le navigateur et la sérialisation de données standardisée, elle prend en charge les workflows hors ligne et garantit que les annotations exportées restent compatibles avec les pipelines d'entraînement de machine learning courants. L'application gère des données visuelles complexes grâce à une architecture d'état centralisée et des techniques de rendu haute performance. Ces capacités facilitent un étiquetage de données cohérent à travers des équipes distribuées, rationalisant la création de jeux de données pour les tâches de détection et de classification d'objets.
Provides tools for drawing bounding boxes and polygons to transform raw images into structured training data for machine learning.
TypeScriptcloud-annotationsdetectionhacktoberfest
Voir sur GitHub2,681
puzzledqs/bbox-label-tool
puzzledqs/BBox-Label-Tool
1,132Voir sur GitHub
BBox-Label-Tool est un utilitaire web conçu pour étiqueter des collections d'images et définir des limites spatiales d'objets afin de soutenir les tâches d'apprentissage supervisé. Il fournit une interface pour dessiner des boîtes englobantes rectangulaires sur des images, permettant aux utilisateurs d'enregistrer des données de coordonnées pour des jeux de données de détection d'objets et de reconnaissance visuelle. L'outil fonctionne entièrement dans le navigateur, utilisant le traitement de fichiers local pour lire les images directement depuis le système de l'utilisateur sans nécessiter de téléchargement de données. Il conserve les enregistrements d'annotation via le stockage du navigateur, garantissant que les données spatiales persistent après le rafraîchissement de la page. En capturant les interactions de la souris sur un canvas HTML, le logiciel permet une manipulation directe et en temps réel des dimensions des boîtes englobantes pendant le processus d'annotation. L'application inclut des utilitaires de gestion pour naviguer dans les collections d'images et modifier les enregistrements de coordonnées, tels que l'enregistrement, la suppression ou l'effacement des annotations pour des fichiers individuels. Cette fonctionnalité prend en charge la préparation structurée de données de vérité terrain pour l'entraînement d'algorithmes de vision par ordinateur.
Enables the definition of object locations within images to provide ground truth for supervised computer vision algorithms.
Python
Voir sur GitHub1,132

Awesome Machine Learning Data Preparation GitHub Repositories

autumnai/leaf

javascriptdata/danfojs

fastai/course-v3

airbnb/aerosolve

layumi/Person_reID_baseline_pytorch

microsoft/VoTT

openimages/dataset

xiaotudui/pytorch-tutorial

MIT-LCP/mimic-code

cloud-annotations/cloud-annotations

puzzledqs/BBox-Label-Tool

Explorer les sous-tags