11 Repos
Tools and workflows for transforming raw clinical data into formats suitable for training machine learning models.
Distinct from Machine Learning: The provided candidates are mostly awesome-list pointers to general ML fields; this is a concrete capability for clinical data engineering.
Explore 11 awesome GitHub repositories matching data & databases · Machine Learning Data Preparation. Refine with filters or upvote what's useful.
Leaf ist ein Machine-Learning-Framework und Toolkit für neuronale Netzwerkarchitekturen, das für den Aufbau, das Training und das Deployment von Modellen verwendet wird. Es fungiert als Hardware-Abstraktionsschicht, die hochgradige Computational Graphs auf Low-Level-Anweisungen über verschiedene CPU- und GPU-Backends sowie Betriebssysteme hinweg abbildet. Das System ermöglicht den Entwurf flexibler Modellstrukturen durch eine modulare Architektur, bei der wiederverwendbare Container-Layer Gewichte und mathematische Operationen kapseln. Dies erlaubt die Komposition komplexer neuronaler Netze durch verschachtelte Komponenten. Das Framework enthält eine Data-Engineering-Pipeline zur Transformation von Rohdatensätzen in saubere Tensoren und einen Performance-Profiler zur Identifizierung von Laufzeitengpässen mittels diagnostischer Instrumentierung. Diese Funktionen unterstützen die Optimierung von High-Performance-Computing und das modellübergreifende Deployment auf verschiedener Hardware.
Provides workflows for transforming raw datasets into clean tensors to ensure high quality training and inference.
Danfo.js ist eine Bibliothek für Datenanalyse und Vorverarbeitung für JavaScript, die leistungsstarke gelabelte Datenstrukturen bereitstellt. Sie implementiert Dataframes und Series, um komplexe Datenanalysen, statistische Berechnungen und die Manipulation strukturierter tabellarischer Daten zu ermöglichen. Das Projekt dient als Bibliothek für die Vorverarbeitung beim maschinellen Lernen und bietet Dienstprogramme für kategoriales Label-Encoding, One-Hot-Encoding sowie die Skalierung und Standardisierung numerischer Features. Es erleichtert insbesondere die Konvertierung gelabelter Datenstrukturen in Tensoren für das Modelltraining und die Evaluierung. Die Bibliothek deckt eine breite Palette an Funktionen ab, einschließlich deskriptiver Statistik, relationaler Operationen wie Merging und Joining sowie Zeitreihenverarbeitung. Sie enthält Tools für die Datenbereinigung, Filterung und Gruppierung sowie eine Visualisierungsschnittstelle zur Erstellung interaktiver Diagramme und Plots direkt aus Dataframes. Das System unterstützt den Import und Export von Daten über CSV-, JSON- und Excel-Formate.
Transforms labeled data structures into tensors required for training and evaluating machine learning models.
Dieses Projekt ist ein umfassendes Bildungsprogramm und Deep-Learning-Framework, das darauf ausgelegt ist, praktisches Deep Learning mit PyTorch anhand von Notebooks und Codebeispielen zu vermitteln. Es dient als High-Level-Bibliothek zum Erstellen, Trainieren und Bereitstellen neuronaler Netze und fungiert als Modell-Trainings-Orchestrator, der PyTorch-Modelle, Optimierer und Verlustfunktionen koordiniert. Das Projekt bietet spezialisierte Toolkits für Computer Vision, Natural Language Processing und die Vorverarbeitung tabellarischer Daten. Es zeichnet sich durch fortschrittliche Trainingskontrollen aus, wie z. B. diskriminative Lernraten, ein Zwei-Wege-Callback-System zur Anpassung der Trainingslogik und eine High-Level-Learner-Abstraktion, die die Geräteplatzierung und Trainingsschleifen automatisiert. Das Framework deckt ein breites Fähigkeitsspektrum ab, einschließlich der automatisierten Konstruktion von Datenpipelines, der Analyse von Modellarchitekturen und der Leistungsbewertung bei Klassifizierungs-, Regressions- und Segmentierungsaufgaben. Es enthält zudem Dienstprogramme für verteiltes Training über mehrere GPUs, Mixed-Precision-Training zur Speicheroptimierung und spezialisierte Unterstützung für medizinische Bilddaten. Das Projekt wird als eine Reihe von Jupyter Notebooks bereitgestellt.
Transforms raw data items into normalized float tensors suitable for deep learning model consumption.
Aerosolve ist ein Machine-Learning-Framework für das Training und Deployment interpretierbarer Modelle. Es dient als Tool für Feature Engineering und Modelltraining, das auf Sparse-Feature-Modellierung setzt, um das Debugging von Gewichten zu vereinfachen und die Dateniteration zu beschleunigen. Das System enthält eine domänenspezifische Transformationssprache, um Rohdaten in modellfertige Repräsentationen zu überführen. Zudem bietet es Funktionen zur visuellen Inhaltsanalyse, indem Bilder in dichte, hochdimensionale Vektorräume abgebildet werden, um Daten nach Stil oder Inhalt zu ordnen und zu klassifizieren. Das Framework ermöglicht ein menschenzentriertes Training, bei dem Vorwissen und spezifische Gewichte direkt in den Lernprozess einfließen können. Für das Deployment nutzt es eine minimale Inference-Runtime für leichtgewichtige Vorhersagen sowie einen Shared-Context-Scoring-Mechanismus zur Verarbeitung mehrerer Elemente in einem einzigen Vorgang.
Implements a specialized domain-specific transformation language for converting raw data into model-ready representations.
Dieses Projekt ist ein PyTorch-basiertes Deep-Learning-Framework und eine Baseline für überwachtes Lernen zur Re-Identifizierung von Personen und Fahrzeugen. Es bietet eine vollständige Pipeline zum Trainieren und Evaluieren von Modellen, die darauf ausgelegt sind, identitätsbasierte Feature-Embeddings zu extrahieren und dieselbe Entität über verschiedene Kameraansichten hinweg abzugleichen. Das Framework zeichnet sich durch Unterstützung für Cross-Modality-Identitätsabgleich aus, was das Abrufen von Identitäten über verschiedene Bildsensoren wie RGB und Infrarot hinweg ermöglicht. Es enthält zudem fortgeschrittene Retrieval-Verfeinerung durch Re-Ranking-Techniken unter Verwendung von Reciprocal Encoding und Graph Neural Networks, um die Ranking-Präzision zu verbessern. Das System deckt eine breite Palette von Computer-Vision-Funktionen ab, einschließlich Feature-Embedding-Extraktion, Bild-Retrieval-Evaluierung und Datenvorverarbeitung mit Random-Erasing-Augmentation. Es bietet Tools für Modelloptimierung via Convolution- und Batch-Normalization-Fusion sowie TensorRT-Inference-Beschleunigung. Monitoring- und Diagnosetools sind für die Visualisierung von Modell-Attention-Heatmaps und Identifizierungsergebnissen enthalten. Die Bibliothek implementiert zudem Abwehrmechanismen durch Adversarial Training, um die Modellrobustheit zu erhöhen.
Automatically extracts unique identity labels from filenames to group images of the same person or vehicle.
VoTT ist eine Software zur Annotation für Computer Vision und ein Tool zur Vorbereitung von Machine-Learning-Datensätzen. Es ist eine Desktop-Anwendung, die zum Zeichnen von Bounding Boxes und zum Zuweisen von Tags zu Objekten in Bildern und Videos entwickelt wurde, um Trainingsdatensätze für Objekterkennungsmodelle zu erstellen. Die Anwendung nutzt eine plattformübergreifende Desktop-Schnittstelle zur Verwaltung von Bild- und Video-Assets. Sie bietet eine Local-First-Speicherintegration, um große Medien-Assets direkt vom Dateisystem des Host-Rechners zu verarbeiten, und beinhaltet ein bildraten-gesteuertes Video-Sampling, um spezifische Bilder aus Videostreams für die Labeling-Aufgabe zu extrahieren. Die Software deckt den gesamten Datenlebenszyklus ab, einschließlich des Imports von Assets aus lokalem oder Cloud-Speicher und der Konvertierung annotierter Daten in verschiedene Machine-Learning-Formate mittels schema-basierter Exporte. Sie integriert zudem Token-basierte Verschlüsselung, um sensible Projektkonfigurationseinstellungen zu sichern.
Allows users to define object locations and assign tags within images to generate ground truth training data.
Dieses Projekt ist ein Computer-Vision-Datensatz und ein Repository für Bildannotationen, das für das Training und die Evaluierung von Machine-Learning-Modellen entwickelt wurde. Es bietet eine große Sammlung beschrifteter Bilder und dient als Benchmark für Objekterkennung sowie als Quelle für Pixel-Level-Segmentierungsdaten. Das Repository zeichnet sich als multimodaler visueller Datensatz aus, indem es Bilder mit synchronisierten Sprach-, Text- und Mausspuren kombiniert, um das narrative Verständnis zu unterstützen. Es ermöglicht zudem die Analyse der Modellgerechtigkeit durch die Einbeziehung demografischer Attribute und erschöpfender Annotationen. Der Datensatz deckt ein breites Spektrum an Computer-Vision-Funktionen ab, einschließlich Objekterkennung über Bounding-Boxen, Bildinstanzsegmentierung mittels Pixelmasken und visuelle Beziehungszuordnung durch Objekt-Attribut-Tripletts. Er unterstützt zudem punktbasierte Klassifizierung, hierarchische Texterkennung und den Abruf kuratierter Datensatz-Teilmengen basierend auf Klassen- oder Attributfilterung.
Provides millions of labeled images with bounding boxes and point locations to generate ground truth for computer vision.
Dieses Projekt ist ein PyTorch-Deep-Learning-Tutorial und eine Bildungsressource. Es bietet einen strukturierten Lehrplan und Schritt-für-Schritt-Anleitungen für das Design, das Training und die Validierung von neuronalen Netzen von Grund auf. Die Ressource enthält spezifische Anleitungen zur Implementierung von Computer Vision mit Fokus auf Objekterkennung und Bildklassifizierung mittels Convolutional Neural Networks (CNNs). Zudem bietet sie Anweisungen zur Optimierung der Modellleistung durch Hardwarebeschleunigung, um die Trainingszeit zu verkürzen. Die Materialien decken den gesamten Lebenszyklus der Modellentwicklung ab, einschließlich Tensor-Operationen, Vorbereitung von Bilddatensätzen sowie der Verwendung von Loss-Funktionen und Optimierern. Auch das Modell-Lifecycle-Management durch Speichern und Neuladen trainierter Gewichte wird behandelt.
Covers the preparation of image datasets, including labeling objects to generate ground truth data.
mimic-code is a clinical data analysis framework and toolset for processing deidentified electronic health records and intensive care unit data. It provides a healthcare SQL query library and a processing tool to transform raw health records into formats suitable for longitudinal analysis and machine learning. The project features a medical research notebook environment that integrates with cloud-hosted datasets, allowing for remote querying and analysis. It includes a DICOM imaging pipeline to retrieve chest radiographs and link medical imaging with structured clinical metadata. The framewo
MIMIC-IV transforms structured health records and clinical notes into formats suitable for machine learning models.
Cloud Annotations is a web-based platform designed for collaborative image annotation and the preparation of computer vision datasets. It provides an interface for teams to draw bounding boxes and polygons over digital media, transforming raw images into structured training data for machine learning models. The platform distinguishes itself through a real-time synchronization engine that allows multiple users to edit the same image simultaneously. By utilizing browser-based local storage and standardized data serialization, it supports offline workflows and ensures that exported annotations r
Provides tools for drawing bounding boxes and polygons to transform raw images into structured training data for machine learning.
BBox-Label-Tool ist ein webbasiertes Dienstprogramm zum Labeln von Bildersammlungen und zum Definieren räumlicher Objektgrenzen für überwachtes maschinelles Lernen. Es bietet eine Oberfläche zum Zeichnen rechteckiger Begrenzungsrahmen (Bounding Boxes) auf Bildern, mit der Benutzer Koordinatendaten für Datensätze zur Objekterkennung und visuellen Erkennung erfassen können. Das Tool arbeitet vollständig im Browser und nutzt lokale Dateiverarbeitung, um Bilder direkt vom System des Benutzers zu lesen, ohne dass Daten hochgeladen werden müssen. Es verwaltet Annotationsdatensätze über den Browser-Speicher, wodurch sichergestellt wird, dass räumliche Daten auch nach dem Neuladen der Seite erhalten bleiben. Durch die Erfassung von Mausinteraktionen auf einem HTML-Canvas ermöglicht die Software die direkte Manipulation der Bounding-Box-Dimensionen in Echtzeit während des Annotationsprozesses. Die Anwendung enthält Management-Tools zum Navigieren durch Bildersammlungen und zum Ändern von Koordinatendatensätzen, wie z. B. Speichern, Löschen oder Bereinigen von Annotationen für einzelne Dateien. Diese Funktionalität unterstützt die strukturierte Vorbereitung von Ground-Truth-Daten für das Training von Computer-Vision-Algorithmen.
Enables the definition of object locations within images to provide ground truth for supervised computer vision algorithms.