30 Repos
Techniques for preparing raw image data for deep learning model consumption.
Distinct from Data Preprocessing for Modeling: Focuses on the specific domain of preparing image tensors for neural networks, which is narrower than general data preprocessing
Explore 30 awesome GitHub repositories matching artificial intelligence & ml · Image Data Preprocessing. Refine with filters or upvote what's useful.
LivePortrait is a deep learning framework for portrait animation that transfers facial expressions from a driving video to a static image. It functions as an AI motion retargeting tool, mapping movements between different identities while preserving the unique features of the source portrait. The system includes specialized capabilities for cross-species portrait animation, adapting human-centric models to non-human subjects and animals. It also features a motion template generator that converts driving videos into portable files to accelerate inference and protect the identity of the origina
Applies temporal and spatial preprocessing to video sequences to prepare them for motion extraction.
FaceNet is a facial recognition framework designed to transform facial images into high-dimensional numerical embeddings for identity verification and recognition. It provides a deep learning face embedder that maps facial features into a Euclidean space where distance corresponds to facial similarity. The system includes tools for both supervised and unsupervised identity management. It features a face identity classifier for categorizing images into known identity classes and an unsupervised clustering tool to group similar facial embeddings together without predefined labels. The framewor
Standardizes facial images through landmark detection and alignment for better model performance.
This project is a collection of supervised and unsupervised machine learning algorithms implemented from scratch using Python. It serves as an educational resource for studying model training, parameter optimization, and the implementation of core predictive models. The library provides a variety of supervised learning tools, including linear and logistic regression, decision trees, and support vector machines. It also features unsupervised learning capabilities for discovering patterns in unlabeled datasets through clustering algorithms. Broad capability areas include ensemble learning thro
Converts binary image grids into one-dimensional vectors for compatibility with classification algorithms.
MMSegmentation is an open-source semantic segmentation toolbox built on PyTorch that provides a modular, configurable framework for building, training, evaluating, and deploying segmentation models. At its core, it offers a config-driven pipeline that assembles training, evaluation, and inference workflows by parsing hierarchical configuration files, with a modular component registry that enables plug-and-play composition of neural network modules, optimizers, datasets, and metrics. The framework supports the full model lifecycle through a unified runner interface that controls training, testi
Configures pixel normalization, padding, and color channel conversion for input images and segmentation maps.
NSFW detection on the client-side via TensorFlow.js
Converts raw image data into normalised tensor inputs with resizing and channel reordering for the neural network.
mmagic is a multimodal training pipeline and framework for generative AI, focusing on visual synthesis and restoration. It provides the infrastructure to build and train models for tasks such as text-to-image and text-to-video generation, 3D-aware content synthesis, and high-fidelity image translation using diffusion models and generative adversarial networks. The project distinguishes itself through specialized capabilities for generative model personalization, including techniques for fine-tuning subjects and styles. It also supports advanced visual manipulations such as latent space interp
Provides essential preprocessing utilities to normalize pixel values and apply padding to image tensors for model inputs.
Anti-Anti-Spider is an automated web scraping toolkit and CAPTCHA bypass framework. It uses convolutional neural networks to recognize characters and digits in image-based security challenges, enabling programmatic access to protected web content. The project functions as an image recognition model trainer, providing a workflow to preprocess labeled image datasets and train custom neural networks. Users can configure model architectures and hyperparameters to align the recognition system with the visual style of specific target websites. The toolkit covers capabilities for image data preproc
Prepares image datasets for deep learning by resizing and applying label-based naming conventions.
This project is a machine learning educational resource and implementation guide for Python. It provides a collection of executable code and notebooks that demonstrate predictive modeling, data analysis workflows, and the implementation of various machine learning algorithms. The repository features practical examples of classification, regression, and clustering tasks using Scikit-Learn, alongside tutorials for building and training deep learning architectures with TensorFlow. These include implementations of convolutional and recurrent networks. The content covers a broad range of capabili
Implements preprocessing for image files, including channel management and tensor preparation.
mmcv is a foundation library for computer vision based on PyTorch. It provides a comprehensive system for constructing convolutional neural networks, a toolkit for image and video preprocessing, and a collection of high-performance deep learning vision operators. The project is distinguished by its hardware-accelerated kernels for complex operations such as deformable convolutions and region pooling. It features a configuration-driven framework that allows for the dynamic instantiation of network layers and the registration of custom modules without modifying code. The library covers a broad
Provides a toolkit for preparing raw image and video data for deep learning model consumption.
LatentSync ist ein audio-gesteuerter Videogenerator und ein Latent-Diffusion-Lip-Sync-Modell, das darauf ausgelegt ist, die Lippenbewegungen eines Sprechers in einem Video mit einer Ziel-Audiospur zu synchronisieren. Es bietet ein Lip-Sync-Trainings-Framework zur Entwicklung von Synchronisationsnetzwerken auf benutzerdefinierten Video- und Audiodatensätzen. Das System nutzt eine Video-Vorverarbeitungspipeline, um Gesichtsdaten zu bereinigen, zu segmentieren und auszurichten. Es enthält ein visuelles Sync-Evaluierungstool, das Konfidenzwerte berechnet, um die Genauigkeit der Audio- und Videoausrichtung in generierten Videos zu messen. Das Projekt deckt Funktionen für die Entwicklung benutzerdefinierter Synchronisationsnetzwerke, die Verwaltung von Trainingskonfigurationen für Hardwarespeicher und Auflösung sowie die Evaluierung synthetischer Videos ab.
Aligns and crops video frames to focus on the mouth region for precise synchronization training.
Dieses Projekt ist eine Sammlung von PyTorch-Kursmaterialien für Deep Learning, bestehend aus praktischen Projekten und Programmierübungen. Es konzentriert sich auf die Implementierung neuronaler Netzwerkarchitekturen und das Modelltraining zur Lösung komplexer Datenprobleme. Das Repository enthält eine Suite für Computer-Vision-Projekte zum Bau von Bildklassifizierern, Autoencodern und Style-Transfer-Anwendungen. Es bietet ein Labor für Generative Adversarial Networks (GANs) zur Erstellung synthetischer Bilder sowie spezifische Implementierungen für Transfer Learning, um vortrainierte Gewichte an neue Aufgaben anzupassen. Die Codebasis deckt die Analyse sequenzieller Daten für Natural Language Processing (NLP) mittels rekurrenter neuronaler Netze und Word-Embeddings ab. Zusätzliche Funktionen umfassen die Vorverarbeitung von Bilddaten, die Evaluierung der Modellleistung und das Deployment trainierter Modelle in Cloud-Infrastrukturen. Die Materialien werden als eine Reihe von Jupyter Notebooks bereitgestellt.
Implements image loading and augmentation techniques to prepare raw visual data for deep learning.
Dieses Projekt ist eine umfassende Bildungsressource für Machine Learning und eine Tutorial-Reihe, die als Sammlung interaktiver Jupyter Notebooks bereitgestellt wird. Es bietet praktische Python-Implementierungen für den gesamten Machine-Learning-Lebenszyklus und deckt überwachtes (supervised) und unüberwachtes (unsupervised) Lernen, Deep Learning sowie Reinforcement Learning ab. Die Ressource zeichnet sich durch detaillierte Implementierungsanleitungen für komplexe Architekturen aus, darunter Transformer, Generative Adversarial Networks (GANs) und Convolutional Neural Networks (CNNs). Zudem enthält sie spezialisierte Kursmaterialien für die Entwicklung von Reinforcement-Learning-Agenten mittels Q-Learning und Deep Q-Networks in simulierten Umgebungen. Die Inhalte decken ein breites Spektrum an Data-Science-Fähigkeiten ab, einschließlich Data-Engineering-Pipelines, Feature-Encoding und Dimensionsreduktion. Es bietet umfangreiches Material zur Modellevaluierung durch Kreuzvalidierung und diagnostische Metriken sowie fortgeschrittene Themen wie Natural Language Processing (NLP), Sentiment-Analyse und generative KI. Der gesamte Lehrplan ist für die interaktive Ausführung in Jupyter Notebooks konzipiert und kombiniert ausführbaren Code, Rich Text und Visualisierungen.
Provides techniques for preparing raw image data and applying augmentations for deep learning model consumption.
Augmentor ist eine Python-Bibliothek und ein Framework für Bild-Augmentierung zur Erweiterung von Machine-Learning-Datensätzen. Es fungiert als Preprocessing-Tool, das synthetische Bildvariationen zur Erhöhung der Datenvielfalt generiert, und als Trainingsdaten-Streamer, der augmentierte Bilder und Labels direkt in neuronale Netzwerk-Loops einspeist, ohne dass ein Zwischenspeicher auf der Festplatte erforderlich ist. Das Framework erhält die räumliche Ausrichtung zwischen Bildern und den zugehörigen Masken aufrecht, was für das Training semantischer Segmentierung erforderlich ist. Es unterstützt verschiedene geometrische und Pixelebenen-Transformationen, einschließlich elastischer Verzerrungen, perspektivischer Verschiebungen durch Neigen und Verzerren, Rotation, Scherung und zufälligem Löschen von Regionen. Das System umfasst Funktionen für klassenspezifische Verarbeitungsstrategien zur Adressierung von Datenungleichgewichten und nutzt Multi-Threading, um die parallele Generierung augmentierter Datensätze zu beschleunigen. Es bietet zudem Utilities zur Bereinigung und Standardisierung von Rohbilddateien während der Preprocessing-Phase.
Provides utilities to clean and standardize raw image files for use in machine learning processing pipelines.
This is an image segmentation framework and masking toolkit for constructing binary and multi-class neural network architectures. It serves as a deep learning encoder wrapper that integrates pre-trained convolutional neural network architectures into semantic segmentation models. The library enables the use of pre-trained backbones to isolate complex patterns and leverages transfer learning to accelerate training. It provides a collection of overlap-based loss functions and precision metrics specifically designed to evaluate and refine the accuracy of image masks. The toolkit covers the full
Prepares raw image data to ensure compatibility between data sources and model encoders.
mmocr ist ein auf PyTorch basierendes Framework für optische Zeichenerkennung (OCR), das für das Training und Deployment von Modellen zur Texterkennung, -identifizierung und Extraktion von Schlüsselinformationen entwickelt wurde. Es dient als umfassende Toolbox für die Erkennung und Identifizierung von Text in Szenen und bietet spezialisierte Bibliotheken zum Lokalisieren von Textregionen und zum Konvertieren von visuellem Text in maschinell kodierte Strings. Das Projekt zeichnet sich durch ein Forschungs-Framework für die Extraktion von Schlüsselinformationen und fortgeschrittene Text-Spotting-Funktionen aus. Dazu gehören punktbasiertes Spotting mittels Transformern und die Verwendung parametrisierter Bezier-Kurven, um beliebig geformten Text zu identifizieren und zu transkribieren. Das Framework deckt ein breites Spektrum an Computer-Vision-Funktionen ab, einschließlich Daten-Pipeline-Management zur Augmentierung und Standardisierung diverser OCR-Datensätze, Modelltraining mit verteilter Skalierung und Performance-Evaluierung unter Verwendung von Standard-OCR-Metriken. Es bietet zudem Dienstprogramme für geometrische Polygon-Manipulation und Ergebnisvisualisierung zur Überprüfung von Vorhersagen gegen Ground-Truth-Annotationen. Das System ist in Python implementiert und unterstützt die Installation über Docker-Umgebungs-Packaging.
Includes essential preprocessing steps like image resizing, polygon rotation, and dataset cleaning to prepare data for OCR models.
Dieses Projekt ist eine umfassende Lehrressource und ein Kurs zum Aufbau neuronaler Netze mit PyTorch. Es deckt die grundlegenden Bausteine des Deep Learning ab, einschließlich Tensor-Manipulation, automatischer Differenzierung und der Konstruktion modularer Komponenten für neuronale Netze. Das Repository dient als technischer Leitfaden für verschiedene spezialisierte Bereiche. Es bietet Implementierungsdetails für Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung sowie Workflows für die Verarbeitung natürlicher Sprache (NLP) mit Transformern, rekurrenten Netzen und generativen Modellen. Zudem enthält es eine Referenz für generative KI, mit Fokus auf die Synthese von Bildern mittels Diffusionsmodellen und adversarialen Netzwerken. Das Material erstreckt sich auf Modelloptimierung und Deployment-Pipelines. Es behandelt Techniken zur Reduzierung der Modellgröße und zur Erhöhung der Inferenzgeschwindigkeit durch Quantisierung und den Export von Modellen in Formate wie ONNX und TensorRT. Weitere Kompetenzbereiche umfassen Data Engineering für paralleles Laden, Modellevaluierung mittels benutzerdefinierter Metriken und das Deployment von Open-Source Large Language Models. Das Projekt wird primär als eine Reihe von Jupyter Notebooks bereitgestellt.
Provides techniques for resizing and normalizing raw images into tensors for deep learning consumption.
img2dataset ist eine leistungsstarke Pipeline für Bilddatensätze und ein Vorverarbeitungstool, das entwickelt wurde, um Millionen von Bildern von URLs für das Training von Machine Learning herunterzuladen und zu verarbeiten. Es fungiert als verteilter Bild-Downloader und Cloud-Speicher-Daten-Exporter, der große visuelle Datensätze von Webquellen direkt in strukturierte Formate überführt. Das System priorisiert die Datenerfassung mit hohem Durchsatz durch die Verteilung von Workloads auf mehrere CPU-Kerne und Maschinen. Es integriert sich direkt in Remote-Cloud-Speicher-Buckets und verwendet ein manifestbasiertes Tracking-System, um unterbrochene Downloads fortzusetzen, ohne bereits vorhandene Daten erneut zu verarbeiten. Das Tool bietet eine vollständige Vorverarbeitungssuite für die Vorbereitung von Machine-Learning-Datensätzen, einschließlich Bildskalierung, Zuschneiden und Eigenschaftsfilterung basierend auf Größe oder Seitenverhältnis. Es verifiziert zudem die Bildintegrität mittels Hash-Vergleich und stellt die Einhaltung von Robot-Direktiven während des Scraping-Workflows sicher. Das Projekt ist in Python implementiert.
Includes a preprocessing suite for resizing, cropping, and filtering images to ensure consistent quality for model training.
Dieses Projekt ist eine Sammlung grundlegender Machine-Learning-Algorithmen und Tools, die von Grund auf in Python implementiert wurden. Es dient als Bibliothek von Kernimplementierungen für Regressions-, Klassifizierungs- und Clustering-Modelle, die dazu konzipiert sind, die zugrunde liegenden mathematischen Strukturen dieser Algorithmen zu demonstrieren, ohne sich auf High-Level-Machine-Learning-Frameworks zu verlassen. Das Projekt konzentriert sich auf die manuelle Implementierung algorithmischer Logik, einschließlich neuronaler Netze mit Forward-Propagation und Gewichtsaktualisierungen sowie verschiedener überwachter und unüberwachter Lernmodelle. Es nutzt NumPy für die Vektorisierung, um Matrixberechnungen und mathematische Operationen auf großen Datensätzen durchzuführen. Das Toolkit deckt ein breites Spektrum an Fähigkeiten ab, einschließlich Dimensionsreduktion mittels Principal Component Analysis und Datenvorverarbeitung für numerische und Bilddatensätze. Die algorithmischen Implementierungen umfassen lineare und Bayes'sche Regression, K-Means-Clustering und mehrere Klassifizierungsmethoden wie Support Vector Machines, Decision Trees und K-Nearest Neighbors. Das Projekt wird als eine Reihe von Jupyter Notebooks bereitgestellt.
Provides functionality to normalize pixel values and resize image dimensions for model consumption.
sam-hq is a collection of pre-trained vision foundation models and adapters designed for high-quality image segmentation, multimodal feature extraction, and depth estimation. It provides a zero-shot vision model capable of performing segmentation and classification across diverse domains without requiring task-specific training. The project features a high-quality image segmentation tool based on the Segment Anything Model that generates precise masks from spatial prompts. It includes a multimodal feature extractor to generate high-dimensional vector embeddings from both image and text inputs
Scales and normalizes raw image data to ensure compatibility with model input requirements.
ExecuTorch is a lightweight C++ runtime for deploying PyTorch models on mobile, embedded, and edge hardware. It provides an ahead-of-time compilation pipeline that exports, quantizes, and lowers model graphs into compact serialized programs, then executes them through a minimal runtime with hardware acceleration and on-device large language model inference capabilities. The project distinguishes itself through a hardware accelerator delegate system that partitions model subgraphs and offloads computation to specialized backends including NPUs, GPUs, and DSPs from Apple, Arm, Intel, MediaTek,
ExecuTorch keeps platform-dependent image work like decoding, resizing, and cropping in the application layer before passing pixels to the exported model.