24 repository-uri
Utilities for cleaning, formatting, and converting raw data into structured formats suitable for machine learning model training.
Distinct from Batch Image Converters: Unlike batch image converters, this specifically handles the conversion of images into binary record formats like TFRecords for optimized ML pipeline ingestion.
Explore 24 awesome GitHub repositories matching artificial intelligence & ml · Dataset Preprocessing Tools. Refine with filters or upvote what's useful.
Deepagents is an LLM agent orchestration platform and stateful application server designed for deploying and managing AI agents built with computational graphs. It provides a containerized runtime environment that handles agent execution, state persistence, and the versioning of AI assistants. The platform distinguishes itself through deep integration with the Model Context Protocol, allowing agents to function as servers that expose tools and capabilities to external clients. It features a sophisticated observability suite for capturing execution traces, performing LLM-based evaluations agai
Provides utilities to clean, convert, and transform raw data fields into structured formats for ML training.
StyleGAN2 is a TensorFlow generative adversarial network and image synthesis model designed to produce high-resolution synthetic visual content. It functions as a deep learning architecture that learns patterns from image datasets to synthesize new images. The project includes a latent space projection tool for mapping existing images to latent vectors to analyze their representation within a generative model. It also provides an image quality evaluation framework to measure the visual fidelity and diversity of synthetic outputs. The system covers the full generative pipeline, including imag
Transform raw image directories or database files into structured records for use during model training.
ESPnet is a comprehensive speech processing toolkit and PyTorch-based trainer designed for building end-to-end speech recognition, synthesis, and translation models. It provides a structured framework for developing automatic speech recognition systems using transducer and encoder-decoder architectures, alongside engines for text-to-speech synthesis and speech translation pipelines. The project distinguishes itself through a recipe-based workflow execution system that ensures experimental reproducibility by running standardized sequences of scripts for data preparation and model training. It
Converts raw audio files into structured manifests required for model training and evaluation.
Amphion is an audio generation toolkit designed for the research and development of models that synthesize speech, music, and environmental sound effects. It provides a standardized framework for reproducible audio synthesis, incorporating a text-to-speech engine and a voice conversion framework. The project specializes in transforming audio identities, allowing for the modification of speaker accents and voice identities while preserving original rhythm and style. It also includes capabilities for singing voice synthesis and the generation of environmental soundscapes from text descriptions
Unifies the cleaning and preparation of various open-source audio datasets and raw speech data.
GoLearn is a machine learning library for the Go programming language. It provides a supervised learning framework and a toolkit for building, training, and evaluating predictive models through a standardized interface. The project implements a data frame system that loads CSV files into structured grids for matrix operations. It includes a preprocessing library for discretizing continuous variables and a model evaluation toolkit that utilizes confusion matrices and cross-validation to measure precision and recall. The library covers data engineering and management, including the ability to
Includes utilities for cleaning and formatting raw data and discretizing continuous variables for ML training.
This project is an AI singing voice conversion system and vocal processor used for training generative voice models and converting vocal recordings or live input into a target voice. It functions as a VITS model trainer and a real-time voice changer that transforms vocal timbre and pitch to change the identity of a singer. The system provides a graphical management dashboard for controlling training hyperparameters and voice conversion presets. It supports low-latency audio streaming for live microphone input and employs pitch estimation to ensure precise matching between source and target vo
Provides tools for cleaning, segmenting, and standardizing raw audio recordings for ML training.
jetson-inference is a set of libraries and tools for executing optimized deep learning models on embedded GPU hardware. Its primary purpose is to enable real-time computer vision and AI inference at the edge with low latency and high throughput. The project distinguishes itself through high-performance streaming analytics and the ability to execute concurrent AI pipelines on auto-grade silicon. It provides specialized support for multi-sensor stream processing, utilizing zero-copy data transport to load camera frames directly into GPU memory. The codebase covers a broad surface of capabiliti
Transcribes and filters speech data using automatic speech recognition to prepare high-quality audio datasets.
This project is a Chinese automatic speech recognition framework and deep learning system designed to convert spoken Chinese audio into written text. It functions as a toolkit for training, evaluating, and deploying speech-to-text models, utilizing a specialized pinyin-to-text converter that transforms phonetic sequences into Chinese characters using a probability graph model. The system is distinguished by its deployment flexibility, offering a dockerized recognition server that provides transcription capabilities as a remote API. It supports high-performance streaming through a gRPC speech-
Implements tools for cleaning and standardizing raw audio datasets specifically for machine learning training.
Silero VAD is a voice activity detection model and deep learning speech classifier designed to distinguish human speech from silence across diverse languages and noisy environments. It functions as a pre-trained neural network capable of identifying speech segments within both static audio recordings and real-time data streams. The project includes a language identification tool for classifying spoken languages and a framework for fine-tuning audio models. It provides utilities for optimizing detection thresholds using validation datasets and retraining the model with custom labeled audio to
Isolates and merges speech segments from a recording to remove silence before transcription.
Anti-Anti-Spider is an automated web scraping toolkit and CAPTCHA bypass framework. It uses convolutional neural networks to recognize characters and digits in image-based security challenges, enabling programmatic access to protected web content. The project functions as an image recognition model trainer, providing a workflow to preprocess labeled image datasets and train custom neural networks. Users can configure model architectures and hyperparameters to align the recognition system with the visual style of specific target websites. The toolkit covers capabilities for image data preproc
Includes utilities for formatting and organizing raw image data into structured sets for model training.
xtuner este un motor de antrenare cuprinzător pentru modele de limbaj mari (LLM), oferind un toolkit pentru pre-antrenare, fine-tuning supervizat și optimizarea modelelor multimodale vision-language. Servește ca un accelerator de antrenare distribuită și un framework specializat pentru scalarea modelelor Mixture-of-Experts și alinierea comportamentului modelului prin învățare prin consolidare din feedback uman (RLHF). Proiectul se distinge prin optimizări avansate de memorie și calcul, cum ar fi paralelismul de secvență pentru ferestre de context ultra-lungi și paralelismul de pipeline intercalat pentru a reduce timpul de inactivitate al GPU-ului. Oferă o suită dedicată pentru optimizarea preferințelor, implementând tehnici precum Group Relative Policy Optimization și Direct Preference Optimization pentru a rafina politicile modelului și sistemele de recompensă. Zonele largi de capabilități acoperă antrenarea distribuită a modelelor pe mai multe noduri, pregătirea seturilor de date multimodale și gestionarea fine-tuning-ului bazat pe adaptoare. Motorul include, de asemenea, instrumente pentru evaluarea modelului, fuziunea ponderilor (weight merging) și exportul parametrilor antrenați către motoarele de inferență. Antrenarea este gestionată prin fișiere de configurare standardizate și launchere distribuite pentru a asigura rezultate consistente pe clusterele de calcul.
Converts preprocessed data in standardized directories into tokenized formats ready for model training.
AugLy este o bibliotecă de augmentare a datelor multimodale și un augmentator de seturi de date pentru machine learning. Oferă un sistem pentru generarea de variații sintetice ale datelor de antrenament pe seturi de date audio, imagine, text și video pentru a crește diversitatea eșantioanelor și a îmbunătăți robustețea modelului. Biblioteca funcționează ca un simulator de zgomot multimedia, conceput special pentru a imita capturile reale ale utilizatorilor prin suprapunerea șabloanelor de social media și a artefactelor de internet peste media. Include un tracker de proveniență a datelor pentru a înregistra transformările specifice și nivelurile de intensitate aplicate fiecărei piese de date augmentate. Instrumentul acoperă o gamă largă de capabilități de expansiune a seturilor de date, inclusiv transformări lingvistice pentru text, transformări temporale și vizuale pentru video și transformări sonice pentru audio.
Applies transformations to audio files to create more varied training samples for sound recognition or processing models.
RedPajama-Data este un set de instrumente pentru preprocesarea seturilor de date text la scară largă utilizate pentru antrenarea modelelor de limbaj mari (LLM). Oferă un pipeline de preprocesare axat pe curățarea, deduplicarea și punctarea unor colecții masive de text pentru a asigura calitatea și diversitatea datelor. Proiectul utilizează un framework de punctare a calității documentelor care folosește machine learning și euristici statistice pentru a evalua dacă documentele sunt potrivite pentru antrenare. Include un pipeline de filtrare a seturilor de date care utilizează clasificatori și liste de blocare pentru a elimina cuvintele sau URL-urile nedorite. Sistemul dispune de un set de instrumente de deduplicare a textului care elimină conținutul redundant folosind tehnici de potrivire exactă și fuzzy. Aceste capabilități permit identificarea și eliminarea documentelor duplicate sau aproape identice dintr-un corpus.
Provides a comprehensive toolset for cleaning, deduplicating, and scoring large-scale text datasets for LLM training.
Muzic este o platformă și un framework de deep learning pentru analiza, compoziția și sinteza muzicală bazată pe AI. Acesta funcționează ca un framework de generare muzicală și instrument de analiză, utilizând modele de limbaj mari și agenți autonomi pentru a orchestra crearea și interpretarea muzicii simbolice și audio. Proiectul se distinge prin capabilitățile sale cross-modal, mapând limbajul natural și muzica simbolică într-un spațiu de embedding comun pentru clasificare zero-shot și regăsirea informațiilor. Utilizează o varietate de arhitecturi specializate, inclusiv framework-uri de difuzie pentru sinteza audio, mecanisme de atenție dual-grain pentru consistența structurală a secvențelor lungi și un sistem hibrid care combină regulile teoriei muzicale cu rețelele neuronale. Platforma acoperă o gamă largă de capabilități, inclusiv generarea de secvențe MIDI din text și versuri, sinteza vocală neuronală și transcrierea automată a versurilor. De asemenea, oferă instrumente pentru modelarea structurii muzicale, generarea simbolică bazată pe atribute și orchestrarea instrumentelor muzicale externe prin agenți autonomi. Utilitarele de suport includ pipeline-uri de inginerie a datelor pentru binarizarea MIDI la scară largă, codificarea seturilor de date și procesarea semnalului audio pentru extragerea notelor melodice și alinierea vorbirii la foneme.
Provides tools for cleaning and converting raw MIDI and audio files into formats suitable for ML training.
Acest proiect este un framework PyTorch de re-identificare a persoanelor, conceput pentru antrenarea și evaluarea modelelor care identifică indivizi prin diferite unghiuri ale camerelor video. Oferă un pipeline complet de antrenare a modelelor, un extractor de caracteristici deep learning pentru convertirea imaginilor în vectori numerici și o suită de instrumente de benchmarking pentru viziunea artificială pentru a măsura acuratețea regăsirii identității. Framework-ul include un toolkit specializat de transfer learning care suportă înghețarea straturilor, optimizarea etapizată a ratei de învățare și rate de învățare diferențiale pentru fine-tuning-ul modelelor preantrenate. Se distinge printr-un motor extensibil care permite dezvoltarea de logică de antrenare personalizată și implementarea unor obiective de optimizare specifice, cum ar fi hard-sample triplet loss mining și label smoothing. Sistemul acoperă gestionarea cuprinzătoare a seturilor de date, inclusiv suport pentru benchmark-uri standard, eșantionare echilibrată a batch-urilor și augmentarea imaginilor. Oferă utilitare de evaluare pentru calcularea rangurilor de regăsire și a distanțelor dintre caracteristici, precum și instrumente de vizualizare pentru generarea de hărți de activare (heatmaps) și galerii de regăsire clasificate. Proiectul este implementat în Python și utilizează PyTorch pentru operațiunile sale de deep learning.
Provides utilities to preprocess person re-identification data with customizable dimensions and batch sizes.
Caffe este un framework de deep learning de înaltă performanță și o bibliotecă de rețele neuronale convoluționale concepută pentru antrenarea și implementarea rețelelor neuronale. Acesta funcționează ca un motor de machine learning accelerat prin GPU, cu un nucleu implementat în C++ pentru a permite operațiuni cu tensori de mare capacitate. Proiectul utilizează un sistem de configurare declarativ unde arhitecturile modelelor și hiperparametrii sunt definiți în fișiere text externe, separând designul rețelei de codul de execuție. Include un sistem de serializare a modelelor pentru a exporta ponderile și topologiile antrenate în fișiere binare pentru o implementare eficientă în diferite medii hardware. Framework-ul acoperă o gamă largă de capabilități, inclusiv designul arhitecturii rețelelor neuronale, antrenarea modelelor supervizate cu optimizare bazată pe gradient și fluxuri de lucru de clasificare a imaginilor. Oferă instrumente pentru preprocesarea seturilor de date, extragerea caracteristicilor neuronale și ajustarea fină (fine-tuning) a modelelor pre-antrenate. Nucleul C++ este accesibil printr-o interfață multi-limbaj cu binding-uri oficiale pentru Python și MATLAB.
Provides tools to format and transform raw data into structures compatible with model ingestion.
Acest proiect este un toolkit Python de bio-imagistică și o suită de analiză concepută pentru procesarea și analizarea imaginilor de microscopie și medicale. Oferă o colecție de instrumente pentru cuantificarea imaginilor, segmentarea imaginilor medicale și fluxuri de lucru generale de bio-imagistică. Suita include capabilități specializate pentru cuantificarea datelor biologice, cum ar fi măsurarea complexității ramificațiilor neuronale prin analiza Sholl, calcularea distribuțiilor dimensiunilor particulelor și urmărirea zonei rănilor în scratch assays. De asemenea, dispune de o bibliotecă de segmentare a imaginilor medicale care implementează arhitecturi U-Net pentru izolarea structurilor anatomice în date 3D și folosește rețele generative adversariale (GAN) pentru a crea imagini științifice sintetice pentru augmentarea seturilor de date. În linii mari, proiectul acoperă primitive de procesare a imaginilor, inclusiv denoising, îmbunătățirea contrastului și transformări morfologice. Oferă utilitare de gestionare a seturilor de date pentru conversia adnotărilor între formatele COCO, YOLO și măști binare, precum și instrumente de machine learning pentru antrenarea rețelelor neuronale și implementarea transferului de ponderi bazat pe autoencodere. Fluxurile de lucru de analiză sunt furnizate sub formă de serie de Jupyter Notebooks interactive.
Converts annotations between COCO and YOLO formats and standardizes imagery for machine learning models.
Acest proiect este un framework de detecție a obiectelor TensorFlow conceput pentru antrenarea și implementarea modelelor Single Shot MultiBox Detector. Acesta oferă un toolkit de antrenare a rețelelor neuronale pentru implementarea arhitecturii SSD pentru a obține localizarea obiectelor în imagini și videoclipuri în timp real. Framework-ul include un pipeline de date dedicat pentru transformarea seturilor de date de detecție a obiectelor în formate de înregistrare binară pentru a crește viteza și performanța antrenării. De asemenea, dispune de utilitare pentru convertirea ponderilor modelului între diferite formate de checkpoint pentru a facilita reutilizarea rețelelor pre-antrenate. Sistemul acoperă o gamă largă de capabilități, inclusiv fine-tuning-ul modelului pe seturi de date personalizate, antrenarea detecției obiectelor și evaluarea acurateței prin măsurarea metricilor de precizie și recall.
Includes utilities for converting raw object detection data into binary record formats for optimized TensorFlow ingestion.
Acest proiect este un framework de deep learning conceput pentru transcrierea end-to-end de la vorbire la text (speech-to-text). Utilizează arhitectura de rețea neuronală WaveNet pentru a procesa input-ul audio vorbit și a genera transcrieri text scrise, folosind clasificarea temporală conexionistă (CTC) pentru a mapa secvențele audio de lungime variabilă la ieșiri la nivel de caracter. Sistemul se distinge printr-un pipeline de antrenare cuprinzător care suportă execuția distribuită pe mai multe unități de procesare grafică (GPU). Include utilitare specializate pentru augmentarea datelor audio și transformarea fișierelor audio brute în formate binare optimizate, ceea ce minimizează latența input/output-ului pe disc în timpul antrenării modelelor la scară largă. Software-ul oferă un mediu complet pentru gestionarea fluxurilor de lucru de machine learning, inclusiv instrumente pentru calcularea metricilor de pierdere (loss metrics) pentru a monitoriza convergența și acuratețea modelului. Toate componentele, inclusiv motorul de recunoaștere și pipeline-urile de antrenare, sunt concepute pentru implementarea în medii containerizate pentru a asigura o execuție consistentă pe diverse sisteme gazdă.
Transforms raw audio files into optimized feature formats to accelerate machine learning training and reduce disk input bottlenecks.
TensorFlowTTS este un framework de sinteză vocală neuronală utilizat pentru a converti textul în forme de undă audio de înaltă fidelitate. Acesta oferă un set de instrumente pentru antrenarea și reglarea fină a arhitecturilor de tip sequence-to-sequence sau a rețelelor generative adversariale (GAN) pentru a produce un discurs cu sunet natural. Sistemul include implementări de vocodere neuronale care transformă reprezentările acustice intermediare în forme de undă audio finale. De asemenea, dispune de control al vitezei de redare pentru a ajusta ritmul discursului sintetizat. Framework-ul acoperă întregul pipeline de sinteză vocală, incluzând preprocesarea datelor audio pentru a crea mel-spectrograme normalizate și un pipeline de antrenare pentru gestionarea antrenării modelelor accelerate pe GPU. Acesta utilizează framework-uri de antrenare personalizate pentru a gestiona funcțiile de loss și logica de optimizare în timpul procesului de antrenare.
Provides utilities to convert raw audio and transcriptions into normalized mel spectrograms for ML training.