15 repositorios
Standardized structures and schemas for organizing training data used in model development.
Explore 15 awesome GitHub repositories matching data & databases · Dataset Formats. Refine with filters or upvote what's useful.
Keras is a high-level deep learning API used to design, build, and train neural networks for tasks such as computer vision, natural language processing, and time series forecasting. It provides a framework for defining model architectures and optimizing weights through a structured interface. The project is defined by a backend-agnostic design that allows the same model code to run across different compute engines. This multi-backend execution enables users to swap underlying engines to optimize for specific hardware or performance requirements. The system supports distributed model training
Supports various standardized dataset formats for organizing training data used in model development.
GPT-SoVITS is a text-to-speech synthesis engine and voice cloning toolkit designed for generating natural-sounding human speech. It functions as a neural audio processing pipeline that maps input text to high-fidelity audio waveforms, utilizing conditional variational autoencoders and flow-based decoders to ensure expressive output. The platform distinguishes itself through its ability to perform few-shot voice cloning and cross-lingual speech generation, allowing users to maintain a specific speaker's vocal identity and emotional delivery across multiple languages. By employing cross-modal l
Defines standardized data structures for organizing and preparing audio training sets.
Supervision is a computer vision toolset for normalizing model outputs, managing datasets, and visualizing annotations. It provides a framework to convert predictions from various classification and detection models into a standardized data format to ensure interoperability across different computer vision pipelines. The library features a post-processor for filtering, counting, and tracking detected objects across image frames and video streams. It includes capabilities for large image tiling to improve the detection of small objects and tools for assigning persistent identities to objects t
Transforms computer vision datasets between different common formats to ensure compatibility between training and evaluation frameworks.
Detectron2 is a PyTorch computer vision framework and visual recognition platform designed for training and deploying models for object detection, image segmentation, and visual recognition. It provides a research-oriented environment for training complex vision models with multi-GPU acceleration. The project includes a specialized object detection library for identifying and locating multiple objects via bounding boxes, as well as an image segmentation toolkit for creating pixel-level masks through instance, semantic, and panoptic segmentation. Additionally, it features a human pose estimati
Provides tools to convert raw dataset annotations into formats required for instance, panoptic, or semantic segmentation.
Fairseq is a PyTorch toolkit for sequence-to-sequence modeling, specializing in neural machine translation, automatic speech recognition, and large-scale language model training. It provides a framework for processing and aligning diverse data sources, including text, audio, and video, to support tasks such as speech-to-text conversion and multimodal sequence learning. The project is distinguished by its distributed training capabilities, which utilize parameter sharding, mixed-precision training, and CPU offloading to handle models that exceed single-device memory. It also includes specializ
Processes raw text and alignment files into a binary format for efficient loading during training.
WeClone is an end-to-end framework designed for the creation, training, and deployment of personalized conversational AI digital twins. By fine-tuning large language models on individual chat history, the platform enables the replication of unique communication styles, speech patterns, and conversational habits. The system manages the entire lifecycle of these digital avatars, from initial data preparation to final integration into messaging platforms for real-time interaction. The platform distinguishes itself through a comprehensive suite of data processing utilities that prepare raw messag
Structures raw chat logs into coherent training sequences by grouping consecutive exchanges based on temporal proximity.
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Reads and writes data stored in columnar formats by mapping dataset fragments to parallel processing splits.
Labelme es una herramienta de anotación de imágenes basada en Python utilizada para crear conjuntos de datos de visión artificial. Sirve como un editor visual para la segmentación semántica, permitiendo a los usuarios definir límites de objetos utilizando polígonos, rectángulos, puntos y círculos. La aplicación también funciona como un anotador de imágenes multiespectrales, admitiendo archivos TIFF de alta profundidad de bits utilizados en imágenes satelitales y científicas. La herramienta incorpora capacidades de etiquetado asistido por IA para automatizar la creación de máscaras y polígonos. Estas características permiten la generación de formas impulsada por indicaciones de texto o selecciones de puntos interactivos, que proponen límites basados en puntos positivos y negativos colocados por el usuario. El software cubre una amplia gama de tareas de gestión y anotación de datos, incluida la creación de máscaras de píxeles densos, cuadros delimitadores rotados y secuenciación de fotogramas de video. Incluye una tubería para traducir la persistencia del estado JSON interno a formatos de conjunto de datos estándar como COCO y Pascal VOC. Las capacidades adicionales incluyen indicadores de clasificación a nivel de imagen, herramientas de refinamiento de geometría e importación de imágenes por lotes.
Provides a pipeline for translating internal JSON annotation data into standard COCO and Pascal VOC formats.
PaddleDetection is an object detection framework designed for the end-to-end development, training, and deployment of computer vision models. It provides a comprehensive library of modular neural network architectures and pipelines that support object detection, instance segmentation, and multi-object tracking tasks. The project distinguishes itself through a configuration-driven approach that decouples model components like backbones and heads, allowing for the flexible assembly of custom vision workflows. It incorporates advanced techniques such as anchor-free detection logic, joint detecti
Implements parsing logic to load and register proprietary data formats for training.
MMSegmentation is an open-source semantic segmentation toolbox built on PyTorch that provides a modular, configurable framework for building, training, evaluating, and deploying segmentation models. At its core, it offers a config-driven pipeline that assembles training, evaluation, and inference workflows by parsing hierarchical configuration files, with a modular component registry that enables plug-and-play composition of neural network modules, optimizers, datasets, and metrics. The framework supports the full model lifecycle through a unified runner interface that controls training, testi
Transforms raw dataset annotations into the expected label format for training and evaluation.
X-AnyLabeling is an AI-assisted annotation platform and computer vision labeling tool. It provides an interface for annotating images and videos using polygons and rectangles to create training sets for machine learning models. The project distinguishes itself through the integration of external AI models via a plugin-based inference backend, allowing for automated generation of candidate labels and the execution of specialized tasks like pose estimation and object detection. It also functions as an optical character recognition tool for extracting text and layout information from document im
Provides utilities for translating computer vision annotations between various industry-standard formats to ensure cross-platform compatibility.
RF-DETR is a Python library for training and deploying object detection, instance segmentation, and keypoint detection models built on a vision transformer architecture. It provides a unified command-line interface and Python API for the full workflow, from fine-tuning pretrained checkpoints on custom datasets to running inference on images, video files, and live camera streams. The project supports training on datasets in COCO or YOLO format, with automatic format detection and configurable augmentation pipelines. Models can be exported to ONNX, TFLite, or TensorRT for deployment across edge
Transforms datasets between COCO and YOLO formats using the supervision library for interoperability.
Muzic es una plataforma y framework de deep learning para el análisis, composición y síntesis de música impulsada por IA. Funciona como un framework de generación de música y herramienta de análisis, utilizando modelos de lenguaje grandes y agentes autónomos para orquestar la creación e interpretación de música simbólica y de audio. El proyecto se distingue por sus capacidades multimodales, mapeando el lenguaje natural y la música simbólica en un espacio de incrustación (embedding) conjunto compartido para clasificación zero-shot y recuperación de información. Emplea una variedad de arquitecturas especializadas, incluyendo frameworks de difusión para síntesis de audio, mecanismos de atención de grano dual para consistencia estructural de secuencias largas y un sistema híbrido que combina reglas de teoría musical con redes neuronales. La plataforma cubre una amplia gama de capacidades, incluyendo la generación de secuencias MIDI a partir de texto y letras, síntesis de voz cantada neuronal y transcripción automatizada de letras. También proporciona herramientas para el modelado de estructuras musicales, generación simbólica basada en atributos y la orquestación de herramientas musicales externas a través de agentes autónomos. Las utilidades de soporte incluyen pipelines de ingeniería de datos para la binarización de MIDI a gran escala, codificación de conjuntos de datos y procesamiento de señales de audio para la extracción de notas de melodía y alineación de voz a fonema.
Transforms raw MIDI data into specialized binarized formats to optimize large-scale model training and inference.
mmocr es un framework de reconocimiento óptico de caracteres basado en PyTorch diseñado para entrenar y desplegar modelos de detección de texto, reconocimiento y extracción de información clave. Sirve como una caja de herramientas integral para la detección y reconocimiento de texto en escenas, proporcionando bibliotecas especializadas para localizar regiones de texto y convertir texto visual en cadenas codificadas por máquina. El proyecto se distingue por un framework de investigación para la extracción de información clave y capacidades avanzadas de detección de texto. Estas incluyen la detección basada en puntos utilizando transformers y el uso de curvas de Bezier parametrizadas para identificar y transcribir texto con formas arbitrarias. El framework cubre una amplia superficie de capacidades de visión artificial, incluyendo la gestión de pipelines de datos para aumentar y estandarizar diversos conjuntos de datos OCR, entrenamiento de modelos con escalado distribuido y evaluación del rendimiento utilizando métricas OCR estándar. También proporciona utilidades para la manipulación de polígonos geométricos y visualización de resultados para auditar predicciones contra anotaciones de verdad fundamental. El sistema está implementado en Python y admite la instalación mediante empaquetado de entorno Docker.
Translates diverse dataset formats into a standardized internal representation for training and evaluation compatibility.
Este proyecto es una implementación de deep learning de la arquitectura RetinaNet para detectar y clasificar objetos dentro de imágenes. Construido como un framework de detección de objetos Keras y una herramienta de visión por computadora TensorFlow, proporciona una implementación completa de red neuronal basada en el paper de RetinaNet. El framework incluye componentes especializados como una red de pirámide de características (Feature Pyramid Network) y una función de pérdida focal para manejar la detección de objetos. Cuenta con una arquitectura de backbone configurable y cajas delimitadoras basadas en anclas para predecir ubicaciones de objetos a través de escalas y relaciones de aspecto variables. El conjunto de herramientas cubre el flujo de trabajo de extremo a extremo para visión por computadora, incluyendo rutinas de entrenamiento, evaluación de rendimiento y despliegue de inferencia de modelos. Proporciona utilidades de gestión de datos para importar y depurar anotaciones de imágenes desde formatos CSV y Pascal VOC, así como herramientas para convertir modelos entrenados en diferentes formatos para su despliegue.
Transforms raw XML and CSV dataset annotations into standardized label formats required for training.