4 repositorios
Temporal transformations applied to sequences of images to prepare video data for training.
Distinct from Image Data Preprocessing: Focuses on temporal operations like mirroring and reversal for video, rather than static image preprocessing.
Explore 4 awesome GitHub repositories matching artificial intelligence & ml · Video Sequence Preprocessing. Refine with filters or upvote what's useful.
LivePortrait is a deep learning framework for portrait animation that transfers facial expressions from a driving video to a static image. It functions as an AI motion retargeting tool, mapping movements between different identities while preserving the unique features of the source portrait. The system includes specialized capabilities for cross-species portrait animation, adapting human-centric models to non-human subjects and animals. It also features a motion template generator that converts driving videos into portable files to accelerate inference and protect the identity of the origina
Applies temporal and spatial preprocessing to video sequences to prepare them for motion extraction.
mmagic is a multimodal training pipeline and framework for generative AI, focusing on visual synthesis and restoration. It provides the infrastructure to build and train models for tasks such as text-to-image and text-to-video generation, 3D-aware content synthesis, and high-fidelity image translation using diffusion models and generative adversarial networks. The project distinguishes itself through specialized capabilities for generative model personalization, including techniques for fine-tuning subjects and styles. It also supports advanced visual manipulations such as latent space interp
Performs temporal mirroring and frame reversal to prepare video sequences for generative model training.
LatentSync es un generador de video impulsado por audio y modelo de difusión latente de sincronización labial diseñado para sincronizar los movimientos labiales de un hablante en un video con una pista de audio objetivo. Proporciona un framework de entrenamiento de sincronización labial para desarrollar redes de sincronización en datasets personalizados de video y audio. El sistema utiliza un pipeline de preprocesamiento de video para limpiar, segmentar y alinear datos faciales. Incluye una herramienta de evaluación de sincronización visual que calcula puntuaciones de confianza para medir la precisión de la alineación de audio y video en los videos generados. El proyecto cubre capacidades para el desarrollo de redes de sincronización personalizadas, gestión de configuración de entrenamiento para memoria de hardware y resolución, y evaluación de video sintético.
Cleans and segments video files by aligning faces and filtering for quality before training synchronization models.
Este proyecto es una implementación en PyTorch de redes residuales 3D diseñadas para el reconocimiento de acciones en video. Proporciona una arquitectura espaciotemporal que analiza tanto los fotogramas espaciales como el movimiento temporal para clasificar actividades humanas dentro de clips de video. El sistema incluye un framework de entrenamiento de modelos distribuido para acelerar el aprendizaje a través de múltiples nodos de cómputo. Admite el despliegue y ajuste fino de pesos de modelos preentrenados, permitiendo la adaptación de redes existentes a nuevos conjuntos de datos específicos. La base de código cubre el pipeline completo para el aprendizaje espaciotemporal, incluyendo herramientas de preprocesamiento de conjuntos de datos de video para convertir archivos sin procesar en secuencias de imágenes, capacidades de inferencia de acciones y métricas para calcular la precisión del reconocimiento.
Provides video sequence preprocessing utilities to transform raw video into training-ready image frames.