4 dépôts
Temporal transformations applied to sequences of images to prepare video data for training.
Distinct from Image Data Preprocessing: Focuses on temporal operations like mirroring and reversal for video, rather than static image preprocessing.
Explore 4 awesome GitHub repositories matching artificial intelligence & ml · Video Sequence Preprocessing. Refine with filters or upvote what's useful.
LivePortrait is a deep learning framework for portrait animation that transfers facial expressions from a driving video to a static image. It functions as an AI motion retargeting tool, mapping movements between different identities while preserving the unique features of the source portrait. The system includes specialized capabilities for cross-species portrait animation, adapting human-centric models to non-human subjects and animals. It also features a motion template generator that converts driving videos into portable files to accelerate inference and protect the identity of the origina
Applies temporal and spatial preprocessing to video sequences to prepare them for motion extraction.
mmagic is a multimodal training pipeline and framework for generative AI, focusing on visual synthesis and restoration. It provides the infrastructure to build and train models for tasks such as text-to-image and text-to-video generation, 3D-aware content synthesis, and high-fidelity image translation using diffusion models and generative adversarial networks. The project distinguishes itself through specialized capabilities for generative model personalization, including techniques for fine-tuning subjects and styles. It also supports advanced visual manipulations such as latent space interp
Performs temporal mirroring and frame reversal to prepare video sequences for generative model training.
LatentSync est un générateur de vidéo piloté par l'audio et un modèle de synchronisation labiale par diffusion latente conçu pour synchroniser les mouvements des lèvres d'un locuteur dans une vidéo avec une piste audio cible. Il fournit un framework d'entraînement de synchronisation labiale pour développer des réseaux de synchronisation sur des jeux de données vidéo et audio personnalisés. Le système utilise un pipeline de prétraitement vidéo pour nettoyer, segmenter et aligner les données faciales. Il inclut un outil d'évaluation de synchronisation visuelle qui calcule des scores de confiance pour mesurer la précision de l'alignement audio et visuel dans les vidéos générées. Le projet couvre des capacités pour le développement de réseaux de synchronisation personnalisés, la gestion de la configuration d'entraînement pour la mémoire matérielle et la résolution, ainsi que l'évaluation de vidéo synthétique.
Cleans and segments video files by aligning faces and filtering for quality before training synchronization models.
Ce projet est une implémentation PyTorch de réseaux résiduels 3D conçus pour la reconnaissance d'actions vidéo. Il fournit une architecture spatiotemporelle qui analyse à la fois les images spatiales et le mouvement temporel pour classer les activités humaines dans les clips vidéo. Le système inclut un framework d'entraînement de modèle distribué pour accélérer l'apprentissage sur plusieurs nœuds de calcul. Il prend en charge le déploiement et le fine-tuning de poids de modèles pré-entraînés, permettant l'adaptation de réseaux existants à de nouveaux ensembles de données spécifiques. La base de code couvre le pipeline complet pour l'apprentissage spatiotemporel, incluant des outils de prétraitement d'ensembles de données vidéo pour convertir les fichiers bruts en séquences d'images, des capacités d'inférence d'action et des métriques pour calculer la précision de la reconnaissance.
Provides video sequence preprocessing utilities to transform raw video into training-ready image frames.