4 Repos
Temporal transformations applied to sequences of images to prepare video data for training.
Distinct from Image Data Preprocessing: Focuses on temporal operations like mirroring and reversal for video, rather than static image preprocessing.
Explore 4 awesome GitHub repositories matching artificial intelligence & ml · Video Sequence Preprocessing. Refine with filters or upvote what's useful.
LivePortrait is a deep learning framework for portrait animation that transfers facial expressions from a driving video to a static image. It functions as an AI motion retargeting tool, mapping movements between different identities while preserving the unique features of the source portrait. The system includes specialized capabilities for cross-species portrait animation, adapting human-centric models to non-human subjects and animals. It also features a motion template generator that converts driving videos into portable files to accelerate inference and protect the identity of the origina
Applies temporal and spatial preprocessing to video sequences to prepare them for motion extraction.
mmagic is a multimodal training pipeline and framework for generative AI, focusing on visual synthesis and restoration. It provides the infrastructure to build and train models for tasks such as text-to-image and text-to-video generation, 3D-aware content synthesis, and high-fidelity image translation using diffusion models and generative adversarial networks. The project distinguishes itself through specialized capabilities for generative model personalization, including techniques for fine-tuning subjects and styles. It also supports advanced visual manipulations such as latent space interp
Performs temporal mirroring and frame reversal to prepare video sequences for generative model training.
LatentSync ist ein audio-gesteuerter Videogenerator und ein Latent-Diffusion-Lip-Sync-Modell, das darauf ausgelegt ist, die Lippenbewegungen eines Sprechers in einem Video mit einer Ziel-Audiospur zu synchronisieren. Es bietet ein Lip-Sync-Trainings-Framework zur Entwicklung von Synchronisationsnetzwerken auf benutzerdefinierten Video- und Audiodatensätzen. Das System nutzt eine Video-Vorverarbeitungspipeline, um Gesichtsdaten zu bereinigen, zu segmentieren und auszurichten. Es enthält ein visuelles Sync-Evaluierungstool, das Konfidenzwerte berechnet, um die Genauigkeit der Audio- und Videoausrichtung in generierten Videos zu messen. Das Projekt deckt Funktionen für die Entwicklung benutzerdefinierter Synchronisationsnetzwerke, die Verwaltung von Trainingskonfigurationen für Hardwarespeicher und Auflösung sowie die Evaluierung synthetischer Videos ab.
Cleans and segments video files by aligning faces and filtering for quality before training synchronization models.
Dieses Projekt ist eine PyTorch-Implementierung von 3D-Residual-Netzwerken, die für die Video-Aktionserkennung konzipiert sind. Es bietet eine spatiotemporale Architektur, die sowohl räumliche Frames als auch zeitliche Bewegungen analysiert, um menschliche Aktivitäten innerhalb von Videoclips zu klassifizieren. Das System enthält ein Framework für verteiltes Modelltraining, um das Lernen über mehrere Rechenknoten hinweg zu beschleunigen. Es unterstützt das Deployment und Fine-Tuning vortrainierter Modellgewichte, was die Anpassung bestehender Netzwerke an spezifische neue Datensätze ermöglicht. Die Codebasis deckt die gesamte Pipeline für spatiotemporales Lernen ab, einschließlich Tools zur Vorverarbeitung von Videodatensätzen für die Konvertierung von Rohdateien in Bildsequenzen, Funktionen zur Aktionsinferenz und Metriken zur Berechnung der Erkennungsgenauigkeit.
Provides video sequence preprocessing utilities to transform raw video into training-ready image frames.