8 Repos
Techniques for transforming audio waveforms into mel-spectrograms for analysis by neural networks.
Distinct from Audio Processing: Focuses specifically on the mel-frequency scaling transformation for CNN input, not general audio synthesis or transformation
Explore 8 awesome GitHub repositories matching artificial intelligence & ml · Mel-Spectrogram Processing. Refine with filters or upvote what's useful.
This project is a collection of deep learning tools for image classification and audio tagging, providing a repository of pre-trained model weights and architectures. It serves as a Keras model zoo that enables the immediate use of established neural networks for inference and transfer learning. The library includes a music tagging framework that classifies audio recordings using convolutional recurrent neural networks and mel-spectrograms. For visual data, it provides implementations of architectures such as ResNet, VGG, and Xception, alongside a repository of weights trained on large datase
Transforms raw audio waveforms into mel-spectrograms before passing them into convolutional neural networks.
Parler-TTS is a library for generating high-quality speech from text, supporting both inference and model training. It combines a transformer-based text-to-speech generator with a mel-spectrogram decoder to convert written text into natural-sounding audio. The project distinguishes itself through text-conditioned voice control, which allows speaker attributes like gender, pitch, speaking rate, and style to be adjusted via a natural-language description. It also includes speaker embedding selection for maintaining voice identity across multiple generations, and a fine-tuning recipe system that
Ships a neural mel-spectrogram decoder that converts transformer outputs into time-frequency audio representations.
Dieses Projekt ist ein neuronales Text-to-Speech-Framework und ein PyTorch-Modell, das darauf ausgelegt ist, menschliche Sprache zu synthetisieren. Es konvertiert geschriebenen Text in synthetisches Audio durch die Vorhersage von Mel-Spektrogrammen, die als Zwischenrepräsentation für die Stimmgenerierung dienen. Das System enthält ein Konditionierungsmodell für WaveNet, um eine natürlich klingende Audioausgabe sicherzustellen. Es bietet ein verteiltes Trainings-Framework, das Multi-GPU-Verarbeitung und automatische Mixed-Precision nutzt, um die Trainingsgeschwindigkeit zu optimieren und den Speicherverbrauch zu reduzieren. Das Projekt deckt die gesamte Pipeline der neuronalen Sprachsynthese ab, vom Modelltraining unter Verwendung von Text- und Audiodatensätzen bis zur Generierung künstlicher Stimmen. Es verwendet einen konvolutionalen Encoder-Decoder und Sequence-to-Sequence-Attention, um sprachliche Merkmale auf akustische Frames abzubilden.
Uses mel spectrograms as a frequency-domain intermediate representation between the encoder and the vocoder.
DiffSinger ist ein KI-Gesangssynthesizer und neuronaler Audiogenerator, der darauf ausgelegt ist, hochqualitativen Gesang und Sprache zu produzieren. Er fungiert als Text-to-Speech-System und als diffusionsbasiertes Tool zur Synthese von Gesangsstimmen, das Text und Tonhöhe in hörbares Audio transformiert. Das System nutzt einen flachen Diffusionsmechanismus und iterative Rauschverfeinerung, um realistische Gesangsdarbietungen zu generieren. Es integriert spezialisierte Sampling-Plugins und numerische Löser, um die Inferenz zu beschleunigen und die Zeit zu reduzieren, die zur Generierung synthetischer Stimmen erforderlich ist. Das Projekt deckt akustische Modellierung, Mel-Spektrogramm-Synthese und neuronale Vocoder-Rekonstruktion ab, um Text in Zeitbereichs-Audio-Wellenformen zu konvertieren. Es enthält zudem Funktionen zur synthetischen Stimmverbesserung, um die klangliche Qualität von Aufnahmen zu steigern.
Produces mel-spectrograms as the intermediate time-frequency representation between text input and audio waveforms.
TensorFlowTTS ist ein Framework für neuronale Sprachsynthese, das Text in hochwertige Audio-Wellenformen umwandelt. Es bietet ein Toolkit zum Trainieren und Finetunen von Sequence-to-Sequence- oder GAN-Architekturen (Generative Adversarial Networks), um natürlich klingende Sprache zu erzeugen. Das System enthält Implementierungen neuronaler Vocoder, die akustische Zwischenrepräsentationen in finale Audio-Wellenformen umwandeln. Zudem bietet es eine Steuerung der Wiedergabegeschwindigkeit, um das Tempo der synthetisierten Sprachausgabe anzupassen. Das Framework deckt die gesamte End-to-End-Pipeline für Sprachsynthese ab, einschließlich der Vorverarbeitung von Audiodaten zur Erstellung normalisierter Mel-Spektrogramme sowie einer Trainings-Pipeline für GPU-beschleunigtes Modelltraining. Es nutzt benutzerdefinierte Trainer-Frameworks, um Verlustfunktionen und Optimierungslogik während des Trainingsprozesses zu verwalten.
Converts raw audio into mel-spectrograms with logarithmic scaling to standardize input for neural networks.
Vocal Remover ist eine Deep-Learning-Anwendung für die Audio-Quellentrennung. Sie fungiert als CLI-Utility, das komplexe Audiosignale in einzelne Komponenten zerlegt und insbesondere Gesangs- und Instrumentalspuren aus gemischten Aufnahmen isoliert. Die Software nutzt eine symmetrische Encoder-Decoder-Architektur neuronaler Netze zur Verarbeitung von Audio-Spektrogrammen. Durch die Anwendung gelernter Magnitude-Masken auf die ursprüngliche Signalphase rekonstruiert das System das Ausgabe-Audio unter Beibehaltung der zeitlichen Kohärenz. Es unterstützt sowohl die Ausführung vortrainierter Modelle für die Spurenextraktion als auch das Training benutzerdefinierter Modelle auf spezifischen Datensätzen, um die Isolationsgenauigkeit zu verfeinern. Das Tool deckt eine Reihe von Audio-Post-Production- und Musikproduktions-Workflows ab, einschließlich der Erstellung von Backing-Tracks und der Extraktion von Stems für Remixe. Es nutzt Hardware-Beschleunigung, um die für hochfrequente Signalverarbeitung erforderliche Matrixmultiplikation zu bewältigen. Das Projekt wird als CLI für die lokale Ausführung und Modellentwicklung verteilt.
Converts time-domain audio waveforms into frequency-domain representations to allow neural networks to perform precise spatial filtering on audio data.
Diese Anwendung ist eine Plattform für KI-Sprachsynthese und neuronales Voice-Cloning. Sie bietet ein umfassendes Toolkit zur Umwandlung von Text in natürlich klingende menschliche Sprache durch die Anwendung speziell trainierter neuronaler Netzwerkmodelle auf bestimmte Audio-Samples. Das System erleichtert den gesamten Lebenszyklus der Sprachmodellentwicklung, einschließlich der Aufbereitung von rohen Hörbüchern und Videotranskriptionen in strukturierte Trainingsdatensätze. Es unterstützt das Training dieser Modelle auf lokaler oder Remote-Hardware und nutzt Multi-GPU-verteilte Verarbeitung, um große Datenmengen zu bewältigen und die Modellkonvergenz zu beschleunigen. Über das Training hinaus enthält die Plattform Funktionen zur Verwaltung und Portierung von Sprachdatensätzen über verschiedene Speicherumgebungen hinweg. Benutzer können Inferenz durchführen, indem sie latente Variablen und Syntheseparameter anpassen, um Prosodie, emotionale Betonung und stilistische Qualitäten der generierten Audioausgabe zu modifizieren. Die Anwendung basiert auf Deep-Learning-Techniken, um akustische Repräsentationen in High-Fidelity-Wellenformen zu transformieren.
Transforms raw audio waveforms into mel-spectrograms for analysis by neural networks.
Dieses Projekt ist ein umfassendes Toolkit für On-Device-Spracherkennung, -Synthese und Audioverarbeitung, das speziell für Apple Silicon entwickelt wurde. Es bietet ein Framework für den Aufbau von Echtzeit-Voice-Agents mit Vollduplex-Funktionalität, die vollständig offline arbeiten und native Hardwarebeschleunigung nutzen, um Performance und Datenschutz zu wahren. Durch den Einsatz optimierter Machine-Learning-Modelle ermöglicht die Bibliothek die lokale Ausführung komplexer Audioaufgaben ohne Abhängigkeit von externen Cloud-Diensten. Die Bibliothek zeichnet sich durch ihren spezialisierten Fokus auf lokale, hochperformante Sprachinteraktion aus. Sie enthält eine ausgefeilte Orchestrierung für Streaming-Audio-Pipelines, die Echtzeit-Transkription, Sprachsynthese und Voice-Cloning mit geringer Latenz ermöglicht. Das System ist für die Handhabung kontinuierlicher, interaktiver Konversationen konzipiert und verfügt über integrierte Mechanismen zur Vermeidung von Audio-Feedback-Schleifen und zur Verwaltung persistenter Streaming-Sitzungen. Über die Kerninteraktion hinaus bietet das Projekt eine breite Palette an Audio-Enhancement- und Management-Funktionen. Es unterstützt fortgeschrittene Signalverarbeitung, einschließlich Quellentrennung, Rauschunterdrückung und Audio-Upsampling, neben Tools für Sprecher-Diarisierung und Embedding-Extraktion. Das Framework bietet zudem umfangreiche Modellmanagement-Utilities, wie z. B. Quantisierungskontrollen, Speicherverwaltung und Unterstützung für das Laden benutzerdefinierter Modellgewichte, um sicherzustellen, dass Entwickler Verarbeitungsgeschwindigkeit und Ressourcenverbrauch auf lokaler Hardware ausbalancieren können. Das Projekt enthält eine CLI für die Ausführung von Audioaufgaben und die Konvertierung von Modellgewichten in optimierte Formate. Es stellt zudem HTTP- und WebSocket-Endpunkte bereit, um die Integration mit Standard-Industrieschnittstellen zu erleichtern.
Transforms audio waveforms into mel-spectrograms for analysis by neural networks.