8 repositorios
Techniques for transforming audio waveforms into mel-spectrograms for analysis by neural networks.
Distinct from Audio Processing: Focuses specifically on the mel-frequency scaling transformation for CNN input, not general audio synthesis or transformation
Explore 8 awesome GitHub repositories matching artificial intelligence & ml · Mel-Spectrogram Processing. Refine with filters or upvote what's useful.
This project is a collection of deep learning tools for image classification and audio tagging, providing a repository of pre-trained model weights and architectures. It serves as a Keras model zoo that enables the immediate use of established neural networks for inference and transfer learning. The library includes a music tagging framework that classifies audio recordings using convolutional recurrent neural networks and mel-spectrograms. For visual data, it provides implementations of architectures such as ResNet, VGG, and Xception, alongside a repository of weights trained on large datase
Transforms raw audio waveforms into mel-spectrograms before passing them into convolutional neural networks.
Parler-TTS is a library for generating high-quality speech from text, supporting both inference and model training. It combines a transformer-based text-to-speech generator with a mel-spectrogram decoder to convert written text into natural-sounding audio. The project distinguishes itself through text-conditioned voice control, which allows speaker attributes like gender, pitch, speaking rate, and style to be adjusted via a natural-language description. It also includes speaker embedding selection for maintaining voice identity across multiple generations, and a fine-tuning recipe system that
Ships a neural mel-spectrogram decoder that converts transformer outputs into time-frequency audio representations.
Este proyecto es un framework de texto a voz neuronal y modelo de PyTorch diseñado para sintetizar voz humana. Convierte texto escrito en audio sintético prediciendo espectrogramas de mel, que sirven como una representación intermedia para la generación de voz. El sistema incluye un modelo de acondicionamiento para WaveNet para asegurar una salida de audio de sonido natural. Proporciona un framework de entrenamiento distribuido que utiliza procesamiento multi-GPU y precisión mixta automática para optimizar la velocidad de entrenamiento y reducir el uso de memoria. El proyecto cubre todo el pipeline de síntesis de voz neuronal, desde el entrenamiento del modelo utilizando conjuntos de datos de texto y audio hasta la generación de voces artificiales. Emplea un codificador-decodificador convolucional y atención de secuencia a secuencia para mapear características lingüísticas a marcos acústicos.
Uses mel spectrograms as a frequency-domain intermediate representation between the encoder and the vocoder.
DiffSinger es un sintetizador vocal de IA y generador de audio neuronal diseñado para producir canto y habla de alta fidelidad. Funciona como un sistema de texto a voz y una herramienta de síntesis de voz cantada basada en difusión que transforma texto y tono en audio audible. El sistema utiliza un mecanismo de difusión superficial y refinamiento iterativo de ruido para generar interpretaciones vocales realistas. Incorpora plugins de muestreo especializados y solucionadores numéricos para acelerar la inferencia y reducir el tiempo requerido para generar voces sintéticas. El proyecto cubre el modelado acústico, la síntesis de mel-espectrogramas y la reconstrucción de vocoder neuronal para convertir texto en formas de onda de audio en el dominio del tiempo. También incluye capacidades para la mejora vocal sintética para mejorar la calidad sónica de las grabaciones.
Produces mel-spectrograms as the intermediate time-frequency representation between text input and audio waveforms.
TensorFlowTTS is a neural speech synthesis framework used to convert text into high-fidelity audio waveforms. It provides a toolkit for training and fine-tuning sequence-to-sequence or generative adversarial network architectures to produce natural sounding speech. The system includes neural vocoder implementations that transform intermediate acoustic representations into final audio waveforms. It also features playback speed control to adjust the rate of synthesized speech output. The framework covers the end-to-end pipeline for speech synthesis, including audio data preprocessing to create
Converts raw audio into mel-spectrograms with logarithmic scaling to standardize input for neural networks.
Vocal Remover es una aplicación de deep learning diseñada para la separación de fuentes de audio. Funciona como una utilidad de línea de comandos que descompone señales de audio complejas en componentes individuales, aislando específicamente voces y pistas instrumentales de grabaciones mezcladas. El software utiliza una arquitectura de red neuronal codificador-decodificador simétrica para procesar espectrogramas de audio. Al aplicar máscaras de magnitud aprendidas a la fase de la señal original, el sistema reconstruye el audio de salida mientras mantiene la coherencia temporal. Admite tanto la ejecución de modelos preentrenados para la extracción de pistas como el entrenamiento de modelos personalizados en conjuntos de datos específicos para refinar la precisión del aislamiento. La herramienta cubre una gama de flujos de trabajo de postproducción de audio y producción musical, incluyendo la creación de pistas de acompañamiento y la extracción de stems para remezclas. Aprovecha la aceleración de hardware para manejar la multiplicación de matrices requerida para el procesamiento de señales de alta fidelidad. El proyecto se distribuye como una interfaz de línea de comandos para ejecución local y desarrollo de modelos.
Converts time-domain audio waveforms into frequency-domain representations to allow neural networks to perform precise spatial filtering on audio data.
Esta aplicación es una plataforma para la síntesis de voz por IA y la clonación de voz neuronal. Proporciona un kit de herramientas integral para convertir texto en voz humana con sonido natural aplicando modelos de redes neuronales entrenados a medida a muestras de audio específicas. El sistema facilita todo el ciclo de vida del desarrollo de modelos de voz, incluyendo la preparación de audiolibros y transcripciones de video en conjuntos de datos de entrenamiento estructurados. Admite el entrenamiento de estos modelos en hardware local o remoto, utilizando procesamiento distribuido multi-GPU para manejar datos a gran escala y acelerar la convergencia del modelo. Más allá del entrenamiento, la plataforma incluye capacidades para gestionar y portar conjuntos de datos de voz a través de diferentes entornos de almacenamiento. Los usuarios pueden realizar inferencias ajustando variables latentes y parámetros de síntesis para modificar la prosodia, la inflexión emocional y las cualidades estilísticas de la salida de audio generada. La aplicación se basa en técnicas de deep learning para transformar representaciones acústicas en formas de onda de alta fidelidad.
Transforms raw audio waveforms into mel-spectrograms for analysis by neural networks.
Este proyecto es un toolkit integral para el reconocimiento de voz, síntesis y procesamiento de audio en el dispositivo, diseñado específicamente para Apple Silicon. Proporciona un framework para construir agentes de voz full-duplex en tiempo real que operan completamente offline, aprovechando la aceleración de hardware nativa para mantener el rendimiento y la privacidad. Al utilizar modelos de machine learning optimizados, la biblioteca permite la ejecución local de tareas de audio complejas sin depender de servicios externos en la nube. La biblioteca se distingue por su enfoque especializado en la interacción de voz local de alto rendimiento. Incluye una orquestación sofisticada para pipelines de audio en streaming, permitiendo la transcripción en tiempo real, síntesis de voz y clonación de voz con baja latencia. El sistema está diseñado para manejar conversaciones interactivas continuas, presentando mecanismos integrados para evitar bucles de retroalimentación de audio y gestionar sesiones de streaming persistentes. Más allá de la interacción central, el proyecto ofrece un amplio conjunto de capacidades de mejora y gestión de audio. Admite procesamiento de señales avanzado, incluyendo separación de fuentes, reducción de ruido y sobremuestreo de audio, junto con herramientas para diarización de hablantes y extracción de embeddings. El framework también proporciona amplias utilidades de gestión de modelos, como controles de cuantización, gestión de memoria y soporte para la carga de pesos de modelos personalizados, asegurando que los desarrolladores puedan equilibrar la velocidad de procesamiento y el consumo de recursos en hardware local. El proyecto incluye una interfaz de línea de comandos para ejecutar tareas de audio y convertir pesos de modelos en formatos optimizados. También expone endpoints HTTP y WebSocket para facilitar la integración con interfaces estándar de la industria.
Transforms audio waveforms into mel-spectrograms for analysis by neural networks.