# jaywalnut310/vits

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/jaywalnut310-vits).**

7,862 stars · 1,386 forks · Python · MIT

## Links

- GitHub: https://github.com/jaywalnut310/vits
- Homepage: https://jaywalnut310.github.io/vits-demo/index.html
- awesome-repositories: https://awesome-repositories.com/repository/jaywalnut310-vits.md

## Topics

`deep-learning` `pytorch` `speech-synthesis` `text-to-speech` `tts`

## Description

This project is an end-to-end text-to-speech engine and deep learning voice synthesizer. It functions as a neural speech synthesis framework that converts written text directly into audio waveforms using a single neural network.

The system implements an adversarial framework and a conditional variational autoencoder to generate high-fidelity artificial speech. It utilizes a generative adversarial network to ensure synthesized audio is indistinguishable from real human speech.

The toolkit provides capabilities for neural speech synthesis, text-to-audio generation, and the training of custom voice models using specific voice datasets.

## Tags

### Graphics & Multimedia

- [Text-to-Speech Engines](https://awesome-repositories.com/f/graphics-multimedia/media-processing-analysis/audio-processing-systems/audio-processing/text-to-speech-engines.md) — Provides a full text-to-speech engine that converts written text into natural-sounding human speech. ([source](https://cdn.jsdelivr.net/gh/jaywalnut310/vits@main/README.md))
- [Monotonic Alignment Searches](https://awesome-repositories.com/f/graphics-multimedia/image-editing-processing/image-processing/frame-extractors/temporal-frame-alignment/audio-temporal-alignment/monotonic-alignment-searches.md) — Automatically learns the alignment and duration between text characters and audio frames without external tools.

### Artificial Intelligence & ML

- [Deep Learning Audio Libraries](https://awesome-repositories.com/f/artificial-intelligence-ml/deep-learning-audio-libraries.md) — Functions as a deep learning audio library for training high-fidelity speech models from text and audio.
- [End-to-End Speech Synthesis](https://awesome-repositories.com/f/artificial-intelligence-ml/end-to-end-speech-synthesis.md) — Integrates text analysis, acoustic modeling, and waveform generation into a single differentiable neural pipeline.
- [Text-to-Speech Model Training](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/infrastructure/model-training-and-tuning/training-frameworks/model-training-frameworks/text-to-speech-model-training.md) — Provides the capabilities to train generative speech models using audio-text datasets. ([source](https://cdn.jsdelivr.net/gh/jaywalnut310/vits@main/README.md))
- [Voice Synthesizer Training](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/speech-processing/voice-synthesis/modular-voice-configurations/voice-synthesizer-training.md) — Supports training voice synthesizers to mimic specific vocal characteristics and linguistic patterns.
- [Speech Synthesis Models](https://awesome-repositories.com/f/artificial-intelligence-ml/speech-synthesis-models.md) — Utilizes generative neural network architectures to produce high-quality, fluid artificial speech.
- [Waveform Decoders](https://awesome-repositories.com/f/artificial-intelligence-ml/audio-tokenization/waveform-decoders.md) — Uses a convolutional waveform decoder to transform latent representations into high-fidelity raw audio samples.
- [TTS Adversarial Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/generative-adversarial-networks/generative-adversarial-active-learning/tts-adversarial-frameworks.md) — Uses an adversarial framework to improve the audio quality and realism of synthesized speech.
- [Variational Autoencoders](https://awesome-repositories.com/f/artificial-intelligence-ml/model-training/variational-autoencoders.md) — Implements a conditional variational autoencoder to map text sequences to a latent space for natural speech variation.
- [Conditional VAE Speech Models](https://awesome-repositories.com/f/artificial-intelligence-ml/model-training/variational-autoencoders/vector-quantized-vaes/conditional-vae-speech-models.md) — Employs a conditional variational autoencoder to generate natural-sounding human voices.
- [Generative Adversarial Networks](https://awesome-repositories.com/f/artificial-intelligence-ml/neural-network-implementations/generative-adversarial-networks.md) — Employs a generative adversarial network with a discriminator to ensure synthesized audio is indistinguishable from human speech.
- [Prosodic Duration Predictors](https://awesome-repositories.com/f/artificial-intelligence-ml/prosodic-duration-predictors.md) — Includes a stochastic duration predictor to model the natural variability of speech timing by sampling from a distribution.
- [Text-to-Audio Synthesis](https://awesome-repositories.com/f/artificial-intelligence-ml/text-to-audio-synthesis.md) — Automates the generation of audio files from text scripts using neural synthesis.