# nvidia-nemo/nemo

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/nvidia-nemo-nemo).**

17,389 stars · 3,437 forks · Python · Apache-2.0

## Links

- GitHub: https://github.com/NVIDIA-NeMo/NeMo
- Homepage: https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html
- awesome-repositories: https://awesome-repositories.com/repository/nvidia-nemo-nemo.md

## Topics

`asr` `deeplearning` `generative-ai` `machine-translation` `neural-networks` `speaker-diariazation` `speaker-recognition` `speech-synthesis` `speech-translation` `tts`

## Description

NeMo is a comprehensive framework designed for the development, training, and deployment of large-scale conversational and generative artificial intelligence models. It provides an integrated platform for building multimodal systems, encompassing speech processing, language modeling, and reinforcement learning alignment. The framework is built to handle the entire lifecycle of AI development, from data curation and model pretraining to production-ready service deployment.

The platform distinguishes itself through advanced distributed training capabilities, including tensor and pipeline parallelism, which allow for the execution of models that exceed the memory capacity of individual hardware devices. It incorporates specialized architectures such as mixture-of-experts to optimize computational efficiency and includes a programmable guardrails system to enforce safety policies and topical boundaries on model outputs. Additionally, the framework supports retrieval-augmented generation to ground model responses in external knowledge bases, reducing hallucinations and improving factual accuracy.

Beyond core training and inference, the framework offers extensive tools for audio signal processing, speech-to-text transcription, and text-to-speech

## Tags

### Artificial Intelligence & ML

- [Conversational AI Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/conversational-ai-frameworks.md) — Provides a comprehensive toolkit for building, training, and deploying large-scale speech, audio, and language models.
- [Large-Scale Model Training](https://awesome-repositories.com/f/artificial-intelligence-ml/large-scale-model-training.md) — Provides distributed training capabilities including tensor and pipeline parallelism to train large-scale generative models exceeding single-device memory. ([source](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/))
- [Large Language Model Training Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/infrastructure/model-training-and-tuning/training-frameworks/large-language-model-training-frameworks.md) — Executes large-scale pretraining and fine-tuning of generative models using distributed parallelism for high performance.
- [Speech Transcription](https://awesome-repositories.com/f/artificial-intelligence-ml/speech-transcription.md) — Converts spoken audio into accurate written text with support for streaming and precise timestamp generation.
- [Retrieval Augmented Generation](https://awesome-repositories.com/f/artificial-intelligence-ml/language-model-orchestration/retrieval-augmented-generation.md) — Connects large language models to enterprise knowledge bases to ground AI responses in factual data.
- [Retrieval Augmented Generation Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/retrieval-augmented-generation-pipelines.md) — Connects generative models to external vector databases to ground responses in factual data and reduce hallucinations.
- [Safety and Alignment Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/safety-and-alignment-frameworks.md) — Implements programmable guardrails to enforce safety policies and topical boundaries on model outputs. ([source](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/))
- [Speech-to-Text Services](https://awesome-repositories.com/f/artificial-intelligence-ml/speech-to-text-services.md) — Converts spoken language into written text with support for multiple languages, streaming input, and precise timestamps. ([source](https://docs.nvidia.com/nemo/speech/nightly/))
- [Text-to-Speech](https://awesome-repositories.com/f/artificial-intelligence-ml/text-to-speech.md) — Generates natural-sounding human speech from text input with support for distinct speaker voices and adjustable prosody. ([source](https://docs.nvidia.com/nemo/speech/nightly/))
- [AI Guardrails](https://awesome-repositories.com/f/artificial-intelligence-ml/ai-guardrails.md) — Applies programmable controls to model outputs to ensure policy compliance and maintain safety in automated systems.
- [Mixture of Experts](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/infrastructure/model-training-and-tuning/fine-tuning-and-customization/model-customization/mixture-of-experts.md) — Routes input data through specialized sub-networks to increase model capacity while maintaining constant computational cost.
- [Multimodal Models](https://awesome-repositories.com/f/artificial-intelligence-ml/multimodal-models.md) — Enables construction of audio-aware multimodal models using mixture-of-experts architectures and efficient parallelism. ([source](https://docs.nvidia.com/nemo/speech/nightly/))
- [Pipeline Parallelism Partitioners](https://awesome-repositories.com/f/artificial-intelligence-ml/pipeline-parallelism-partitioners.md) — Partitions deep neural network layers across sequential hardware stages to enable training of models exceeding individual device memory.
- [Reinforcement Learning Alignment](https://awesome-repositories.com/f/artificial-intelligence-ml/reinforcement-learning-alignment.md) — Refines model behavior using reinforcement learning and post-training techniques to improve output quality and safety. ([source](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/))
- [Tensor Parallelism](https://awesome-repositories.com/f/artificial-intelligence-ml/tensor-parallelism.md) — Partitions neural network layers across multiple compute nodes to maximize memory efficiency and throughput during training.
- [Audio Processing](https://awesome-repositories.com/f/artificial-intelligence-ml/audio-processing.md) — Provides extensive tools for audio signal processing, including enhancement, restoration, and separation. ([source](https://docs.nvidia.com/nemo/speech/nightly/))
- [Distributed Training Orchestration](https://awesome-repositories.com/f/artificial-intelligence-ml/distributed-training-orchestration.md) — Manages and automates the deployment of complex training and evaluation workloads across compute clusters.
- [Output Guardrails](https://awesome-repositories.com/f/artificial-intelligence-ml/output-guardrails.md) — Intercepts and validates model responses against safety policies and topical constraints before delivery to users.
- [Model Evaluation Tools](https://awesome-repositories.com/f/artificial-intelligence-ml/model-evaluation-tools.md) — Evaluates model effectiveness using automated testing harnesses to track accuracy and performance in real-world scenarios. ([source](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/))
- [Speaker Diarization](https://awesome-repositories.com/f/artificial-intelligence-ml/speaker-diarization.md) — Determines speaker identity and segments audio recordings to track participants in multi-speaker conversations. ([source](https://docs.nvidia.com/nemo/speech/nightly/))
- [Speech Datasets](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/speech-processing/speech-datasets.md) — Includes tools for forced alignment to segment audio and prepare high-quality datasets for speech recognition. ([source](https://docs.nvidia.com/nemo/speech/nightly/))

### Graphics & Multimedia

- [Automatic Speech Recognition Toolkits](https://awesome-repositories.com/f/graphics-multimedia/media-processing-analysis/media-manipulation/media-processing-workflows/audio-analysis-synthesis/automatic-speech-recognition-toolkits.md) — Provides models and pipelines for converting audio to text, generating natural speech, and performing signal processing.
- [Forced Alignment](https://awesome-repositories.com/f/graphics-multimedia/media-processing-analysis/media-manipulation/media-processing-workflows/audio-analysis-synthesis/forced-alignment.md) — Synchronizes audio signals with text transcripts to generate high-quality labeled datasets for speech recognition training.

### Part of an Awesome List

- [Development Frameworks and Tools](https://awesome-repositories.com/f/awesome-lists/ai/development-frameworks-and-tools.md) — Scalable generative AI framework from NVIDIA for LLMs, Multimodal, and Speech AI.

### DevOps & Infrastructure

- [Containerized Service Deployments](https://awesome-repositories.com/f/devops-infrastructure/containerized-service-deployments.md) — Packages and serves models as containerized microservices to ensure high performance and reliability in production. ([source](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/))
- [Containerized Deployments](https://awesome-repositories.com/f/devops-infrastructure/containerized-deployments.md) — Packages models into isolated container environments to ensure consistent performance and scalability across diverse infrastructure.

### Data & Databases

- [Data Processing Pipelines](https://awesome-repositories.com/f/data-databases/data-processing-pipelines.md) — Curates, cleans, and indexes complex audio, image, and text datasets for high-performance machine learning tasks.
- [Training Data Pipelines](https://awesome-repositories.com/f/data-databases/data-processing-pipelines/data-processing/ml-data-pipelines/training-data-pipelines.md) — Cleans and filters large-scale multimodal datasets using accelerated workflows to ensure high-quality training inputs. ([source](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/))