# facebookresearch/omnilingual-asr

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/facebookresearch-omnilingual-asr).**

2,671 stars · 236 forks · Python · other

## Links

- GitHub: https://github.com/facebookresearch/omnilingual-asr
- awesome-repositories: https://awesome-repositories.com/repository/facebookresearch-omnilingual-asr.md

## Description

Omnilingual-ASR is a multilingual automatic speech recognition framework and toolkit designed to transcribe audio across 1,600 languages. It provides a complete pipeline for converting speech to text, including a toolkit for fine-tuning pre-trained speech models to specific languages or datasets using custom training recipes.

The system supports zero-shot speech recognition, allowing the model to predict text in unseen languages without extensive training data. It further enables few-shot language guidance through in-context examples and uses language codes to constrain transcription output to the correct target language and script.

The framework includes capabilities for high-throughput transcription via parallelized batch processing and a modular audio pipeline that normalizes and resamples diverse input formats. Resource management is handled through a system of asset cards and a command-line interface for retrieving metadata related to models, datasets, and tokenizers.

## Tags

### Artificial Intelligence & ML

- [Multilingual Transcription](https://awesome-repositories.com/f/artificial-intelligence-ml/audio-transcription/multilingual-transcription.md) — Provides a comprehensive framework for transcribing audio across more than 1,600 different languages using pre-trained models. ([source](https://cdn.jsdelivr.net/gh/facebookresearch/omnilingual-asr@main/README.md))
- [Automatic Speech Recognition](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/speech-processing/automatic-speech-recognition.md) — Provides a comprehensive system for transcribing audio across 1,600 languages using pre-trained multilingual models.
- [Speech Model Training](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/infrastructure/model-training-and-tuning/training-frameworks/model-training-frameworks/speech-model-training.md) — Adapts pre-trained speech checkpoints to specific datasets using custom data preparation and training recipes. ([source](https://cdn.jsdelivr.net/gh/facebookresearch/omnilingual-asr@main/README.md))
- [Zero-Shot Recognition](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/speech-processing/speech-datasets/english/speech-to-text-translation/multilingual-speech-to-text/zero-shot-recognition.md) — Enables transcription of spoken audio in unseen languages without requiring specific training data for those tongues. ([source](https://cdn.jsdelivr.net/gh/facebookresearch/omnilingual-asr@main/README.md))
- [Multilingual ASR Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/multilingual-asr-frameworks.md) — A speech recognition system for transcribing audio across 1,600 languages using pre-trained multilingual models.
- [Multilingual Audio Processing](https://awesome-repositories.com/f/artificial-intelligence-ml/multilingual-audio-processing.md) — Manages and processes speech data across thousands of languages with tools for resampling and normalization.
- [Speech-to-Text Modeling Toolkits](https://awesome-repositories.com/f/artificial-intelligence-ml/speech-to-text-modeling-toolkits.md) — Provides a toolkit for adapting pre-trained checkpoints to specific languages or datasets using custom training recipes.
- [Speech Transcription](https://awesome-repositories.com/f/artificial-intelligence-ml/speech-transcription.md) — Converts spoken audio recordings into written text quickly and at scale across various file formats.
- [Transcription Language Configurations](https://awesome-repositories.com/f/artificial-intelligence-ml/transcription-language-configurations.md) — Implements language code constraints to ensure transcription output matches the intended target language and script. ([source](https://github.com/facebookresearch/omnilingual-asr/tree/main/src/omnilingual_asr/models/inference/))
- [Zero-Shot Inference](https://awesome-repositories.com/f/artificial-intelligence-ml/zero-shot-inference.md) — Transcribes spoken audio in new or unseen languages without requiring extensive task-specific training data.
- [Cross-Lingual Transfer](https://awesome-repositories.com/f/artificial-intelligence-ml/zero-shot-inference/zero-shot-identity-synthesis/cross-lingual-transfer.md) — Leverages pre-trained multilingual weights to perform zero-shot recognition on unseen languages.
- [Audio Processing](https://awesome-repositories.com/f/artificial-intelligence-ml/audio-processing.md) — Converts audio from file paths, buffers, or dictionaries by automatically resampling and normalizing data. ([source](https://github.com/facebookresearch/omnilingual-asr/tree/main/src/omnilingual_asr/models/inference/))
- [Batch Transcription](https://awesome-repositories.com/f/artificial-intelligence-ml/audio-processing/batch-transcription.md) — Processes multiple audio segments simultaneously through specialized architectures to increase transcription throughput.
- [High-Throughput Transcription](https://awesome-repositories.com/f/artificial-intelligence-ml/audio-transcription/high-throughput-transcription.md) — Generates transcriptions in parallel using specialized models to maximize the volume of audio processed per second. ([source](https://github.com/facebookresearch/omnilingual-asr/tree/main/src/omnilingual_asr/models/inference/))
- [Few-Shot ASR Adaptation](https://awesome-repositories.com/f/artificial-intelligence-ml/few-shot-learning-frameworks/few-shot-asr-adaptation.md) — Performs inference on unseen languages by providing a small set of audio-transcription pairs as examples. ([source](https://github.com/facebookresearch/omnilingual-asr/tree/main/src/omnilingual_asr/models/inference/))
- [Language-Constrained Inference](https://awesome-repositories.com/f/artificial-intelligence-ml/language-constrained-inference.md) — Uses specific language identifiers to constrain the transcription output to the correct target language and script.

### Part of an Awesome List

- [Pretrained Checkpoint Fine-Tuning](https://awesome-repositories.com/f/awesome-lists/ai/model-training-and-fine-tuning/pretrained-checkpoint-fine-tuning.md) — Enables adapting large pre-trained speech models to specific domain datasets using customized training recipes.
- [Audio-Transcription Exemplars](https://awesome-repositories.com/f/awesome-lists/ai/few-shot-adaptation/example-based-prompting/audio-transcription-exemplars.md) — Directs the model to recognize new languages by providing small sets of audio-transcription pairs during inference.
- [Audio Normalization Pipelines](https://awesome-repositories.com/f/awesome-lists/media/audio-codecs/decoding-and-resampling/decoded-audio-resamplers/audio-normalization-pipelines.md) — Automatically normalizes various audio input formats into a consistent sample rate for model compatibility.