# huggingface/pytorch-image-models

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/huggingface-pytorch-image-models).**

36,386 stars · 5,115 forks · Python · apache-2.0

## Links

- GitHub: https://github.com/huggingface/pytorch-image-models
- Homepage: https://huggingface.co/docs/timm
- awesome-repositories: https://awesome-repositories.com/repository/huggingface-pytorch-image-models.md

## Topics

`augmix` `convnext` `distributed-training` `efficientnet` `image-classification` `imagenet` `maxvit` `mixnet` `mobile-deep-learning` `mobilenet-v2` `mobilenetv3` `nfnets` `normalization-free-training` `optimizer` `pretrained-models` `pretrained-weights` `pytorch` `randaugment` `resnet` `vision-transformer-models`

## Description

This project is a comprehensive library of state-of-the-art neural network architectures designed for image classification and feature extraction. It provides a complete deep learning training framework that supports distributed execution, allowing users to build, train, and fine-tune vision models using optimized schedulers and pre-configured training recipes.

The library distinguishes itself through a modular backbone architecture that treats neural networks as decoupled feature extractors, enabling the retrieval of multi-scale outputs for downstream tasks like object detection and segmentation. A centralized registry-based model factory allows for the dynamic instantiation of architectures via string identifiers, while externalized hyperparameter files ensure that training workflows remain reproducible. Users can also exercise granular control over the training process through layer-wise optimization configurations and a flexible hook system for intercepting intermediate tensor states.

The platform includes extensive utilities for managing the entire lifecycle of a vision model, from data loading and augmentation to inference and deployment. It features a dynamic transformation pipeline that automatically resolves preprocessing requirements based on the chosen model architecture, ensuring that input data is correctly aligned for both training and evaluation. Integration with remote model hubs further facilitates the sharing and retrieval of pre-trained weights and configurations.

## Tags

### Artificial Intelligence & ML

- [Computer Vision Models](https://awesome-repositories.com/f/artificial-intelligence-ml/computer-vision-models.md) — A comprehensive library of state-of-the-art neural network architectures for image classification and feature extraction tasks.
- [Computer Vision Training](https://awesome-repositories.com/f/artificial-intelligence-ml/computer-vision-training.md) — Building and training deep learning models for image classification by leveraging distributed training scripts, optimized schedulers, and pre-configured training recipes.
- [Distributed Training Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/distributed-training-frameworks.md) — Distributed training execution runs scripts that support various schedulers, optimizers, and mixed precision to maximize GPU utilization. ([source](https://huggingface.co/docs/timm/training_script))
- [Learning Rate Schedulers](https://awesome-repositories.com/f/artificial-intelligence-ml/learning-rate-schedulers.md) — Cosine learning rate scheduling adjusts the learning rate using a cosine annealing function to gradually improve model convergence. ([source](https://huggingface.co/docs/timm/reference/schedulers))
- [Model Adaptation Tools](https://awesome-repositories.com/f/artificial-intelligence-ml/model-adaptation-tools.md) — Model fine-tuning adapts pre-trained models to custom datasets by replacing the final classifier layer and applying standard training procedures. ([source](https://huggingface.co/docs/timm/quickstart))
- [Modular Backbone Architectures](https://awesome-repositories.com/f/artificial-intelligence-ml/modular-backbone-architectures.md) — "Neural networks are structured as decoupled feature extractors that provide multi-scale outputs for integration into various downstream computer vision tasks."
- [Feature Extraction Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/feature-extraction-pipelines.md) — Hierarchical feature extraction configures backbone networks to output multi-scale feature maps at specified indices for downstream tasks like object detection. ([source](https://huggingface.co/docs/timm/feature_extraction))
- [Model Evaluation Tools](https://awesome-repositories.com/f/artificial-intelligence-ml/model-evaluation-tools.md) — Model validation and inference evaluates model accuracy on datasets or runs inference on images to generate performance metrics and classification results. ([source](https://huggingface.co/docs/timm/training_script))
- [Model Fine-Tuning](https://awesome-repositories.com/f/artificial-intelligence-ml/model-fine-tuning.md) — Adapting existing state-of-the-art vision architectures to custom datasets by replacing classifier heads and applying specialized preprocessing pipelines.
- [Model Registries](https://awesome-repositories.com/f/artificial-intelligence-ml/model-registries.md) — "A centralized lookup system maps string identifiers to model constructors and weight configurations for dynamic instantiation of vision architectures."
- [Training Configuration Systems](https://awesome-repositories.com/f/artificial-intelligence-ml/training-configuration-systems.md) — "Externalized hyperparameter files define complete training workflows including optimizer settings and learning rate schedules to ensure reproducible model performance."
- [Training Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/training-frameworks.md) — A collection of tools and scripts for distributed training, hyperparameter optimization, and learning rate scheduling for neural networks.
- [Layer-Wise Optimization Strategies](https://awesome-repositories.com/f/artificial-intelligence-ml/layer-wise-optimization-strategies.md) — "The system allows granular control over optimizer parameters by applying distinct learning rates and weight decay settings to individual model layers."
- [Model Inference](https://awesome-repositories.com/f/artificial-intelligence-ml/model-inference.md) — Deploying pre-trained computer vision models to generate predictions on new images while ensuring input data matches the original training configuration.
- [Vision Model Loaders](https://awesome-repositories.com/f/artificial-intelligence-ml/vision-model-loaders.md) — Vision model instantiation creates pre-trained computer vision models by name, supporting custom weight loading and input layer modifications. ([source](https://huggingface.co/docs/timm/reference/models))
- [Adaptive Schedulers](https://awesome-repositories.com/f/artificial-intelligence-ml/adaptive-schedulers.md) — Plateau learning rate scheduling reduces the learning rate when monitored metrics stop improving to stabilize the training process. ([source](https://huggingface.co/docs/timm/reference/schedulers))
- [Data Loaders](https://awesome-repositories.com/f/artificial-intelligence-ml/data-loaders.md) — Data loaders manage batching, shuffling, and parallel fetching to ensure efficient data processing during model training and evaluation loops. ([source](https://huggingface.co/docs/timm/reference/data))
- [Embedding Extractors](https://awesome-repositories.com/f/artificial-intelligence-ml/embedding-extractors.md) — Penultimate feature extraction retrieves features from the layer before the final classifier by bypassing pooling layers or modifying model architecture. ([source](https://huggingface.co/docs/timm/feature_extraction))
- [Model Distribution Tools](https://awesome-repositories.com/f/artificial-intelligence-ml/model-distribution-tools.md) — Model sharing uploads trained models and their configurations to remote repositories for storage or collaborative distribution. ([source](https://huggingface.co/docs/timm/hf_hub))
- [Model Hook Interfaces](https://awesome-repositories.com/f/artificial-intelligence-ml/model-hook-interfaces.md) — "A flexible registration mechanism allows users to intercept and extract intermediate tensor states from specific layers during the forward pass."
- [Model Hub Clients](https://awesome-repositories.com/f/artificial-intelligence-ml/model-hub-clients.md) — Remote model retrieval fetches pre-trained models from remote repositories using unique identifiers for inference or further training. ([source](https://huggingface.co/docs/timm/hf_hub))
- [Data Augmentation Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/data-augmentation-pipelines.md) — Data augmentation pipelines define sequences of preprocessing operations to prepare raw input data for model training or inference tasks. ([source](https://huggingface.co/docs/timm/reference/data))
- [Data Preprocessing Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/data-preprocessing-pipelines.md) — "Preprocessing operations are automatically resolved and matched to the specific input requirements of a chosen model architecture at runtime."
- [Feature Extraction](https://awesome-repositories.com/f/artificial-intelligence-ml/feature-extraction.md) — Retrieving hierarchical or intermediate hidden states from vision backbones to support complex tasks like object detection and image segmentation.
- [Feature Extractors](https://awesome-repositories.com/f/artificial-intelligence-ml/feature-extractors.md) — A modular interface for retrieving hierarchical or intermediate representations from vision models for downstream tasks like detection and segmentation.
- [Hidden State Accessors](https://awesome-repositories.com/f/artificial-intelligence-ml/hidden-state-accessors.md) — Intermediate feature extraction retrieves hidden states from specific model layers using flexible indexing to optimize inference performance. ([source](https://huggingface.co/docs/timm/feature_extraction))
- [Optimizer Configurations](https://awesome-repositories.com/f/artificial-intelligence-ml/optimizer-configurations.md) — Optimization algorithm configuration defines learning rates, weight decay, and layer-wise parameters for neural network training. ([source](https://huggingface.co/docs/timm/reference/optimizers))
- [Step-Based Schedulers](https://awesome-repositories.com/f/artificial-intelligence-ml/step-based-schedulers.md) — Multi-step learning rate scheduling adjusts the learning rate at specific milestone epochs by applying a decay factor to refine training progress. ([source](https://huggingface.co/docs/timm/reference/schedulers))
- [Training Recipes](https://awesome-repositories.com/f/artificial-intelligence-ml/training-recipes.md) — Training recipe execution downloads and runs pre-configured hyper-parameter files to replicate established training workflows for various architectures. ([source](https://huggingface.co/docs/timm/hparams))