# facebookresearch/sam2

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/facebookresearch-sam2).**

18,518 stars · 2,348 forks · Jupyter Notebook · apache-2.0

## Links

- GitHub: https://github.com/facebookresearch/sam2
- awesome-repositories: https://awesome-repositories.com/repository/facebookresearch-sam2.md

## Description

This project is a foundation model and research toolkit designed for promptable object segmentation and temporal tracking. It provides a unified framework for isolating specific regions or objects within both static images and dynamic video sequences.

The system distinguishes itself through a streaming memory architecture that maintains temporal consistency by storing and retrieving object features across frames. This mechanism allows the model to resolve occlusions and preserve object identity even when targets move out of view or change appearance. By utilizing a shared backbone for both image and video inputs, the model ensures consistent performance across diverse visual data types.

The toolkit supports a broad range of computer vision tasks, including the generation of precise visual boundaries through user-provided spatial prompts and the refinement of models on specialized datasets. It is structured to facilitate custom training and analysis, enabling the extraction of objects from visual streams for further processing.

## Tags

### Artificial Intelligence & ML

- [Foundation Models](https://awesome-repositories.com/f/artificial-intelligence-ml/foundation-models.md) — Acts as a foundation model for promptable object segmentation and temporal tracking across static images and video sequences.
- [Object Tracking Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/object-tracking-frameworks.md) — Implements a computer vision system that maintains consistent object masks across video frames using a streaming memory architecture.
- [Video Object Tracking](https://awesome-repositories.com/f/artificial-intelligence-ml/video-object-tracking.md) — Maintains consistent identification of moving subjects throughout a video sequence by propagating segmentation masks across frames. ([source](https://cdn.jsdelivr.net/gh/facebookresearch/sam2@main/README.md))
- [Computer Vision Toolkits](https://awesome-repositories.com/f/artificial-intelligence-ml/computer-vision-toolkits.md) — Provides a research codebase for performing precise visual boundary extraction and object isolation on custom datasets.
- [Memory Bank Architectures](https://awesome-repositories.com/f/artificial-intelligence-ml/memory-bank-architectures.md) — Maintains temporal consistency by storing and retrieving object features across frames to resolve occlusions.
- [Image Segmentation](https://awesome-repositories.com/f/artificial-intelligence-ml/computer-vision-systems/image-segmentation.md) — Isolates specific elements from individual pictures using automated masks or user prompts to create precise visual boundaries. ([source](https://cdn.jsdelivr.net/gh/facebookresearch/sam2@main/README.md))
- [Segmentation Mask Definitions](https://awesome-repositories.com/f/artificial-intelligence-ml/segmentation-building-blocks/segmentation-mask-definitions.md) — Generates segmentation masks by conditioning output on user-provided spatial inputs like points or boxes.
- [Custom Vision Training](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/infrastructure/model-training-and-tuning/computer-vision-and-recognition/custom-vision-training.md) — Adapts pre-trained visual recognition models to specialized datasets by refining parameters for unique objects or environments.
- [Transformer Feature Extractors](https://awesome-repositories.com/f/artificial-intelligence-ml/transformer-feature-extractors.md) — Processes visual data through hierarchical attention layers to generate high-resolution embeddings for precise boundary detection.
- [Unified Backbones](https://awesome-repositories.com/f/artificial-intelligence-ml/backbone-integrations/unified-backbones.md) — Shares a single set of weights across both static and temporal inputs to enable consistent performance on diverse visual data.
- [Model Fine-Tuning and Adaptation](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/model-fine-tuning-adaptation.md) — Provides workflows for refining pre-trained visual recognition models on specialized datasets to improve accuracy. ([source](https://cdn.jsdelivr.net/gh/facebookresearch/sam2@main/README.md))

### Networking & Communication

- [Streaming Architectures](https://awesome-repositories.com/f/networking-communication/communication-protocols-architectures/streaming-architectures.md) — Implements a streaming memory architecture to track subjects across long video sequences by retrieving historical object features.

### Data & Databases

- [Visual Masking Streams](https://awesome-repositories.com/f/data-databases/real-time-data-streaming/visual-masking-streams.md) — Generates interactive segmentation masks for visual data streams to enable immediate object identification in dynamic environments.