19 dépôts
Algorithms for maintaining persistent identity and spatial coordinates of objects across video frames.
Distinguishing note: Focuses on state-based tracking for behavioral analysis.
Explore 19 awesome GitHub repositories matching artificial intelligence & ml · Object Tracking. Refine with filters or upvote what's useful.
Ultralytics is a comprehensive computer vision framework designed for training, validating, and deploying deep learning models across a wide range of visual recognition tasks. It provides a unified interface for core operations including object detection, instance segmentation, pose estimation, and image classification. By utilizing a modular architecture, the platform allows users to swap model components to balance inference speed and accuracy requirements for diverse applications. The framework distinguishes itself through its support for real-time processing and flexible deployment. It in
Adjusts confidence thresholds and matching logic through configuration files to define specific tracking behaviors.
Supervision is a computer vision toolset for normalizing model outputs, managing datasets, and visualizing annotations. It provides a framework to convert predictions from various classification and detection models into a standardized data format to ensure interoperability across different computer vision pipelines. The library features a post-processor for filtering, counting, and tracking detected objects across image frames and video streams. It includes capabilities for large image tiling to improve the detection of small objects and tools for assigning persistent identities to objects t
Assigns persistent identifiers to detected objects across video frames to maintain identity over time.
Frigate is a self-hosted network video recorder that functions as a private, local AI-powered vision engine. It manages video streams by performing real-time object detection, tracking, and classification directly on local hardware, ensuring that security monitoring and activity recording remain independent of cloud services. The system distinguishes itself through a modular, hardware-accelerated video pipeline that offloads intensive decoding and machine learning inference to dedicated GPUs, NPUs, or specialized accelerators like Coral TPUs and Hailo modules. It utilizes state-based object t
Maintains persistent identity and spatial coordinates for detected objects across consecutive frames to enable behavioral analysis and loitering detection.
PaddleDetection is an object detection framework designed for the end-to-end development, training, and deployment of computer vision models. It provides a comprehensive library of modular neural network architectures and pipelines that support object detection, instance segmentation, and multi-object tracking tasks. The project distinguishes itself through a configuration-driven approach that decouples model components like backbones and heads, allowing for the flexible assembly of custom vision workflows. It incorporates advanced techniques such as anchor-free detection logic, joint detecti
Adjusts model settings to recognize and track custom object classes by updating class counts and label mappings.
This is a real-time object detection framework built on the YOLOv3 architecture, implemented in PyTorch. It provides a complete pipeline for identifying and localizing objects in images and video using a single neural network pass, combining a Darknet-53 backbone with multi-scale feature pyramids and anchor-based bounding box prediction. The framework extends beyond basic detection to include instance segmentation, human pose estimation, and multi-object tracking across video frames. It offers a model export toolkit that converts trained models through ONNX to CoreML, TensorFlow Lite, and Ten
Assigns a persistent ID to each detected object and follows its movement through a video sequence.
tracking.js is a browser computer vision library written in JavaScript for performing real-time image analysis and object tracking directly within a web browser. It functions as a real-time object tracker, a color tracking tool, and a face detection utility. The library enables the detection and monitoring of specific color ranges, human faces, and known visual patterns across consecutive video frames. It extracts visual features and descriptors from images to identify distinct landmarks for matching and tracking. The project covers broad computer vision capabilities, including the ability t
Maintains persistent identity and spatial coordinates of objects across consecutive video frames.
Boxmot is a multi-object tracking framework designed to follow multiple objects across video frames using motion and appearance algorithms to maintain consistent identities. It functions as a system for tracking objects with specific orientations using rotated bounding boxes and corresponding intersection-over-union computations. The project includes a re-identification model optimizer that converts neural networks into formats for hardware-accelerated execution. It also features an evolutionary hyperparameter tuner that iteratively mutates tracker settings to maximize accuracy for specific d
Implements tracking for objects with specific orientations using rotated bounding boxes to improve accuracy for angled items.
This project is a comprehensive collection of educational examples and reference implementations for building vision and language models using PyTorch. It serves as a deep learning tutorial covering the end-to-end process of developing neural networks, from initial architecture definition to final production deployment. The repository provides detailed guides on implementing a wide range of domain-specific models, including convolutional neural networks for object detection and segmentation, as well as transformer and recurrent architectures for natural language processing. It emphasizes gene
Analyzes the movement and flow statistics of identified objects across sequences of video frames.
ccv is a computer vision library written in C designed for high-performance visual analysis. It serves as a framework for image classification, object detection, and the identification of faces, pedestrians, and vehicles. The library distinguishes itself through hardware-accelerated vision and deep learning inference optimizations. It utilizes a quantized tensor processor to transform floating-point data into eight-bit integers and implements integer-quantized attention mechanisms to reduce memory bandwidth and increase data throughput. The project covers a broad range of capabilities, inclu
Maintains the identity and position of specific objects across sequential video frames over long-term periods.
clmtrackr is a JavaScript computer vision library designed for facial landmark detection and real-time tracking. It implements Constrained Local Models to identify specific coordinate points on a human face within video feeds or static images. The project functions as a real-time face warping engine and expression analysis tool. It can distort facial images via parametric models to create caricatures or identify and label emotional states such as happiness, sadness, anger, and surprise based on feature coordinates. The library covers a broad range of capabilities including automatic and manu
Configures response calculation methods using grayscale, gradients, or binary patterns to balance processing speed and accuracy.
ByteTrack is a multi-object tracking framework that implements the ByteTrack algorithm, an ECCV 2022 method designed to recover occluded objects and reduce trajectory fragmentation. The core innovation of the project is its association algorithm, which processes every detection box—including low-confidence ones—by using separate high and low score thresholds, Kalman filter motion prediction, and Hungarian algorithm matching to produce consistent object identities across video frames. The project distinguishes itself by its comprehensive approach to handling occlusions and fragmented trajector
Employs Kalman filter linear motion models to predict object positions between video frames.
This is an open-source autonomous driving perception pipeline that processes camera and lidar sensor data to detect, track, and fuse objects in real-world driving environments. The project integrates an end-to-end perception workflow combining sensor calibration, deep learning object detection, Kalman filter tracking, and sensor fusion for robust scene understanding. The pipeline includes camera calibration tools to remove lens distortion from raw images, deep learning model training for object classification and detection, and multi-object tracking using Kalman filters with data association
Maintains and updates tracks for multiple objects using Kalman filters and data association techniques.
DeepSORT est un framework de suivi multi-objets en temps réel conçu pour maintenir des identités cohérentes de plusieurs objets à travers les frames vidéo. Il intègre des caractéristiques d'apparence de deep learning avec des descripteurs de mouvement pour suivre les objets à travers une séquence de données vidéo. Le système utilise un réseau de neurones convolutif profond pour générer des descripteurs visuels de haute dimension pour la ré-identification de personnes. Ces caractéristiques d'apparence sont combinées avec l'estimation de mouvement via le filtrage de Kalman et résolues en utilisant l'algorithme hongrois pour associer de manière optimale les détections aux pistes existantes. Le framework inclut des capacités pour le filtrage d'association basé sur le gating et la gestion de pistes basée sur l'état pour gérer les cycles de vie des objets. Il fournit également des outils pour rendre les résultats de suivi sur les frames vidéo et évaluer les performances de suivi par rapport à des benchmarks établis.
Employs Kalman filters to predict future object positions based on velocity and bounding box coordinates.
Navigation2 est un framework de navigation ROS 2 pour les robots mobiles autonomes. Il fournit l'identité centrale d'un planificateur de trajectoire, d'un système de gestion de costmap, d'un contrôleur de mouvement cinématique et d'un orchestrateur d'arbres de comportement pour calculer des itinéraires sans collision et exécuter des commandes de mouvement. Le framework se distingue par son utilisation d'arbres de comportement pour coordonner des serveurs de tâches modulaires, permettant des routines de navigation complexes et des actions de récupération autonomes. Il prend en charge une architecture basée sur des plugins qui permet aux planificateurs et aux contrôleurs d'être échangés à l'exécution pour s'adapter à différents environnements. Le système couvre un large éventail de capacités, y compris la planification de trajectoire globale et locale, le SLAM 2D et la localisation basée sur carte, et la modélisation environnementale via des costmaps basées sur une grille. Il gère le contrôle de mouvement pour diverses cinématiques de transmission et intègre des systèmes de sécurité pour la surveillance des collisions et la prévention des urgences. Les fonctionnalités d'orchestration supplémentaires incluent le séquençage de points de passage multi-destinations, le suivi de cible dynamique et les procédures d'amarrage automatisées. Le framework utilise des composants à cycle de vie géré pour coordonner le démarrage, l'arrêt et la surveillance de la santé de ses serveurs opérationnels.
Tracks a moving target via detection topics to maintain a specified distance.
Ce projet est un framework de suivi multi-objets conçu pour assigner des identités persistantes aux boîtes englobantes détectées à travers des images vidéo consécutives. Il fonctionne comme un algorithme de suivi par vision par ordinateur qui surveille plusieurs cibles en mouvement en temps réel en associant les détections à des étiquettes cohérentes. Le système utilise une approche d'estimation d'état centrée sur un filtre de Kalman pour prédire les positions futures des objets et maintenir l'identité pendant les lacunes de détection. Il emploie l'algorithme hongrois pour une association de données optimale et calcule l'intersection sur l'union pour faire correspondre les emplacements de suivi prédits avec les détections réelles. Le pipeline de traitement gère un registre de suivis actifs en utilisant un modèle de vitesse constante linéaire pour simplifier les transitions d'état. Il effectue un traitement récursif image par image pour mettre à jour l'état de tous les objets suivis au fur et à mesure que de nouvelles images sont analysées.
Employs a Kalman filter to predict future object positions and maintain tracking continuity.
FairMOT est un framework de suivi multi-objets et un modèle de deep learning conçu pour identifier et suivre plusieurs entités à travers des images vidéo. Il implémente un pipeline unifié qui intègre la détection d'objets et la ré-identification d'identité dans un réseau conjoint à étape unique. Le système utilise une méthode de détection sans ancres pour prédire les centres des objets et les dimensions des boîtes englobantes. Il maintient la cohérence de l'identité à travers les images consécutives en générant des vecteurs d'embedding de haute dimension pour la ré-identification et en employant un filtre de Kalman pour la prédiction de l'état de mouvement. Le framework couvre un large éventail de capacités en vision par ordinateur, incluant la détection d'objets en temps réel et l'utilisation de l'algorithme hongrois pour l'assignation des trajectoires. Il inclut également des utilitaires pour entraîner des modèles sur des jeux de données d'images personnalisés et générer des visualisations vidéo avec des boîtes englobantes superposées et des identifiants persistants.
Uses a Kalman filter to model motion state and predict future object locations during occlusions.
This project is a multi-object tracking library and computer vision toolkit designed to maintain consistent identity IDs for objects across video frames. It provides a motion-based object tracking system that converts raw detections into stable temporal tracks, enabling the analysis of object movement and behavior over time. The toolkit distinguishes itself through advanced identity maintenance, utilizing Kalman filters for linear motion tracking and sparse optical flow for camera motion estimation. It features multi-stage object association to recover occluded objects and non-linear motion t
Maintains consistent identity IDs for objects across video frames using advanced motion-based tracking algorithms.
This project is a computer vision system designed for real-time facial recognition and identity tracking using live camera feeds. It provides a framework for capturing, registering, and identifying multiple individuals simultaneously by comparing live video input against a local database of pre-registered facial descriptors. The system distinguishes itself through a performance-oriented processing pipeline that balances computational load during live analysis. By combining deep neural network feature extraction with centroid-based object tracking, the software maintains consistent identity la
Maintains persistent identity and spatial coordinates of faces across video frames using centroid movement.
Ce projet est un pipeline de vision par ordinateur qui intègre la détection et le suivi d'objets pour surveiller des objets en mouvement au sein de flux vidéo. Il fonctionne comme un outil d'analyse de bout en bout qui traite les images vidéo pour identifier, classifier et maintenir l'identité unique des objets à mesure qu'ils se déplacent dans une scène. Le système utilise une combinaison d'inférence de deep learning pour la détection et d'estimation de mouvement pour assurer la continuité temporelle. En associant des descripteurs d'apparence visuelle à une modélisation prédictive du mouvement, il maintient les identités des objets même pendant des occlusions temporaires ou lorsque le chevauchement spatial est insuffisant. Le framework emploie un traitement séquentiel pour synchroniser les résultats de détection avec la logique de suivi, permettant une surveillance cohérente des patterns de mouvement. Au-delà du suivi de base, le logiciel inclut des capacités pour quantifier l'activité au sein d'un flux vidéo. Il prend en charge le calcul des totaux d'objets ou de véhicules à mesure qu'ils franchissent des lignes désignées ou entrent dans des zones spécifiques. L'implémentation est structurée comme un framework de développement pour construire des applications de vision personnalisées qui interprètent et extraient des données d'environnements dynamiques.
Predicts future object positions using Kalman filters to maintain tracking during temporary occlusions.