19 repository-uri
Algorithms for maintaining persistent identity and spatial coordinates of objects across video frames.
Distinguishing note: Focuses on state-based tracking for behavioral analysis.
Explore 19 awesome GitHub repositories matching artificial intelligence & ml · Object Tracking. Refine with filters or upvote what's useful.
Ultralytics is a comprehensive computer vision framework designed for training, validating, and deploying deep learning models across a wide range of visual recognition tasks. It provides a unified interface for core operations including object detection, instance segmentation, pose estimation, and image classification. By utilizing a modular architecture, the platform allows users to swap model components to balance inference speed and accuracy requirements for diverse applications. The framework distinguishes itself through its support for real-time processing and flexible deployment. It in
Adjusts confidence thresholds and matching logic through configuration files to define specific tracking behaviors.
Supervision is a computer vision toolset for normalizing model outputs, managing datasets, and visualizing annotations. It provides a framework to convert predictions from various classification and detection models into a standardized data format to ensure interoperability across different computer vision pipelines. The library features a post-processor for filtering, counting, and tracking detected objects across image frames and video streams. It includes capabilities for large image tiling to improve the detection of small objects and tools for assigning persistent identities to objects t
Assigns persistent identifiers to detected objects across video frames to maintain identity over time.
Frigate is a self-hosted network video recorder that functions as a private, local AI-powered vision engine. It manages video streams by performing real-time object detection, tracking, and classification directly on local hardware, ensuring that security monitoring and activity recording remain independent of cloud services. The system distinguishes itself through a modular, hardware-accelerated video pipeline that offloads intensive decoding and machine learning inference to dedicated GPUs, NPUs, or specialized accelerators like Coral TPUs and Hailo modules. It utilizes state-based object t
Maintains persistent identity and spatial coordinates for detected objects across consecutive frames to enable behavioral analysis and loitering detection.
PaddleDetection is an object detection framework designed for the end-to-end development, training, and deployment of computer vision models. It provides a comprehensive library of modular neural network architectures and pipelines that support object detection, instance segmentation, and multi-object tracking tasks. The project distinguishes itself through a configuration-driven approach that decouples model components like backbones and heads, allowing for the flexible assembly of custom vision workflows. It incorporates advanced techniques such as anchor-free detection logic, joint detecti
Adjusts model settings to recognize and track custom object classes by updating class counts and label mappings.
This is a real-time object detection framework built on the YOLOv3 architecture, implemented in PyTorch. It provides a complete pipeline for identifying and localizing objects in images and video using a single neural network pass, combining a Darknet-53 backbone with multi-scale feature pyramids and anchor-based bounding box prediction. The framework extends beyond basic detection to include instance segmentation, human pose estimation, and multi-object tracking across video frames. It offers a model export toolkit that converts trained models through ONNX to CoreML, TensorFlow Lite, and Ten
Assigns a persistent ID to each detected object and follows its movement through a video sequence.
tracking.js is a browser computer vision library written in JavaScript for performing real-time image analysis and object tracking directly within a web browser. It functions as a real-time object tracker, a color tracking tool, and a face detection utility. The library enables the detection and monitoring of specific color ranges, human faces, and known visual patterns across consecutive video frames. It extracts visual features and descriptors from images to identify distinct landmarks for matching and tracking. The project covers broad computer vision capabilities, including the ability t
Maintains persistent identity and spatial coordinates of objects across consecutive video frames.
Boxmot is a multi-object tracking framework designed to follow multiple objects across video frames using motion and appearance algorithms to maintain consistent identities. It functions as a system for tracking objects with specific orientations using rotated bounding boxes and corresponding intersection-over-union computations. The project includes a re-identification model optimizer that converts neural networks into formats for hardware-accelerated execution. It also features an evolutionary hyperparameter tuner that iteratively mutates tracker settings to maximize accuracy for specific d
Implements tracking for objects with specific orientations using rotated bounding boxes to improve accuracy for angled items.
This project is a comprehensive collection of educational examples and reference implementations for building vision and language models using PyTorch. It serves as a deep learning tutorial covering the end-to-end process of developing neural networks, from initial architecture definition to final production deployment. The repository provides detailed guides on implementing a wide range of domain-specific models, including convolutional neural networks for object detection and segmentation, as well as transformer and recurrent architectures for natural language processing. It emphasizes gene
Analyzes the movement and flow statistics of identified objects across sequences of video frames.
ccv is a computer vision library written in C designed for high-performance visual analysis. It serves as a framework for image classification, object detection, and the identification of faces, pedestrians, and vehicles. The library distinguishes itself through hardware-accelerated vision and deep learning inference optimizations. It utilizes a quantized tensor processor to transform floating-point data into eight-bit integers and implements integer-quantized attention mechanisms to reduce memory bandwidth and increase data throughput. The project covers a broad range of capabilities, inclu
Maintains the identity and position of specific objects across sequential video frames over long-term periods.
clmtrackr is a JavaScript computer vision library designed for facial landmark detection and real-time tracking. It implements Constrained Local Models to identify specific coordinate points on a human face within video feeds or static images. The project functions as a real-time face warping engine and expression analysis tool. It can distort facial images via parametric models to create caricatures or identify and label emotional states such as happiness, sadness, anger, and surprise based on feature coordinates. The library covers a broad range of capabilities including automatic and manu
Configures response calculation methods using grayscale, gradients, or binary patterns to balance processing speed and accuracy.
ByteTrack is a multi-object tracking framework that implements the ByteTrack algorithm, an ECCV 2022 method designed to recover occluded objects and reduce trajectory fragmentation. The core innovation of the project is its association algorithm, which processes every detection box—including low-confidence ones—by using separate high and low score thresholds, Kalman filter motion prediction, and Hungarian algorithm matching to produce consistent object identities across video frames. The project distinguishes itself by its comprehensive approach to handling occlusions and fragmented trajector
Employs Kalman filter linear motion models to predict object positions between video frames.
This is an open-source autonomous driving perception pipeline that processes camera and lidar sensor data to detect, track, and fuse objects in real-world driving environments. The project integrates an end-to-end perception workflow combining sensor calibration, deep learning object detection, Kalman filter tracking, and sensor fusion for robust scene understanding. The pipeline includes camera calibration tools to remove lens distortion from raw images, deep learning model training for object classification and detection, and multi-object tracking using Kalman filters with data association
Maintains and updates tracks for multiple objects using Kalman filters and data association techniques.
DeepSORT este un framework de urmărire multi-obiect în timp real conceput pentru a menține identități consistente ale mai multor obiecte pe parcursul cadrelor video. Integrează caracteristici de aspect deep learning cu descriptori de mișcare pentru a urmări obiectele printr-o secvență de date video. Sistemul utilizează o rețea neuronală convoluțională profundă pentru a genera descriptori vizuali de înaltă dimensiune pentru re-identificarea persoanelor. Aceste caracteristici de aspect sunt combinate cu estimarea mișcării prin filtrare Kalman și rezolvate folosind algoritmul maghiar pentru a asocia optim detecțiile cu pistele existente. Framework-ul include capabilități pentru filtrarea asocierii bazată pe gating și gestionarea pistelor bazată pe stare pentru a gestiona ciclurile de viață ale obiectelor. Oferă, de asemenea, instrumente pentru redarea rezultatelor urmăririi pe cadrele video și evaluarea performanței urmăririi față de benchmark-urile stabilite.
Employs Kalman filters to predict future object positions based on velocity and bounding box coordinates.
Navigation2 este un framework de navigare ROS 2 pentru roboți mobili autonomi. Acesta oferă identitatea de bază a unui planificator de rute, sistem de gestionare a costmap-urilor, controler cinematic de mișcare și orchestrator de arbori de comportament pentru a calcula rute fără coliziuni și a executa comenzi de mișcare. Framework-ul se distinge prin utilizarea arborilor de comportament pentru a coordona serverele de sarcini modulare, permițând rutine complexe de navigare și acțiuni autonome de recuperare. Suportă o arhitectură bazată pe plugin-uri care permite înlocuirea planificatoarelor și controlerelor în timpul execuției pentru a se adapta la diferite medii. Sistemul acoperă o gamă largă de capabilități, inclusiv planificarea rutelor globale și locale, SLAM 2D și localizarea bazată pe hartă, și modelarea mediului prin costmap-uri bazate pe grile. Gestionează controlul mișcării pentru diverse cinematici de transmisie și încorporează sisteme de siguranță pentru monitorizarea coliziunilor și prevenirea urgențelor. Caracteristicile suplimentare de orchestrare includ secvențierea waypoint-urilor cu destinații multiple, urmărirea dinamică a țintelor și proceduri de andocare automată. Framework-ul utilizează componente cu ciclu de viață gestionat pentru a coordona pornirea, oprirea și monitorizarea sănătății serverelor sale operaționale.
Tracks a moving target via detection topics to maintain a specified distance.
Acest proiect este un framework de urmărire multi-obiect conceput pentru a atribui identități persistente casetelor de delimitare detectate în cadre video consecutive. Acesta funcționează ca un algoritm de urmărire prin viziune computerizată care monitorizează mai multe ținte în mișcare în timp real, asociind detecțiile cu etichete consistente. Sistemul utilizează o abordare de estimare a stării centrată pe un filtru Kalman pentru a prezice pozițiile viitoare ale obiectelor și a menține identitatea în timpul pauzelor de detecție. Utilizează algoritmul maghiar pentru asocierea optimă a datelor și calculează intersecția peste reuniune (IoU) pentru a potrivi locațiile de urmărire prezise cu detecțiile reale. Pipeline-ul de procesare gestionează un registru de urmăriri active folosind un model liniar de viteză constantă pentru a simplifica tranzițiile de stare. Acesta efectuează procesarea recursivă cadru cu cadru pentru a actualiza starea tuturor obiectelor urmărite pe măsură ce sunt analizate imagini noi.
Employs a Kalman filter to predict future object positions and maintain tracking continuity.
FairMOT este un framework de tracking multi-obiect și un model de deep learning conceput pentru a identifica și urmări entități multiple în cadre video. Implementează un pipeline unificat care integrează detecția obiectelor și re-identificarea identității într-o rețea comună single-stage. Sistemul utilizează o metodă de detecție fără ancore pentru a prezice centrele obiectelor și dimensiunile bounding box-urilor. Menține consistența identității între cadre consecutive prin generarea de vectori de embedding de înaltă dimensiune pentru re-identificare și utilizarea unui filtru Kalman pentru predicția stării de mișcare. Framework-ul acoperă o gamă largă de capabilități de computer vision, inclusiv detecția obiectelor în timp real și utilizarea algoritmului Hungarian pentru atribuirea tracklet-urilor. Include, de asemenea, utilitare pentru antrenarea modelelor pe seturi de date personalizate și generarea de vizualizări video cu bounding box-uri suprapuse și identificatori persistenți.
Uses a Kalman filter to model motion state and predict future object locations during occlusions.
This project is a multi-object tracking library and computer vision toolkit designed to maintain consistent identity IDs for objects across video frames. It provides a motion-based object tracking system that converts raw detections into stable temporal tracks, enabling the analysis of object movement and behavior over time. The toolkit distinguishes itself through advanced identity maintenance, utilizing Kalman filters for linear motion tracking and sparse optical flow for camera motion estimation. It features multi-stage object association to recover occluded objects and non-linear motion t
Maintains consistent identity IDs for objects across video frames using advanced motion-based tracking algorithms.
Acest proiect este un sistem de computer vision conceput pentru recunoașterea facială în timp real și urmărirea identității folosind fluxuri video live. Oferă un framework pentru captarea, înregistrarea și identificarea simultană a mai multor persoane prin compararea inputului video live cu o bază de date locală de descriptori faciali pre-înregistrați. Sistemul se distinge printr-un pipeline de procesare orientat spre performanță care echilibrează sarcina computațională în timpul analizei live. Prin combinarea extracției de caracteristici prin rețele neuronale profunde cu urmărirea obiectelor bazată pe centroizi, software-ul menține etichete de identitate consistente între cadrele video, minimizând în același timp frecvența calculelor costisitoare de recunoaștere. Această abordare permite urmărirea și identificarea stabilă a mai multor persoane fără a necesita procesare completă pe fiecare cadru. Biblioteca susține o gamă de sarcini de gestionare a identității, inclusiv crearea de baze de date faciale căutabile și logarea automatizată a persoanelor. Gestionează întregul ciclu de viață al datelor biometrice, de la extracția inițială a vectorilor numerici unici din imaginile camerei până la stocarea persistentă a acestor descriptori pe sistemul de fișiere local pentru verificare ulterioară.
Maintains persistent identity and spatial coordinates of faces across video frames using centroid movement.
Acest proiect este un pipeline de computer vision care integrează detectarea și urmărirea obiectelor pentru a monitoriza obiectele în mișcare în fluxurile video. Funcționează ca un instrument de analiză end-to-end care procesează cadrele video pentru a identifica, clasifica și menține identitatea unică a obiectelor pe măsură ce se mișcă printr-o scenă. Sistemul utilizează o combinație de inferență deep learning pentru detectare și estimarea mișcării pentru a asigura continuitatea temporală. Prin împerecherea descriptorilor de aspect vizual cu modelarea predictivă a mișcării, menține identitățile obiectelor chiar și în timpul ocluziilor temporale sau când suprapunerea spațială este insuficientă. Framework-ul folosește procesarea secvențială pentru a sincroniza rezultatele detectării cu logica de urmărire, permițând monitorizarea consistentă a tiparelor de mișcare. Dincolo de urmărirea de bază, software-ul include capabilități pentru cuantificarea activității într-un flux video. Suportă calcularea numărului total de obiecte sau vehicule pe măsură ce traversează linii desemnate sau intră în zone specifice. Implementarea este structurată ca un framework de dezvoltare pentru construirea de aplicații de viziune personalizate care interpretează și extrag date din medii dinamice.
Predicts future object positions using Kalman filters to maintain tracking during temporary occlusions.