8 dépôts
Approaches for reducing the memory footprint of deep learning models.
Distinguishing note: Focuses on memory efficiency, distinct from raw computational speed.
Explore 8 awesome GitHub repositories matching artificial intelligence & ml · Memory-Efficient Deep Learning. Refine with filters or upvote what's useful.
ColossalAI is a distributed deep learning framework designed for training and deploying massive artificial intelligence models across clusters of hardware accelerators. It functions as a parallel computing engine that partitions model workloads and data across multiple processors to maximize memory efficiency and throughput. The platform distinguishes itself through a comprehensive suite of parallelization strategies, including multi-dimensional tensor parallelism and pipeline-based model parallelism, which segment neural network layers and stages across devices. To support large-scale genera
Optimizes computational resources and memory usage to enable the execution of complex models on limited hardware.
RWKV-LM is a framework for training and deploying recurrent language models. It utilizes a linear-time recurrent architecture that enables text generation and sequence processing with constant memory and time complexity, avoiding the quadratic scaling of traditional attention caches. The project implements a parallelizable training mechanism that allows recurrent models to be trained using global operations while maintaining cache-free inference. It includes state-tuning capabilities to optimize the initial hidden state and utilizes adaptive probability-mass sampling to control token diversit
Enables high-performance model deployment with constant memory usage and linear time complexity.
xformers is a collection of specialized toolsets for fused GPU operators, sparse attention mechanisms, modular transformer components, and performance benchmarking. It provides a library of optimized and interoperable building blocks used to construct and experiment with transformer architectures. The project features a fused CUDA operator library that combines common layers into single GPU operations to increase throughput. It includes a sparse attention framework and memory-efficient attention kernels that utilize tiling strategies and structured sparsity patterns to reduce computational ov
Reduces GPU memory usage and increases speed for scaled dot-product attention in large-scale models.
TNN est un framework d'inférence de deep learning conçu pour exécuter des réseaux de neurones pré-entraînés sur du matériel mobile, de bureau et serveur. Il fonctionne comme un runtime accéléré par le matériel et une boîte à outils de compression de modèles, fournissant une interface unifiée pour déployer des modèles dans divers environnements. Le framework inclut un convertisseur de modèles ONNX pour transformer les modèles provenant de divers frameworks d'entraînement en un format interne standardisé. Il se distingue par une combinaison d'outils de compression de modèles — incluant la quantification des poids et l'élagage de code statique — et un système de gestion de la mémoire qui réutilise les tampons entre les nœuds non dépendants pour réduire l'utilisation de la RAM. Le système optimise les performances via la fusion d'opérateurs pour minimiser l'accès à la mémoire et utilise des backends spécifiques à la plateforme pour tirer parti des processeurs spécialisés et des GPU. Il augmente encore la vitesse d'exécution grâce à des calculs en basse précision et un réglage spécifique au matériel.
Reduces the size and memory footprint of machine learning models through quantization, pruning, and buffer reuse.
Efficient-AI-Backbones is a lightweight neural network library and computer vision model zoo. It provides a collection of optimized deep learning backbones designed to minimize computational overhead and memory usage for artificial intelligence tasks. The project implements specialized architectures such as GhostNet and MLP to reduce processing requirements. It features a modular backbone design and the distribution of pretrained weights to accelerate the development and deployment of vision models. The library covers efficient neural network design and edge device AI optimization. Its capab
Provides deep learning backbones focused on reducing the memory footprint and computational requirements of AI tasks.
llm-compressor is a quantization toolkit and post-training library designed to reduce the memory footprint and size of large language models. It provides a framework for compressing models using weight and activation quantization to enable more efficient deployment. The project distinguishes itself through a distributed quantization framework that utilizes data-parallel processing and disk-based weight offloading to handle massive model checkpoints that exceed available system memory. It includes specialized compressors for diverse architectures, including Mixture-of-Experts, Vision-Language,
Enables memory-efficient deployment of models that exceed system memory through disk offloading and sequential loading.
Ce framework fournit une boîte à outils pour le fine-tuning de grands modèles de langage (LLM) en combinant le parallélisme de données distribué avec des techniques de partitionnement de paramètres et de quantification. Il est conçu pour mettre à l'échelle l'entraînement de réseaux de neurones massifs sur plusieurs processeurs graphiques, permettant l'exécution de modèles qui dépassent la capacité mémoire des unités matérielles individuelles. La bibliothèque se distingue en intégrant l'adaptation de bas rang (LoRA) avec un chargement de poids efficace en mémoire et un partitionnement de paramètres conscient de la quantification. En initialisant les poids du modèle directement sur le processeur graphique et en appliquant un wrapping granulaire couche par couche, le framework minimise les pics de mémoire et réduit la surcharge de communication pendant les phases de configuration et d'entraînement distribué. Le système prend en charge l'entraînement d'architectures transformer personnalisées grâce à des politiques de wrapping flexibles pour les couches d'attention et les perceptrons multicouches. Il optimise davantage l'utilisation des ressources en ajustant dynamiquement la précision numérique pendant le calcul, équilibrant la stabilité de l'entraînement par rapport à la mémoire matérielle disponible. Le projet est distribué sous forme de collection d'utilitaires et de scripts destinés à être utilisés dans des environnements de calcul distribué.
Reduces the hardware footprint of training large neural networks by applying quantization techniques to lower memory usage.
Segment Anything Fast est un moteur d'inférence de vision par ordinateur et un framework de segmentation d'image haute performance construit pour PyTorch. Il fournit un environnement spécialisé pour l'isolation automatisée d'objets et la génération de masques, conçu pour traiter des jeux de données visuels à grande échelle avec un débit accru. Le projet se distingue par une suite de stratégies d'optimisation au niveau système qui accélèrent les performances des modèles de deep learning. En utilisant la compilation de modèles basée sur des graphes, la fusion de noyaux juste-à-temps (JIT) et la quantification consciente du matériel, il réduit la latence computationnelle et l'empreinte mémoire. Ces techniques sont complétées par l'arithmétique en précision mixte et le parallélisme des entrées par lots, qui permettent au moteur de saturer les ressources matérielles lors de tâches de segmentation complexes. Au-delà de ses capacités de segmentation de base, la bibliothèque inclut des outils de diagnostic intégrés pour le profilage des performances du deep learning. Ces utilitaires permettent aux utilisateurs de surveiller les modèles d'allocation mémoire et de capturer des traces de timing d'exécution, offrant une visibilité sur les goulots d'étranglement du système lors de l'analyse de données à grande échelle.
Analyzes execution speed and memory consumption of neural networks to identify bottlenecks.