8 repository-uri
Approaches for reducing the memory footprint of deep learning models.
Distinguishing note: Focuses on memory efficiency, distinct from raw computational speed.
Explore 8 awesome GitHub repositories matching artificial intelligence & ml · Memory-Efficient Deep Learning. Refine with filters or upvote what's useful.
ColossalAI is a distributed deep learning framework designed for training and deploying massive artificial intelligence models across clusters of hardware accelerators. It functions as a parallel computing engine that partitions model workloads and data across multiple processors to maximize memory efficiency and throughput. The platform distinguishes itself through a comprehensive suite of parallelization strategies, including multi-dimensional tensor parallelism and pipeline-based model parallelism, which segment neural network layers and stages across devices. To support large-scale genera
Optimizes computational resources and memory usage to enable the execution of complex models on limited hardware.
RWKV-LM is a framework for training and deploying recurrent language models. It utilizes a linear-time recurrent architecture that enables text generation and sequence processing with constant memory and time complexity, avoiding the quadratic scaling of traditional attention caches. The project implements a parallelizable training mechanism that allows recurrent models to be trained using global operations while maintaining cache-free inference. It includes state-tuning capabilities to optimize the initial hidden state and utilizes adaptive probability-mass sampling to control token diversit
Enables high-performance model deployment with constant memory usage and linear time complexity.
xformers is a collection of specialized toolsets for fused GPU operators, sparse attention mechanisms, modular transformer components, and performance benchmarking. It provides a library of optimized and interoperable building blocks used to construct and experiment with transformer architectures. The project features a fused CUDA operator library that combines common layers into single GPU operations to increase throughput. It includes a sparse attention framework and memory-efficient attention kernels that utilize tiling strategies and structured sparsity patterns to reduce computational ov
Reduces GPU memory usage and increases speed for scaled dot-product attention in large-scale models.
TNN este un framework de inferență deep learning conceput pentru a executa rețele neuronale pre-antrenate pe hardware mobil, desktop și server. Acesta funcționează ca un runtime accelerat hardware și un toolkit de compresie a modelelor, oferind o interfață unificată pentru implementarea modelelor în medii diverse. Framework-ul include un convertor de modele ONNX pentru a transforma modelele din diverse framework-uri de antrenament într-un format intern standardizat. Se distinge printr-o combinație de instrumente de compresie a modelelor—inclusiv cuantizarea ponderilor și pruning-ul codului static—și un sistem de gestionare a memoriei care reutilizează bufferele între nodurile independente pentru a reduce utilizarea RAM. Sistemul optimizează performanța prin fuziunea operatorilor pentru a minimiza accesul la memorie și utilizează backend-uri specifice platformei pentru a profita de procesoare specializate și GPU-uri. De asemenea, crește viteza de execuție prin calcule de precizie scăzută și ajustări specifice hardware-ului.
Reduces the size and memory footprint of machine learning models through quantization, pruning, and buffer reuse.
Efficient-AI-Backbones este o bibliotecă de rețele neuronale ușoare și un model zoo de computer vision. Oferă o colecție de backbones de deep learning optimizate, concepute pentru a minimiza overhead-ul computațional și utilizarea memoriei pentru sarcini de inteligență artificială. Proiectul implementează arhitecturi specializate precum GhostNet și MLP pentru a reduce cerințele de procesare. Dispune de un design modular de backbone și distribuția de ponderi pre-antrenate pentru a accelera dezvoltarea și deployment-ul modelelor de viziune. Biblioteca acoperă design-ul eficient al rețelelor neuronale și optimizarea AI pentru dispozitive edge. Capabilitățile sale includ implementarea arhitecturilor ușoare și deployarea de backbones pre-antrenate pentru aplicații de computer vision.
Provides deep learning backbones focused on reducing the memory footprint and computational requirements of AI tasks.
llm-compressor is a quantization toolkit and post-training library designed to reduce the memory footprint and size of large language models. It provides a framework for compressing models using weight and activation quantization to enable more efficient deployment. The project distinguishes itself through a distributed quantization framework that utilizes data-parallel processing and disk-based weight offloading to handle massive model checkpoints that exceed available system memory. It includes specialized compressors for diverse architectures, including Mixture-of-Experts, Vision-Language,
Enables memory-efficient deployment of models that exceed system memory through disk offloading and sequential loading.
Acest framework oferă un toolkit pentru fine-tuning-ul modelelor de limbaj mari (LLM), combinând paralelismul distribuit de date cu tehnici de sharding al parametrilor și cuantizare. Este conceput pentru a scala antrenarea rețelelor neuronale masive pe mai multe procesoare grafice, permițând execuția modelelor care depășesc capacitatea de memorie a unităților hardware individuale. Biblioteca se distinge prin integrarea adaptării low-rank cu încărcarea eficientă a ponderilor în memorie și sharding-ul parametrilor conștient de cuantizare. Prin inițializarea ponderilor modelului direct pe procesorul grafic și aplicarea unei împachetări granulare la nivel de strat, framework-ul minimizează vârfurile de memorie și reduce overhead-ul de comunicare în timpul fazelor de configurare și antrenare distribuită. Sistemul suportă antrenarea arhitecturilor transformer personalizate prin politici flexibile de împachetare pentru straturile de atenție și perceptron multistrat. Optimizează în continuare utilizarea resurselor prin ajustarea dinamică a preciziei numerice în timpul calculului, echilibrând stabilitatea antrenării cu memoria hardware disponibilă. Proiectul este distribuit ca o colecție de utilitare și scripturi destinate utilizării în medii de calcul distribuit.
Reduces the hardware footprint of training large neural networks by applying quantization techniques to lower memory usage.
Segment Anything Fast este un motor de inferență de viziune computerizată de înaltă performanță și un framework de segmentare a imaginilor construit pentru PyTorch. Oferă un mediu specializat pentru izolarea automată a obiectelor și generarea de măști, conceput pentru a procesa seturi de date vizuale la scară largă cu un throughput crescut. Proiectul se distinge printr-o suită de strategii de optimizare la nivel de sistem care accelerează performanța modelelor de deep learning. Prin utilizarea compilării modelelor bazate pe grafuri, fuziunii kernel-urilor just-in-time și cuantificării conștiente de hardware, reduce latența computațională și amprenta de memorie. Aceste tehnici sunt completate de aritmetica cu precizie mixtă și paralelismul input-urilor batch, care permit motorului să satureze resursele hardware în timpul sarcinilor complexe de segmentare. Dincolo de capabilitățile sale de bază de segmentare, biblioteca include instrumente de diagnosticare integrate pentru profilarea performanței deep learning. Aceste utilitare permit utilizatorilor să monitorizeze tiparele de alocare a memoriei și să captureze urme de sincronizare a execuției, oferind vizibilitate asupra blocajelor sistemului în timpul analizei datelor la scară largă.
Analyzes execution speed and memory consumption of neural networks to identify bottlenecks.