23 repository-uri
Tools that optimize VRAM usage for large models through quantization and memory paging.
Distinct from GPU Memory Optimizations: The candidates refer to low-level OS memory layout or general lifecycle managers, not ML-specific VRAM optimization for LLMs.
Explore 23 awesome GitHub repositories matching artificial intelligence & ml · GPU Memory Optimizers. Refine with filters or upvote what's useful.
waifu2x-caffe is a deep learning image upscaler and denoiser that uses the Caffe framework to increase image resolution and remove noise from illustrations and photographs. It functions as a neural network image processor that reduces compression artifacts and pixelation while maintaining visual clarity. The project provides specialized neural network weights optimized separately for 2D illustrations and real-world photographs. It includes distinct processing for alpha channels to preserve transparency and employs test-time augmentation to improve output precision. The tool supports both a c
Optimizes VRAM usage by adjusting image crop sizes to fit within available GPU hardware capacity.
bitsandbytes is a deep learning quantization tool and library designed to reduce the memory footprint of large language models. It serves as a GPU memory optimizer and quantization framework, compressing model weights and features to 8-bit and 4-bit precision to enable inference and training on hardware with limited memory. The project provides a framework for low-rank adaptation, allowing the fine-tuning of quantized models by combining 4-bit weights with small trainable matrices. It further distinguishes itself through memory paging, which moves optimizer states between CPU and GPU memory t
Manages optimizer states and weights through paging and quantization to prevent out-of-memory errors.
DeepSpeedExamples is a collection of reference implementations and scripts for training, fine-tuning, and executing inference on large-scale AI models using DeepSpeed optimization. It provides a distributed model training guide and practical workflows for adapting large language models through memory-efficient techniques. The repository includes specialized implementations for pipeline parallelism to handle models exceeding single GPU memory and a suite of examples for ZeRO memory optimization to reduce per-device overhead. It also features standardized test suites for benchmarking the throug
Manages optimizer states and model weights across CPU and GPU memory to optimize VRAM usage.
CogVLM is a multimodal large language model designed for visual reasoning and multi-turn dialogue. It functions as a visual grounding model and a quantized vision model, combining text and image processing to perform complex understanding and maintain context across visual inputs. The project includes capabilities as a GUI automation agent, allowing it to analyze application screenshots, plan operational steps, and return precise screen coordinates for interface interaction. It further supports visual grounding by generating bounding box coordinates to map text descriptions to specific spatia
Optimizes VRAM usage for the large model through quantization to support consumer graphics cards.
mistral.rs is an inference engine for large language models that runs locally and exposes models behind OpenAI and Anthropic-compatible APIs. It serves as a multi-model serving platform, capable of loading several models in a single server process with per-request routing and on-demand loading and unloading. The engine supports multimodal inference, processing text alongside images, video, audio, and speech inputs, and includes a quantized model deployment runtime that reduces memory use and speeds up inference on consumer hardware. The project distinguishes itself through an agentic tool exe
Restricts the fraction of integrated GPU memory usable on CUDA systems with iGPUs.
Configures memory usage to run larger AI models on devices with constrained memory.
Gemma este o familie de modele lingvistice mari cu open-weights, bazate pe o arhitectură transformer decoder-only. Aceste modele sunt concepute pentru generarea de text și conversații multimodale, capabile să proceseze și să genereze răspunsuri bazate atât pe secvențe de input textuale, cât și vizuale. Proiectul oferă un model AI fine-tunable care suportă ajustarea ponderilor și adaptarea low-rank pentru a specializa performanța pentru sarcini particulare. Include suport pentru ponderi cuantizate pentru a reduce utilizarea memoriei și a crește viteza de inferență pe hardware limitat. Suprafața de capabilități acoperă integrarea AI multimodală, optimizarea memoriei prin sharding-ul parametrilor și integrarea instrumentelor și API-urilor externe pentru a prelua date în timp real. De asemenea, permite generarea de imagini din text și eșantionarea output-urilor de text structurat.
Optimizes VRAM usage for large models through quantization and parameter sharding to fit on limited GPUs.
bert4keras este o reimplementare ușoară a arhitecturii transformer BERT pentru framework-ul de deep learning Keras. Acesta servește drept set de instrumente pentru procesarea limbajului natural și bibliotecă de modele transformer utilizată pentru clasificarea textului, etichetarea secvențelor și extracția embedding-urilor semantice. Framework-ul include un sistem de model sequence-to-sequence pentru răspunsul la întrebări și generarea de text, precum și un server de inferență a modelului pentru a implementa transformere antrenate ca API-uri web pentru predicții în timp real. Capabilitățile acoperă o gamă largă de sarcini de înțelegere a limbajului natural, inclusiv înțelegerea lecturii, extracția relațiilor și procesarea textelor lungi. Biblioteca oferă instrumente pentru pre-antrenarea și fine-tuning-ul modelelor de limbaj, alături de tehnici de optimizare precum reducerea parametrilor, antrenarea adversă pentru robustețe și configurarea ratei de învățare pe niveluri. Proiectul include un loader de conversie a ponderilor pentru a transforma ponderile pre-antrenate din formate externe în structuri Keras compatibile.
Lowers GPU memory usage by merging operators and recomputing gradients during the processing phase.
DeepSeek-VL2 este un model de limbaj mare multimodal și un sistem vision-language conceput pentru a analiza scene vizuale și a genera text descriptiv. Funcționează ca un model de visual question answering și visual grounding, capabil să extragă informații din documente și să localizeze obiecte sau regiuni specifice în imagini pe baza descrierilor textuale. Proiectul utilizează o arhitectură mixture-of-experts pentru a procesa intrări combinate de imagine și text. Este optimizat pentru inferență prin prefilling incremental, ceea ce reduce cerințele de memorie GPU pe hardware. Modelul acoperă analiza datelor multimodale și înțelegerea documentelor vizuale, inclusiv interpretarea graficelor și a layout-urilor. Efectuează inferență vizuală și grounding pentru a potrivi interogările textuale cu conținutul vizual corespondent.
Optimizes VRAM usage for large multimodal models through incremental prefilling during inference.
This project is a neural network extension for Stable Diffusion that provides spatial control and geometric consistency for text-to-image generation. It functions as an image structure controller and conditioning tool, enabling the use of external inputs to guide the layout and geometry of generated imagery. The framework is distinguished by its ability to transform input images into structural guides through various preprocessors. These include the extraction of depth maps, normal maps, and human pose landmarks, as well as the detection of Canny edges, anime lineart, and straight architectur
Optimizes VRAM usage during model execution through techniques like sliced attention to reduce GPU memory consumption.
Acest proiect este un program educațional cuprinzător și un framework de deep learning conceput pentru a preda deep learning practic folosind PyTorch prin notebook-uri și exemple de cod. Servește drept bibliotecă de nivel înalt pentru construirea, antrenarea și implementarea rețelelor neuronale, acționând ca un orchestrator de antrenare a modelelor care coordonează modelele PyTorch, optimizatoarele și funcțiile de loss. Proiectul oferă toolkit-uri specializate pentru computer vision, procesarea limbajului natural și preprocesarea datelor tabelare. Se distinge prin controale avansate de antrenare, cum ar fi rate de învățare discriminative, un sistem de callback bidirecțional pentru personalizarea logicii de antrenare și o abstractizare de nivel înalt a learner-ului care automatizează plasarea pe dispozitiv și buclele de antrenare. Framework-ul acoperă o suprafață largă de capabilități, inclusiv construcția automată a pipeline-urilor de date, analiza arhitecturii modelelor și evaluarea performanței în sarcini de clasificare, regresie și segmentare. Include, de asemenea, utilitare pentru antrenarea distribuită pe mai multe GPU-uri, antrenarea cu precizie mixtă pentru optimizarea memoriei și suport specializat pentru date de imagistică medicală. Proiectul este livrat sub formă de serie de Jupyter Notebooks.
Provides utilities to clear cached GPU memory and terminate zombie processes that block hardware access.
Kokoro-FastAPI is a text-to-speech API and LLM speech synthesis server that generates spoken audio from text via a REST interface. It functions as a Kubernetes-native deployment designed for orchestrated speech synthesis. The system includes a voice blending engine that creates unique vocal profiles by mixing multiple existing voices using custom weight ratios. The service provides real-time audio streaming to reduce latency and generates word-level timestamps for speech synchronization. It manages hardware efficiency through on-demand model loading to optimize VRAM usage and includes system
Manages VRAM consumption to prevent exhaustion by dynamically reloading models during request processing.
Text2Video-Zero este un model de difuzie text-to-video și un framework conceput pentru a sintetiza secvențe video temporal consistente din prompt-uri textuale. Funcționează ca un generator video zero-shot, reutilizând modelele de difuzie de imagine pre-antrenate pentru a crea conținut video fără a necesita antrenament suplimentar pe seturi de date video. Sistemul include un sintetizator video condițional care permite generarea ghidată folosind hărți de adâncime, margini sau postură pentru a controla layout-ul structural și mișcarea. De asemenea, oferă capabilități de editare video bazate pe text pentru a modifica stilul sau conținutul clipurilor video existente prin instrucțiuni în limbaj natural. Pentru a gestiona cerințele computaționale, proiectul implementează inferența optimizată pentru memoria GPU. Acest lucru este realizat prin tehnici precum token merging și frame chunking pentru a reduce utilizarea VRAM în timpul procesului de generare.
Optimizes VRAM usage during video generation through techniques like token merging and frame chunking.
RAFT este un framework de computer vision PyTorch și un sistem de deep learning conceput pentru estimarea fluxului optic (optical flow). Acesta funcționează ca un estimator de mișcare accelerat pe GPU care calculează vectorii de mișcare per-pixel între cadrele video pentru a determina mișcarea obiectelor. Implementarea utilizează transformări recurente all-pairs și nuclee CUDA personalizate pentru a optimiza memoria și overhead-ul de calcul asociat calculelor de corelație de înaltă dimensiune. Această accelerare la nivel hardware reduce utilizarea memoriei GPU în timpul forward pass-ului. Toolkit-ul acoperă învățarea supervizată a fluxului și antrenarea modelelor folosind formate de precizie mixtă. Include, de asemenea, capabilități pentru analiza mișcării video și benchmarking-ul acurateței modelului față de seturile de date standard de flux optic.
Reduces VRAM usage during the forward pass via specialized hardware extensions for correlation calculations.
Acesta este un framework de recomandare PyTorch și un model de recomandare deep learning conceput pentru a genera predicții de conținut personalizate. Acesta funcționează ca un antrenor de embedding distribuit care procesează caracteristici dense și rare printr-o arhitectură de rețea neuronală pentru a prezice preferințele utilizatorilor. Proiectul implementează un sistem de machine learning optimizat CUDA folosind nuclee GPU specializate pentru a accelera căutarea și agregarea embedding-urilor. Utilizează o abordare distribuită pentru a fragmenta tabelele masive de caracteristici rare pe mai multe GPU-uri, permițând antrenarea modelelor la scară largă. Sistemul utilizează o arhitectură cu două turnuri (two-tower) pentru interacțiunea caracteristicilor și suportă paralelism hibrid, combinând paralelismul de date și de model pe clustere de calcul. Suprafața sa de capabilități include antrenarea distribuită pe noduri de rețea, optimizarea memoriei GPU și recuperarea stării bazată pe checkpoint-uri.
Optimizes GPU VRAM usage using specialized kernels and sharding to manage high-dimensional embedding tables.
Qwen2.5-Omni este un model de limbaj mare (LLM) multimodal omnicanal, conceput pentru a procesa și genera conținut text, audio, vizual și video. Funcționează ca un AI vocal în timp real, utilizând o arhitectură end-to-end pentru a menține conversații vocale sincrone cu răspunsuri de latență scăzută. Proiectul pune accent pe eficiență prin modele edge cuantizate, permițând inferența locală pe hardware mobil și dispozitive cu resurse limitate. Utilizează cuantizarea ponderilor pe 4 biți, descărcarea proceselor pe CPU și încărcarea ponderilor la cerere pentru a reduce cerințele de memorie GPU. Sistemul integrează encodere specializate pentru a analiza fluxurile de date multimodale și dispune de un decoder de streaming pentru generarea vocală în timp real. Include, de asemenea, capabilități de personalizare a vocii pentru a modifica caracteristicile tonale și de gen ale ieșirii audio.
Optimizes VRAM usage for large models through 4-bit quantization and on-demand weight loading.
Lorax is a GPU-accelerated inference server and multi-adapter engine designed for serving large language models. It functions as a high-throughput system capable of deploying models via Kubernetes and managing the dynamic swapping of Low-Rank Adaptation adapters per request. The server distinguishes itself through multi-adapter dynamic batching, which allows requests using different adapter weights to be processed in a single GPU forward pass. It employs just-in-time adapter loading and weighted adapter merging to maximize throughput and enable multi-tasking without sacrificing performance.
Provides tools to optimize VRAM usage by balancing memory between the KV cache and adapter storage.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Releases stuck GPU memory by resetting devices or killing zombie processes.
TurboDiffusion is a video diffusion inference engine and generator designed to create high-resolution videos from text prompts and images. It provides a runtime environment for executing optimized diffusion model checkpoints with a focus on reducing latency and GPU memory usage. The project features a specialized training framework for aligning sparse-linear attention models with pretrained full-attention models. This system includes capabilities for sparse attention parameter merging and sparse-linear model alignment to reduce computational costs during inference while maintaining output qua
Uses weight quantization to optimize VRAM usage, enabling execution on consumer-grade GPU hardware.
waifu2x-ncnn-vulkan is an AI super-resolution tool and image processor that uses deep learning to increase image resolution and remove visual noise. It is an NCNN-based implementation designed for efficient neural network inference on local hardware. The project utilizes the Vulkan API to provide GPU-accelerated image scaling and noise reduction across diverse graphics hardware. It employs tiled image processing to prevent GPU memory overflow and multi-threaded model loading to reduce initial startup latency. The software covers functional domains including AI image upscaling for maintaining
Balances processing speed and graphics memory consumption by adjusting tile sizes and thread counts.