Why is lltcggie/waifu2x-caffe a recommended GPU Memory Optimizers GitHub Repositories repository?

Optimizes VRAM usage by adjusting image crop sizes to fit within available GPU hardware capacity.

Why is bitsandbytes-foundation/bitsandbytes a recommended GPU Memory Optimizers GitHub Repositories repository?

Manages optimizer states and weights through paging and quantization to prevent out-of-memory errors.

Why is deepspeedai/deepspeedexamples a recommended GPU Memory Optimizers GitHub Repositories repository?

Manages optimizer states and model weights across CPU and GPU memory to optimize VRAM usage.

Why is zai-org/cogvlm a recommended GPU Memory Optimizers GitHub Repositories repository?

Optimizes VRAM usage for the large model through quantization to support consumer graphics cards.

Why is ericlbuehler/mistral.rs a recommended GPU Memory Optimizers GitHub Repositories repository?

Restricts the fraction of integrated GPU memory usable on CUDA systems with iGPUs.

Why is nvidia/isaac-gr00t a recommended GPU Memory Optimizers GitHub Repositories repository?

Configures memory usage to run larger AI models on devices with constrained memory.

Why is google-deepmind/gemma a recommended GPU Memory Optimizers GitHub Repositories repository?

Optimizes VRAM usage for large models through quantization and parameter sharding to fit on limited GPUs.

Why is bojone/bert4keras a recommended GPU Memory Optimizers GitHub Repositories repository?

Lowers GPU memory usage by merging operators and recomputing gradients during the processing phase.

Why is deepseek-ai/deepseek-vl2 a recommended GPU Memory Optimizers GitHub Repositories repository?

Optimizes VRAM usage for large multimodal models through incremental prefilling during inference.

Why is lllyasviel/controlnet-v1-1-nightly a recommended GPU Memory Optimizers GitHub Repositories repository?

Optimizes VRAM usage during model execution through techniques like sliced attention to reduce GPU memory consumption.

23 repository-uri

Awesome GitHub RepositoriesGPU Memory Optimizers

Tools that optimize VRAM usage for large models through quantization and memory paging.

Distinct from GPU Memory Optimizations: The candidates refer to low-level OS memory layout or general lifecycle managers, not ML-specific VRAM optimization for LLMs.

Explore 23 awesome GitHub repositories matching artificial intelligence & ml · GPU Memory Optimizers. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

lltcggie/waifu2x-caffe
lltcggie/waifu2x-caffe
8,228Vezi pe GitHub
waifu2x-caffe is a deep learning image upscaler and denoiser that uses the Caffe framework to increase image resolution and remove noise from illustrations and photographs. It functions as a neural network image processor that reduces compression artifacts and pixelation while maintaining visual clarity. The project provides specialized neural network weights optimized separately for 2D illustrations and real-world photographs. It includes distinct processing for alpha channels to preserve transparency and employs test-time augmentation to improve output precision. The tool supports both a c
Optimizes VRAM usage by adjusting image crop sizes to fit within available GPU hardware capacity.
C++
Vezi pe GitHub8,228
bitsandbytes-foundation/bitsandbytes
bitsandbytes-foundation/bitsandbytes
7,968Vezi pe GitHub
bitsandbytes is a deep learning quantization tool and library designed to reduce the memory footprint of large language models. It serves as a GPU memory optimizer and quantization framework, compressing model weights and features to 8-bit and 4-bit precision to enable inference and training on hardware with limited memory. The project provides a framework for low-rank adaptation, allowing the fine-tuning of quantized models by combining 4-bit weights with small trainable matrices. It further distinguishes itself through memory paging, which moves optimizer states between CPU and GPU memory t
Manages optimizer states and weights through paging and quantization to prevent out-of-memory errors.
Pythonllmmachine-learningpytorch
Vezi pe GitHub7,968
deepspeedai/deepspeedexamples
deepspeedai/DeepSpeedExamples
6,822Vezi pe GitHub
DeepSpeedExamples is a collection of reference implementations and scripts for training, fine-tuning, and executing inference on large-scale AI models using DeepSpeed optimization. It provides a distributed model training guide and practical workflows for adapting large language models through memory-efficient techniques. The repository includes specialized implementations for pipeline parallelism to handle models exceeding single GPU memory and a suite of examples for ZeRO memory optimization to reduce per-device overhead. It also features standardized test suites for benchmarking the throug
Manages optimizer states and model weights across CPU and GPU memory to optimize VRAM usage.
Python
Vezi pe GitHub6,822
zai-org/cogvlm
zai-org/CogVLM
6,742Vezi pe GitHub
CogVLM is a multimodal large language model designed for visual reasoning and multi-turn dialogue. It functions as a visual grounding model and a quantized vision model, combining text and image processing to perform complex understanding and maintain context across visual inputs. The project includes capabilities as a GUI automation agent, allowing it to analyze application screenshots, plan operational steps, and return precise screen coordinates for interface interaction. It further supports visual grounding by generating bounding box coordinates to map text descriptions to specific spatia
Optimizes VRAM usage for the large model through quantization to support consumer graphics cards.
Pythoncross-modalitylanguage-modelmulti-modal
Vezi pe GitHub6,742
ericlbuehler/mistral.rs
EricLBuehler/mistral.rs
6,597Vezi pe GitHub
mistral.rs is an inference engine for large language models that runs locally and exposes models behind OpenAI and Anthropic-compatible APIs. It serves as a multi-model serving platform, capable of loading several models in a single server process with per-request routing and on-demand loading and unloading. The engine supports multimodal inference, processing text alongside images, video, audio, and speech inputs, and includes a quantized model deployment runtime that reduces memory use and speeds up inference on consumer hardware. The project distinguishes itself through an agentic tool exe
Restricts the fraction of integrated GPU memory usable on CUDA systems with iGPUs.
Rustllmrustuqff
Vezi pe GitHub6,597
nvidia/isaac-gr00t
NVIDIA/Isaac-GR00T
6,222Vezi pe GitHub
Configures memory usage to run larger AI models on devices with constrained memory.
Jupyter Notebook
Vezi pe GitHub6,222
google-deepmind/gemma
google-deepmind/gemma
5,475Vezi pe GitHub
Gemma este o familie de modele lingvistice mari cu open-weights, bazate pe o arhitectură transformer decoder-only. Aceste modele sunt concepute pentru generarea de text și conversații multimodale, capabile să proceseze și să genereze răspunsuri bazate atât pe secvențe de input textuale, cât și vizuale. Proiectul oferă un model AI fine-tunable care suportă ajustarea ponderilor și adaptarea low-rank pentru a specializa performanța pentru sarcini particulare. Include suport pentru ponderi cuantizate pentru a reduce utilizarea memoriei și a crește viteza de inferență pe hardware limitat. Suprafața de capabilități acoperă integrarea AI multimodală, optimizarea memoriei prin sharding-ul parametrilor și integrarea instrumentelor și API-urilor externe pentru a prelua date în timp real. De asemenea, permite generarea de imagini din text și eșantionarea output-urilor de text structurat.
Optimizes VRAM usage for large models through quantization and parameter sharding to fit on limited GPUs.
Python
Vezi pe GitHub5,475
bojone/bert4keras
bojone/bert4keras
5,419Vezi pe GitHub
bert4keras este o reimplementare ușoară a arhitecturii transformer BERT pentru framework-ul de deep learning Keras. Acesta servește drept set de instrumente pentru procesarea limbajului natural și bibliotecă de modele transformer utilizată pentru clasificarea textului, etichetarea secvențelor și extracția embedding-urilor semantice. Framework-ul include un sistem de model sequence-to-sequence pentru răspunsul la întrebări și generarea de text, precum și un server de inferență a modelului pentru a implementa transformere antrenate ca API-uri web pentru predicții în timp real. Capabilitățile acoperă o gamă largă de sarcini de înțelegere a limbajului natural, inclusiv înțelegerea lecturii, extracția relațiilor și procesarea textelor lungi. Biblioteca oferă instrumente pentru pre-antrenarea și fine-tuning-ul modelelor de limbaj, alături de tehnici de optimizare precum reducerea parametrilor, antrenarea adversă pentru robustețe și configurarea ratei de învățare pe niveluri. Proiectul include un loader de conversie a ponderilor pentru a transforma ponderile pre-antrenate din formate externe în structuri Keras compatibile.
Lowers GPU memory usage by merging operators and recomputing gradients during the processing phase.
Python
Vezi pe GitHub5,419
deepseek-ai/deepseek-vl2
deepseek-ai/DeepSeek-VL2
5,302Vezi pe GitHub
DeepSeek-VL2 este un model de limbaj mare multimodal și un sistem vision-language conceput pentru a analiza scene vizuale și a genera text descriptiv. Funcționează ca un model de visual question answering și visual grounding, capabil să extragă informații din documente și să localizeze obiecte sau regiuni specifice în imagini pe baza descrierilor textuale. Proiectul utilizează o arhitectură mixture-of-experts pentru a procesa intrări combinate de imagine și text. Este optimizat pentru inferență prin prefilling incremental, ceea ce reduce cerințele de memorie GPU pe hardware. Modelul acoperă analiza datelor multimodale și înțelegerea documentelor vizuale, inclusiv interpretarea graficelor și a layout-urilor. Efectuează inferență vizuală și grounding pentru a potrivi interogările textuale cu conținutul vizual corespondent.
Optimizes VRAM usage for large multimodal models through incremental prefilling during inference.
Python
Vezi pe GitHub5,302
lllyasviel/controlnet-v1-1-nightly
lllyasviel/ControlNet-v1-1-nightly
5,156Vezi pe GitHub
This project is a neural network extension for Stable Diffusion that provides spatial control and geometric consistency for text-to-image generation. It functions as an image structure controller and conditioning tool, enabling the use of external inputs to guide the layout and geometry of generated imagery. The framework is distinguished by its ability to transform input images into structural guides through various preprocessors. These include the extraction of depth maps, normal maps, and human pose landmarks, as well as the detection of Canny edges, anime lineart, and straight architectur
Optimizes VRAM usage during model execution through techniques like sliced attention to reduce GPU memory consumption.
Python
Vezi pe GitHub5,156
fastai/course-v3
fastai/course-v3
4,914Vezi pe GitHub
Acest proiect este un program educațional cuprinzător și un framework de deep learning conceput pentru a preda deep learning practic folosind PyTorch prin notebook-uri și exemple de cod. Servește drept bibliotecă de nivel înalt pentru construirea, antrenarea și implementarea rețelelor neuronale, acționând ca un orchestrator de antrenare a modelelor care coordonează modelele PyTorch, optimizatoarele și funcțiile de loss. Proiectul oferă toolkit-uri specializate pentru computer vision, procesarea limbajului natural și preprocesarea datelor tabelare. Se distinge prin controale avansate de antrenare, cum ar fi rate de învățare discriminative, un sistem de callback bidirecțional pentru personalizarea logicii de antrenare și o abstractizare de nivel înalt a learner-ului care automatizează plasarea pe dispozitiv și buclele de antrenare. Framework-ul acoperă o suprafață largă de capabilități, inclusiv construcția automată a pipeline-urilor de date, analiza arhitecturii modelelor și evaluarea performanței în sarcini de clasificare, regresie și segmentare. Include, de asemenea, utilitare pentru antrenarea distribuită pe mai multe GPU-uri, antrenarea cu precizie mixtă pentru optimizarea memoriei și suport specializat pentru date de imagistică medicală. Proiectul este livrat sub formă de serie de Jupyter Notebooks.
Provides utilities to clear cached GPU memory and terminate zombie processes that block hardware access.
Jupyter Notebookdata-sciencedeep-learningfastai
Vezi pe GitHub4,914
remsky/kokoro-fastapi
remsky/Kokoro-FastAPI
4,422Vezi pe GitHub
Kokoro-FastAPI is a text-to-speech API and LLM speech synthesis server that generates spoken audio from text via a REST interface. It functions as a Kubernetes-native deployment designed for orchestrated speech synthesis. The system includes a voice blending engine that creates unique vocal profiles by mixing multiple existing voices using custom weight ratios. The service provides real-time audio streaming to reduce latency and generates word-level timestamps for speech synchronization. It manages hardware efficiency through on-demand model loading to optimize VRAM usage and includes system
Manages VRAM consumption to prevent exhaustion by dynamically reloading models during request processing.
Pythonfastapihuggingface-spaceskokoro
Vezi pe GitHub4,422
picsart-ai-research/text2video-zero
Picsart-AI-Research/Text2Video-Zero
4,244Vezi pe GitHub
Text2Video-Zero este un model de difuzie text-to-video și un framework conceput pentru a sintetiza secvențe video temporal consistente din prompt-uri textuale. Funcționează ca un generator video zero-shot, reutilizând modelele de difuzie de imagine pre-antrenate pentru a crea conținut video fără a necesita antrenament suplimentar pe seturi de date video. Sistemul include un sintetizator video condițional care permite generarea ghidată folosind hărți de adâncime, margini sau postură pentru a controla layout-ul structural și mișcarea. De asemenea, oferă capabilități de editare video bazate pe text pentru a modifica stilul sau conținutul clipurilor video existente prin instrucțiuni în limbaj natural. Pentru a gestiona cerințele computaționale, proiectul implementează inferența optimizată pentru memoria GPU. Acest lucru este realizat prin tehnici precum token merging și frame chunking pentru a reduce utilizarea VRAM în timpul procesului de generare.
Optimizes VRAM usage during video generation through techniques like token merging and frame chunking.
Pythonvideo-editingvideo-generation
Vezi pe GitHub4,244
princeton-vl/raft
princeton-vl/RAFT
4,057Vezi pe GitHub
RAFT este un framework de computer vision PyTorch și un sistem de deep learning conceput pentru estimarea fluxului optic (optical flow). Acesta funcționează ca un estimator de mișcare accelerat pe GPU care calculează vectorii de mișcare per-pixel între cadrele video pentru a determina mișcarea obiectelor. Implementarea utilizează transformări recurente all-pairs și nuclee CUDA personalizate pentru a optimiza memoria și overhead-ul de calcul asociat calculelor de corelație de înaltă dimensiune. Această accelerare la nivel hardware reduce utilizarea memoriei GPU în timpul forward pass-ului. Toolkit-ul acoperă învățarea supervizată a fluxului și antrenarea modelelor folosind formate de precizie mixtă. Include, de asemenea, capabilități pentru analiza mișcării video și benchmarking-ul acurateței modelului față de seturile de date standard de flux optic.
Reduces VRAM usage during the forward pass via specialized hardware extensions for correlation calculations.
Python
Vezi pe GitHub4,057
facebookresearch/dlrm
facebookresearch/dlrm
4,044Vezi pe GitHub
Acesta este un framework de recomandare PyTorch și un model de recomandare deep learning conceput pentru a genera predicții de conținut personalizate. Acesta funcționează ca un antrenor de embedding distribuit care procesează caracteristici dense și rare printr-o arhitectură de rețea neuronală pentru a prezice preferințele utilizatorilor. Proiectul implementează un sistem de machine learning optimizat CUDA folosind nuclee GPU specializate pentru a accelera căutarea și agregarea embedding-urilor. Utilizează o abordare distribuită pentru a fragmenta tabelele masive de caracteristici rare pe mai multe GPU-uri, permițând antrenarea modelelor la scară largă. Sistemul utilizează o arhitectură cu două turnuri (two-tower) pentru interacțiunea caracteristicilor și suportă paralelism hibrid, combinând paralelismul de date și de model pe clustere de calcul. Suprafața sa de capabilități include antrenarea distribuită pe noduri de rețea, optimizarea memoriei GPU și recuperarea stării bazată pe checkpoint-uri.
Optimizes GPU VRAM usage using specialized kernels and sharding to manage high-dimensional embedding tables.
Python
Vezi pe GitHub4,044
qwenlm/qwen2.5-omni
QwenLM/Qwen2.5-Omni
4,026Vezi pe GitHub
Qwen2.5-Omni este un model de limbaj mare (LLM) multimodal omnicanal, conceput pentru a procesa și genera conținut text, audio, vizual și video. Funcționează ca un AI vocal în timp real, utilizând o arhitectură end-to-end pentru a menține conversații vocale sincrone cu răspunsuri de latență scăzută. Proiectul pune accent pe eficiență prin modele edge cuantizate, permițând inferența locală pe hardware mobil și dispozitive cu resurse limitate. Utilizează cuantizarea ponderilor pe 4 biți, descărcarea proceselor pe CPU și încărcarea ponderilor la cerere pentru a reduce cerințele de memorie GPU. Sistemul integrează encodere specializate pentru a analiza fluxurile de date multimodale și dispune de un decoder de streaming pentru generarea vocală în timp real. Include, de asemenea, capabilități de personalizare a vocii pentru a modifica caracteristicile tonale și de gen ale ieșirii audio.
Optimizes VRAM usage for large models through 4-bit quantization and on-demand weight loading.
Jupyter Notebook
Vezi pe GitHub4,026
predibase/lorax
predibase/lorax
3,724Vezi pe GitHub
Lorax is a GPU-accelerated inference server and multi-adapter engine designed for serving large language models. It functions as a high-throughput system capable of deploying models via Kubernetes and managing the dynamic swapping of Low-Rank Adaptation adapters per request. The server distinguishes itself through multi-adapter dynamic batching, which allows requests using different adapter weights to be processed in a single GPU forward pass. It employs just-in-time adapter loading and weighted adapter merging to maximize throughput and enable multi-tasking without sacrificing performance.
Provides tools to optimize VRAM usage by balancing memory between the KV cache and adapter storage.
Pythonfine-tuninggptllama
Vezi pe GitHub3,724
fastai/course22
fastai/course22
3,398Vezi pe GitHub
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Releases stuck GPU memory by resetting devices or killing zombie processes.
Jupyter Notebookdeep-learningfastaijupyter-notebooks
Vezi pe GitHub3,398
thu-ml/turbodiffusion
thu-ml/TurboDiffusion
3,339Vezi pe GitHub
TurboDiffusion is a video diffusion inference engine and generator designed to create high-resolution videos from text prompts and images. It provides a runtime environment for executing optimized diffusion model checkpoints with a focus on reducing latency and GPU memory usage. The project features a specialized training framework for aligning sparse-linear attention models with pretrained full-attention models. This system includes capabilities for sparse attention parameter merging and sparse-linear model alignment to reduce computational costs during inference while maintaining output qua
Uses weight quantization to optimize VRAM usage, enabling execution on consumer-grade GPU hardware.
Pythonai-infraconsistency-modeldiffusion-models
Vezi pe GitHub3,339
nihui/waifu2x-ncnn-vulkan
nihui/waifu2x-ncnn-vulkan
3,326Vezi pe GitHub
waifu2x-ncnn-vulkan is an AI super-resolution tool and image processor that uses deep learning to increase image resolution and remove visual noise. It is an NCNN-based implementation designed for efficient neural network inference on local hardware. The project utilizes the Vulkan API to provide GPU-accelerated image scaling and noise reduction across diverse graphics hardware. It employs tiled image processing to prevent GPU memory overflow and multi-threaded model loading to reduce initial startup latency. The software covers functional domains including AI image upscaling for maintaining
Balances processing speed and graphics memory consumption by adjusting tile sizes and thread counts.
C++amdgpuintel
Vezi pe GitHub3,326