18 repository-uri
Strategies for managing complex parallelism to maximize hardware utilization during deep learning workloads.
Distinct from Distributed Computing: The candidates focus on general distributed computing or task runners, not specifically the coordination of ML parallelism strategies.
Explore 18 awesome GitHub repositories matching artificial intelligence & ml · Distributed GPU Computing. Refine with filters or upvote what's useful.
Megatron-LM is a distributed transformer training library and large language model training framework designed to scale models across thousands of GPUs. It functions as a GPU-optimized deep learning toolkit and a scaling engine for mixture-of-experts architectures, enabling the training of models with hundreds of billions of parameters. The project implements multi-dimensional model parallelism, combining tensor, pipeline, data, expert, and context-based workload distribution. It specifically optimizes mixture-of-experts architectures through integrated memory and communication improvements t
Manages complex tensor, pipeline, and data parallelism strategies to maximize hardware utilization.
Horovod is a distributed deep learning framework designed to scale machine learning training across multiple GPUs and nodes. It functions as an orchestrator for multi-GPU scaling and a tool for distributed gradient averaging, allowing users to increase compute capacity without rewriting core model logic. The project provides a consistent communication interface that supports multi-framework model distribution across TensorFlow, PyTorch, Keras, and MXNet. It leverages an MPI distributed training library to synchronize gradients across processes using collective communication operations. The s
Expands compute capacity by distributing training scripts across multiple GPU hosts.
This project is a quantized fine-tuning framework for large language models. It implements a low-rank adaptation library and a four-bit quantizer to reduce the GPU memory requirements needed to train large models. The framework utilizes four-bit quantization and low-rank adapters to enable model training on consumer-grade hardware. It further reduces the memory footprint through double quantization and a paged optimizer that offloads states to system RAM. The system supports distributed training across multiple GPUs to handle larger parameter scales and includes utilities for custom dataset
Implements a system for managing parallelism across multiple GPUs to increase the scale of trainable parameters.
Petals is a decentralized framework and inference engine for running large language models across a peer-to-peer network. It enables the execution of models that exceed the memory of any single machine by splitting computations and model layers across a collaborative swarm of GPUs. The system functions as a collaborative compute network where participants share local GPU resources and host model weights. It supports distributed prompt-tuning to adapt massive models to specific tasks and allows for the establishment of private compute swarms to process sensitive data within restricted, trusted
Establishes a decentralized network of connected devices that collectively host model weights and execute inference.
cuDF is a GPU-accelerated dataframe library and data processing engine designed for manipulating and analyzing large tabular datasets. It provides a high-level API for executing filtering, joining, and aggregating operations directly on GPU hardware. The project integrates the Apache Arrow memory format to enable zero-copy data transfers and includes a just-in-time compiler for executing custom user-defined functions on the GPU. The library features specialized acceleration for existing workflows by redirecting standard Pandas dataframe calls and Polars query plans to a GPU backend. It also p
Integrates with Dask to scale tabular datasets across multiple GPU devices for memory-exceeding workloads.
TensorTrade is a reinforcement learning trading framework designed for training and deploying autonomous agents that optimize financial market strategies. It provides an algorithmic trading simulation environment where agents can be tested against market data using simulated broker environments. The framework features a distributed training system using RLlib to optimize decision policies across large datasets. It includes a walk-forward validation tool that evaluates trading strategies through windowed performance analysis to prevent overfitting and measure real-world viability. The project
Scales the optimization of trading policies across large datasets using RLlib for distributed training.
Acest proiect este o implementare PyTorch a unui transformer text-to-image. Este un model AI generativ conceput pentru a mapa token-urile discrete de text la pixelii imaginii, folosind o rețea transformer pentru a crea conținut vizual din descrieri textuale. Sistemul utilizează un encoder de imagine VAE discret pentru a comprima datele vizuale în token-uri pentru procesarea transformer. Suportă ghidarea fără clasificator (classifier-free guidance) pentru a ajusta influența prompt-urilor text în timpul inferenței și include capabilități pentru clasarea imaginilor generate pe baza similarității lor cu prompt-urile text. Arhitectura încorporează mecanisme de atenție rară și rețele reziduale reversibile pentru a optimiza complexitatea computațională și consumul de memorie. Capabilitățile de antrenament includ scalarea GPU distribuită și framework-uri pentru gestionarea sarcinilor la scară largă pe mai multe procesoare grafice, pentru a asocia imaginile cu descrierile text. Implementarea oferă suport pentru tokenizarea textului personalizat prin integrarea tokenizer-elor pre-antrenate sau a modelelor de limbaj.
Employs distributed GPU computing strategies to maximize hardware utilization during the training of large vision models.
Aceasta este o implementare PyTorch de deep learning pentru antrenarea modelelor de limbaj bazate pe transformer. Funcționează ca un trainer GPU distribuit și un framework conceput pentru a optimiza modelele de predicție a textului pentru viteză crescută și eficiență a eșantionării. Proiectul se distinge prin utilizarea optimizatorului de ponderi Newton-Schulz. Această metodă aplică un proces iterativ pentru a menține actualizări semi-ortogonale ale parametrilor și matricelor de ponderi, ceea ce îmbunătățește eficiența eșantionării și reduce overhead-ul de memorie în timpul procesului de antrenare. Framework-ul acoperă capabilități largi în calculul GPU distribuit, inclusiv paralelismul datelor pentru a scala workload-urile pe mai multe procesoare grafice. De asemenea, încorporează tehnici de optimizare a rețelelor neuronale, cum ar fi optimizarea iterativă a momentum-ului și procesarea în loturi (batch) de mare capacitate.
Coordinates complex parallelism across multiple GPUs to maximize hardware utilization during deep learning workloads.
cuml este o bibliotecă de machine learning accelerată pe GPU și un framework care utilizează CUDA pentru a accelera preprocesarea datelor tabelare și execuția modelelor. Oferă o suită de instrumente pentru antrenarea și implementarea modelelor de clasificare, regresie și clustering pe GPU-uri NVIDIA și clustere GPU. Biblioteca este concepută pentru scalabilitate, oferind un mediu de machine learning GPU distribuit care poate răspândi calculul și datele pe mai multe acceleratoare hardware și noduri pentru a gestiona seturi de date care depășesc memoria unui singur dispozitiv. Oglindește interfețele standard ale estimatorilor pentru a permite înlocuirea modelelor bazate pe CPU cu versiuni accelerate pe GPU în cadrul fluxurilor de lucru existente. Proiectul acoperă o gamă largă de capabilități de machine learning, incluzând învățarea supervizată, clustering-ul nesupervizat, căutarea celui mai apropiat vecin și reducerea dimensionalității de înaltă dimensiune. Include, de asemenea, preprocesarea datelor tabelare accelerată hardware pentru scalarea și codificarea caracteristicilor, extracția caracteristicilor textuale, analiza seriilor temporale și explicabilitatea predicțiilor modelului. Utilitarele de suport includ instrumente pentru generarea de seturi de date sintetice, serializarea stării modelului și calcularea metricilor de performanță ale modelului.
Scales machine learning workloads across multiple GPUs and compute nodes to process datasets exceeding single-device memory.
TransformerLab este o platformă de orchestrare MLOps și un mediu de cercetare conceput pentru antrenarea, fine-tuning-ul și evaluarea modelelor de limbaj mari. Servește ca un plan de control centralizat pentru gestionarea joburilor de machine learning și coordonarea compute-ului GPU distribuit pe furnizori de cloud hibrid și on-premise. Platforma se distinge prin optimizarea modelului condusă de agenți, utilizând asistenți AI pentru a analiza metricile și a propune și pune automat în coadă experimente de hiperparametri. Oferă un mediu de dezvoltare la distanță care permite utilizatorilor să lanseze notebook-uri interactive, editoare de cod și sesiuni secure shell direct pe nodurile de calcul la distanță. Sistemul acoperă o gamă largă de capabilități de flux de lucru pentru machine learning, inclusiv coordonarea sarcinilor distribuite, sweep-uri automatizate de hiperparametri și urmărirea cuprinzătoare a experimentelor. Dispune de registre integrate pentru versionarea seturilor de date și a artefactelor de model, precum și instrumente pentru evaluarea performanței modelului și implementarea serverului de inferență. Este furnizată o interfață în linie de comandă pentru controlul platformei, monitorizarea joburilor și gestionarea instalării și actualizărilor instanței locale de server.
Coordinates training workloads and provisions ephemeral instances across multiple cloud and on-premise providers.
StableSwarmUI este o interfață web și un orchestrator backend pentru generarea de imagini Stable Diffusion. Acesta funcționează ca un generator de imagini GPU distribuit și un pipeline modular de imagini AI, oferind un controler centralizat pentru a gestiona cererile de generare de imagini. Sistemul se distinge prin abilitatea de a împărți sarcinile de generare între mai multe procesoare grafice pentru a crește throughput-ul batch-urilor. Utilizează o interfață agnostică față de backend pentru a se conecta la servere locale, servere la distanță și API-uri cloud, și include un designer de flux de lucru vizual bazat pe grafuri pentru definirea operațiunilor complexe de procesare a imaginilor. Platforma include un sistem dinamic de extensii plugin pentru adăugarea de funcționalități personalizate și utilitare automatizate pentru provizionarea dependențelor la nivel de sistem. Combină instrumente de generare modulare și interfețe de editare rapidă cu capacitatea de a ruta sarcinile de lucru pe hardware distribuit.
Manages computational parallelism across multiple GPUs to maximize hardware utilization during image generation.
NCCL este o bibliotecă de comunicare de înaltă performanță și un framework de calcul distribuit pe GPU, conceput pentru executarea schimburilor de date colective și punct-la-punct pe mai multe GPU-uri în sisteme cu un singur nod sau multi-nod. Servește ca strat de transport RDMA pentru GPU și orchestrator de memorie, facilitând sincronizarea cu lățime de bandă mare a datelor și a gradienților de model pentru antrenarea și inferența distribuită pe GPU. Biblioteca se distinge prin capacitatea sa de a executa primitive de comunicare direct din kernel-urile GPU, eliminând CPU-ul gazdă din calea critică. Utilizează selecția de căi conștientă de topologie pentru a optimiza mișcarea datelor și folosește transportul de rețea bazat pe RDMA, inclusiv InfiniBand și NVLink, pentru a permite accesul la memorie zero-copy între dispozitive pe diferite noduri fizice. Proiectul acoperă o gamă largă de tipare de comunicare colectivă, inclusiv reduceri, broadcast-uri, gather-uri și schimburi all-to-all, alături de accesul la memorie la distanță punct-la-punct. Oferă gestionare cuprinzătoare a comunicatorului pentru inițializarea, partiționarea și redimensionarea grupurilor GPU, precum și gestionarea specializată a memoriei pentru înregistrarea bufferelor și coordonarea memoriei partajate a dispozitivului. Sistemul include o suită de instrumente de monitorizare și observabilitate pentru urmărirea stării, logarea diagnostică și monitorizarea evenimentelor în timp real, precum și interfețe de integrare pentru framework-uri de machine learning, CUDA graphs, MPI și Python.
A low-level communication layer that synchronizes data and manages device communicators for large-scale distributed training and inference.
Amazon DSSTNE este un toolkit de machine learning și o bibliotecă de rețele tensoriale rare (sparse) concepută pentru modele de deep learning cu input-uri și output-uri rare. Oferă un framework de antrenare model-parallel și un motor sparse accelerat GPU pentru a suporta rețele care consumă multă memorie. Framework-ul este conceput special pentru antrenarea sistemelor de recomandare și învățarea sparse la scară largă. Permite distribuirea matricelor mari de ponderi și a tabelelor de embedding pe mai multe dispozitive GPU pentru a gestiona modele care depășesc capacitatea de memorie a unui singur procesor. Proiectul acoperă o gamă largă de capabilități, inclusiv calculul distribuit pe GPU, procesarea seturilor de date rare și construcția de rețele tensoriale rare scalabile. Aceste utilitare permit execuția operațiunilor de machine learning de înaltă performanță și scalarea modelelor pe clustere GPU.
Distributes training and prediction tasks across multiple GPUs to increase processing speed and memory capacity.
SLIME is a distributed reinforcement learning framework for large language model post-training that bridges Megatron training with SGLang inference servers. It orchestrates scalable RL loops across GPU clusters, decoupling training and inference into independent processes that communicate over HTTP and NCCL for independent scaling and fault tolerance. The system supports multi-agent reinforcement learning workflows with parallel agent instances, customizable rollout strategies, and personalized agent serving that improves models from prior conversations without disrupting API serving. The fra
A pipeline that decouples training and inference engines across GPU clusters to optimize throughput and memory for large-scale RL workloads.
CML este un instrument de automatizare a pipeline-urilor pentru antrenarea și evaluarea modelelor de machine learning, funcționând ca un sistem CI/CD pentru machine learning. Servește drept orchestrator de calcul în cloud și manager de flux de lucru bazat pe Git, care automatizează ciclurile de antrenare a modelelor prin gestionarea branch-urilor, commit-uri automate și raportare integrată. Proiectul se distinge prin provizionarea de instanțe cloud efemere sau noduri Kubernetes pentru a oferi hardware specializat pentru sarcini intensive de calcul. De asemenea, gestionează runneri de calcul la distanță, permițând conectarea clusterelor GPU self-hosted sau a mașinilor on-premise pentru a executa fluxuri de lucru de machine learning containerizate. Sistemul acoperă o gamă largă de capabilități, inclusiv monitorizarea experimentelor ML, unde metricile de performanță și vizualizările sunt postate direct în pull request-urile de control al versiunilor. Gestionează automatizarea pipeline-ului ML de la importul inițial al datelor și versionare până la generarea de rapoarte de flux de lucru formatate și link-uri de vizualizare externă. Instrumentul oferă utilitate suplimentară pentru gestionarea infrastructurii prin depanare la distanță bazată pe SSH și capacitatea de a relua joburile întrerupte.
Orchestrates the lifecycle of ephemeral compute instances across hybrid cloud and on-premise providers for ML workloads.
Acme is a reinforcement learning framework and execution engine designed for developing and benchmarking learning algorithms. It provides a library of modular components and reference implementations used to construct agents and establish performance baselines. The system enables the scaling of agent architectures from single-stream execution to large distributed environments. This allows for the transition from initial prototyping to distributed execution for training and evaluation. The framework covers reinforcement learning development and agent architecture prototyping, providing the bu
Acts as an execution engine for scaling reinforcement learning training and rollout generation across distributed GPU nodes.
IsaacGymEnvs is a GPU-accelerated physics sandbox and robotics policy training suite designed for reinforcement learning. It serves as a vectorized robotic simulator that runs thousands of parallel environments on GPUs to accelerate the training of neural networks. The project provides a sim-to-real transfer framework that utilizes domain randomization and physics variations to ensure policies trained in simulation are robust enough for deployment on real hardware. It distinguishes itself through a high-performance architecture that uses tensor-based state management to handle observations an
Scales reinforcement learning training loops and rollout generation across multiple GPU nodes to maximize throughput.
RLinf is a distributed reinforcement learning orchestrator and embodied AI training framework. It provides the infrastructure to train vision-language-action models and robotic policies using a combination of reinforcement learning and supervised fine-tuning. The system is designed for scaling workloads across GPU clusters, managing the placement of actors, rollout workers, and environment components. It features a specialized robotics data collection pipeline for gathering teleoperated demonstrations and simulation trajectories into standardized replay buffers, alongside a hardware interface
Scales reinforcement learning workloads across GPU clusters by managing worker placement and asynchronous data exchange.