18 Repos
Strategies for managing complex parallelism to maximize hardware utilization during deep learning workloads.
Distinct from Distributed Computing: The candidates focus on general distributed computing or task runners, not specifically the coordination of ML parallelism strategies.
Explore 18 awesome GitHub repositories matching artificial intelligence & ml · Distributed GPU Computing. Refine with filters or upvote what's useful.
Megatron-LM is a distributed transformer training library and large language model training framework designed to scale models across thousands of GPUs. It functions as a GPU-optimized deep learning toolkit and a scaling engine for mixture-of-experts architectures, enabling the training of models with hundreds of billions of parameters. The project implements multi-dimensional model parallelism, combining tensor, pipeline, data, expert, and context-based workload distribution. It specifically optimizes mixture-of-experts architectures through integrated memory and communication improvements t
Manages complex tensor, pipeline, and data parallelism strategies to maximize hardware utilization.
Horovod is a distributed deep learning framework designed to scale machine learning training across multiple GPUs and nodes. It functions as an orchestrator for multi-GPU scaling and a tool for distributed gradient averaging, allowing users to increase compute capacity without rewriting core model logic. The project provides a consistent communication interface that supports multi-framework model distribution across TensorFlow, PyTorch, Keras, and MXNet. It leverages an MPI distributed training library to synchronize gradients across processes using collective communication operations. The s
Expands compute capacity by distributing training scripts across multiple GPU hosts.
This project is a quantized fine-tuning framework for large language models. It implements a low-rank adaptation library and a four-bit quantizer to reduce the GPU memory requirements needed to train large models. The framework utilizes four-bit quantization and low-rank adapters to enable model training on consumer-grade hardware. It further reduces the memory footprint through double quantization and a paged optimizer that offloads states to system RAM. The system supports distributed training across multiple GPUs to handle larger parameter scales and includes utilities for custom dataset
Implements a system for managing parallelism across multiple GPUs to increase the scale of trainable parameters.
Petals is a decentralized framework and inference engine for running large language models across a peer-to-peer network. It enables the execution of models that exceed the memory of any single machine by splitting computations and model layers across a collaborative swarm of GPUs. The system functions as a collaborative compute network where participants share local GPU resources and host model weights. It supports distributed prompt-tuning to adapt massive models to specific tasks and allows for the establishment of private compute swarms to process sensitive data within restricted, trusted
Establishes a decentralized network of connected devices that collectively host model weights and execute inference.
cuDF is a GPU-accelerated dataframe library and data processing engine designed for manipulating and analyzing large tabular datasets. It provides a high-level API for executing filtering, joining, and aggregating operations directly on GPU hardware. The project integrates the Apache Arrow memory format to enable zero-copy data transfers and includes a just-in-time compiler for executing custom user-defined functions on the GPU. The library features specialized acceleration for existing workflows by redirecting standard Pandas dataframe calls and Polars query plans to a GPU backend. It also p
Integrates with Dask to scale tabular datasets across multiple GPU devices for memory-exceeding workloads.
TensorTrade is a reinforcement learning trading framework designed for training and deploying autonomous agents that optimize financial market strategies. It provides an algorithmic trading simulation environment where agents can be tested against market data using simulated broker environments. The framework features a distributed training system using RLlib to optimize decision policies across large datasets. It includes a walk-forward validation tool that evaluates trading strategies through windowed performance analysis to prevent overfitting and measure real-world viability. The project
Scales the optimization of trading policies across large datasets using RLlib for distributed training.
This project is a PyTorch implementation of a text-to-image transformer. It is a generative AI model designed to map discrete text tokens to image pixels using a transformer network to create visual content from textual descriptions. The system utilizes a discrete VAE image encoder to compress visual data into tokens for transformer processing. It supports classifier-free guidance to adjust the influence of text prompts during inference and includes capabilities for ranking generated images based on their similarity to text prompts. The architecture incorporates sparse attention mechanisms a
Employs distributed GPU computing strategies to maximize hardware utilization during the training of large vision models.
Dies ist eine PyTorch-Deep-Learning-Implementierung für das Training von Transformer-basierten Sprachmodellen. Sie fungiert als verteiltes GPU-Training-Framework, das darauf ausgelegt ist, Textvorhersagemodelle für erhöhte Geschwindigkeit und Sample-Effizienz zu optimieren. Das Projekt zeichnet sich durch die Verwendung des Newton-Schulz-Gewichtsoptimierers aus. Diese Methode wendet einen iterativen Prozess an, um semi-orthogonale Parameter-Updates und Gewichtsmatrizen beizubehalten, was die Sample-Effizienz verbessert und den Speicher-Overhead während des Trainingsprozesses reduziert. Das Framework deckt breite Funktionen im Bereich verteiltes GPU-Computing ab, einschließlich Datenparallelität zur Skalierung von Workloads über mehrere Grafikprozessoren hinweg. Zudem integriert es Optimierungstechniken für neuronale Netze wie iterative Momentum-Optimierung und High-Throughput-Batch-Processing.
Coordinates complex parallelism across multiple GPUs to maximize hardware utilization during deep learning workloads.
cuml ist eine GPU-beschleunigte Machine-Learning-Bibliothek und ein Framework, das CUDA nutzt, um die Vorverarbeitung tabellarischer Daten und die Modellausführung zu beschleunigen. Es bietet eine Suite von Tools zum Trainieren und Bereitstellen von Klassifizierungs-, Regressions- und Clustering-Modellen auf NVIDIA-GPUs und GPU-Clustern. Die Bibliothek ist auf Skalierbarkeit ausgelegt und bietet eine verteilte GPU-Machine-Learning-Umgebung, die Berechnungen und Daten über mehrere Hardware-Beschleuniger und Knoten hinweg verteilen kann, um Datensätze zu verarbeiten, die den Speicher eines einzelnen Geräts überschreiten. Sie spiegelt Standard-Estimator-Schnittstellen wider, um den Austausch von CPU-basierten Modellen durch GPU-beschleunigte Versionen innerhalb bestehender Workflows zu ermöglichen. Das Projekt deckt ein breites Spektrum an Machine-Learning-Funktionen ab, einschließlich überwachtem Lernen, unüberwachtem Clustering, Nearest-Neighbor-Suche und hochdimensionaler Dimensionsreduktion. Es enthält zudem hardwarebeschleunigte Vorverarbeitung tabellarischer Daten für Feature-Skalierung und -Kodierung, Text-Feature-Extraktion, Zeitreihenanalyse und Erklärbarkeit von Modellvorhersagen. Unterstützende Hilfsmittel umfassen Tools zur Generierung synthetischer Datensätze, zur Serialisierung des Modellzustands und zur Berechnung von Modell-Performance-Metriken.
Scales machine learning workloads across multiple GPUs and compute nodes to process datasets exceeding single-device memory.
TransformerLab ist eine MLOps-Orchestrierungsplattform und Forschungsumgebung, die für das Training, Fine-Tuning und die Evaluierung von Large Language Models entwickelt wurde. Sie dient als zentralisierte Steuerungsebene für das Management von Machine-Learning-Jobs und die Koordination verteilter GPU-Rechenleistung über hybride Cloud- und On-Premise-Anbieter hinweg. Die Plattform zeichnet sich durch agentengesteuerte Modelloptimierung aus und nutzt KI-Assistenten, um Metriken zu analysieren und automatisch Hyperparameter-Experimente vorzuschlagen und in die Warteschlange einzureihen. Sie bietet eine Remote-Entwicklungsumgebung, die es Benutzern ermöglicht, interaktive Notebooks, Code-Editoren und Secure-Shell-Sitzungen direkt auf Remote-Rechenknoten zu starten. Das System deckt ein breites Spektrum an Machine-Learning-Workflow-Funktionen ab, einschließlich verteilter Aufgabenkoordination, automatisierter Hyperparameter-Sweeps und umfassendem Experiment-Tracking. Es verfügt über integrierte Registries für die Versionierung von Datensätzen und Modell-Artefakten sowie Tools für die Evaluierung der Modell-Performance und das Deployment von Inference-Servern. Ein Command-Line-Interface wird für die Plattformsteuerung, das Job-Monitoring sowie die Verwaltung der Installation und Updates der lokalen Serverinstanz bereitgestellt.
Coordinates training workloads and provisions ephemeral instances across multiple cloud and on-premise providers.
StableSwarmUI ist eine Weboberfläche und ein Backend-Orchestrator für die Stable Diffusion-Bildgenerierung. Es fungiert als verteilter GPU-Bildgenerator und modulare KI-Bild-Pipeline und bietet einen zentralen Controller zur Verwaltung von Bildgenerierungsanfragen. Das System zeichnet sich durch die Fähigkeit aus, Generierungsaufgaben auf mehrere Grafikprozessoren aufzuteilen, um den Batch-Durchsatz zu erhöhen. Es nutzt eine Backend-agnostische Schnittstelle, um eine Verbindung zu lokalen Servern, Remote-Servern und Cloud-APIs herzustellen, und enthält einen grafbasierten visuellen Workflow-Designer für die Definition komplexer Bildverarbeitungsoperationen. Die Plattform umfasst ein dynamisches Plugin-Erweiterungssystem für das Hinzufügen benutzerdefinierter Funktionen und automatisierte Dienstprogramme für die Bereitstellung systemweiter Abhängigkeiten. Sie kombiniert modulare Generierungstools und schnelle Bearbeitungsoberflächen mit der Fähigkeit, Arbeitslasten über verteilte Hardware hinweg weiterzuleiten.
Manages computational parallelism across multiple GPUs to maximize hardware utilization during image generation.
NCCL ist eine Hochleistungs-Kommunikationsbibliothek und ein Framework für verteiltes GPU-Computing, das für die Ausführung kollektiver und Punkt-zu-Punkt-Datenaustausche über mehrere GPUs in Einzel- oder Multi-Node-Systemen entwickelt wurde. Es dient als RDMA-GPU-Transportschicht und Speicher-Orchestrator, der die hochbandbreitige Synchronisation von Daten und Modellgradienten für verteiltes GPU-Training und Inference erleichtert. Die Bibliothek zeichnet sich durch ihre Fähigkeit aus, Kommunikationsprimitive direkt aus GPU-Kernels auszuführen, wodurch die Host-CPU aus dem kritischen Pfad entfernt wird. Sie nutzt topologiebewusste Pfadauswahl zur Optimierung der Datenbewegung und verwendet RDMA-basierten Netzwerktransport, einschließlich InfiniBand und NVLink, um Zero-Copy-Speicherzugriffe zwischen Geräten über verschiedene physische Knoten hinweg zu ermöglichen. Das Projekt deckt eine breite Palette an kollektiven Kommunikationsmustern ab, darunter Reduktionen, Broadcasts, Gathers und All-to-All-Austausche, neben Punkt-zu-Punkt-Remote-Speicherzugriffen. Es bietet umfassendes Communicator-Management für die Initialisierung, Partitionierung und Größenanpassung von GPU-Gruppen sowie spezialisiertes Speichermanagement für das Registrieren von Buffern und das Koordinieren von gemeinsam genutztem Gerätespeicher. Das System enthält eine Suite von Monitoring- und Observability-Tools für Health-Tracking, diagnostisches Logging und Echtzeit-Ereignisüberwachung sowie Integrationsschnittstellen für Machine-Learning-Frameworks, CUDA-Graphs, MPI und Python.
A low-level communication layer that synchronizes data and manages device communicators for large-scale distributed training and inference.
Amazon DSSTNE is a machine learning toolkit and sparse tensor network library designed for deep learning models with sparse inputs and outputs. It provides a model-parallel training framework and a GPU-accelerated sparse engine to support memory-intensive networks. The framework is specifically designed for recommendation system training and large-scale sparse learning. It enables the distribution of large weight matrices and embedding tables across multiple GPU devices to handle models that exceed the memory capacity of a single processor. The project covers a broad range of capabilities in
Distributes training and prediction tasks across multiple GPUs to increase processing speed and memory capacity.
SLIME is a distributed reinforcement learning framework for large language model post-training that bridges Megatron training with SGLang inference servers. It orchestrates scalable RL loops across GPU clusters, decoupling training and inference into independent processes that communicate over HTTP and NCCL for independent scaling and fault tolerance. The system supports multi-agent reinforcement learning workflows with parallel agent instances, customizable rollout strategies, and personalized agent serving that improves models from prior conversations without disrupting API serving. The fra
A pipeline that decouples training and inference engines across GPU clusters to optimize throughput and memory for large-scale RL workloads.
CML ist ein Pipeline-Automatisierungstool zum Trainieren und Evaluieren von Machine-Learning-Modellen und fungiert als CI/CD-System für Machine Learning. Es dient als Cloud-Compute-Orchestrator und Git-basierter Workflow-Manager, der Machine-Learning-Trainingszyklen durch Branch-Management, automatisierte Commits und integriertes Reporting automatisiert. Das Projekt zeichnet sich dadurch aus, dass es ephemere Cloud-Instanzen oder Kubernetes-Nodes bereitstellt, um spezialisierte Hardware für rechenintensive Aufgaben zur Verfügung zu stellen. Es verwaltet zudem Remote-Compute-Runner, was die Anbindung selbstgehosteter GPU-Cluster oder On-Premise-Maschinen zur Ausführung containerisierter Machine-Learning-Workflows ermöglicht. Das System deckt ein breites Spektrum an Funktionen ab, einschließlich ML-Experiment-Tracking, bei dem Leistungsmetriken und Visualisierungen direkt in Pull Requests der Versionsverwaltung gepostet werden. Es handhabt die ML-Pipeline-Automatisierung vom initialen Datenimport und der Versionierung bis hin zur Generierung formatierter Workflow-Berichte und externer Visualisierungslinks. Das Tool bietet zusätzlichen Nutzen für das Infrastruktur-Management durch SSH-basiertes Remote-Debugging und die Möglichkeit, unterbrochene Jobs fortzusetzen.
Orchestrates the lifecycle of ephemeral compute instances across hybrid cloud and on-premise providers for ML workloads.
Acme ist ein Framework für Reinforcement Learning und eine Ausführungsumgebung, die für die Entwicklung und das Benchmarking von Lernalgorithmen konzipiert wurde. Es bietet eine Bibliothek modularer Komponenten und Referenzimplementierungen, mit denen Agenten erstellt und Performance-Baselines etabliert werden können. Das System ermöglicht die Skalierung von Agenten-Architekturen von der Single-Stream-Ausführung bis hin zu großen verteilten Umgebungen. Dies erlaubt den Übergang vom ersten Prototyping zur verteilten Ausführung für Training und Evaluierung. Das Framework deckt die Entwicklung von Reinforcement Learning und das Prototyping von Agenten-Architekturen ab und liefert die notwendigen Bausteine, um neue Modelle gegen Standard-Referenzagenten zu benchen.
Acts as an execution engine for scaling reinforcement learning training and rollout generation across distributed GPU nodes.
IsaacGymEnvs is a GPU-accelerated physics sandbox and robotics policy training suite designed for reinforcement learning. It serves as a vectorized robotic simulator that runs thousands of parallel environments on GPUs to accelerate the training of neural networks. The project provides a sim-to-real transfer framework that utilizes domain randomization and physics variations to ensure policies trained in simulation are robust enough for deployment on real hardware. It distinguishes itself through a high-performance architecture that uses tensor-based state management to handle observations an
Scales reinforcement learning training loops and rollout generation across multiple GPU nodes to maximize throughput.
RLinf is a distributed reinforcement learning orchestrator and embodied AI training framework. It provides the infrastructure to train vision-language-action models and robotic policies using a combination of reinforcement learning and supervised fine-tuning. The system is designed for scaling workloads across GPU clusters, managing the placement of actors, rollout workers, and environment components. It features a specialized robotics data collection pipeline for gathering teleoperated demonstrations and simulation trajectories into standardized replay buffers, alongside a hardware interface
Scales reinforcement learning workloads across GPU clusters by managing worker placement and asynchronous data exchange.