10 Repos
Systems for dynamically allocating and managing GPU compute and memory resources for workloads.
Distinct from GPU Allocations: Existing candidates focus on feature computation buffers or memory allocators rather than high-level cluster resource scheduling.
Explore 10 awesome GitHub repositories matching devops & infrastructure · GPU Resource Allocators. Refine with filters or upvote what's useful.
pysheeet ist eine technische Referenzbibliothek, die eine kuratierte Sammlung von Code-Snippets und Implementierungsmustern für fortgeschrittene Python-Entwicklung, Systemintegration und High-Performance-Computing bereitstellt. Sie dient als umfassender Leitfaden für die Implementierung von Low-Level-Netzwerkprogrammierung, nativen C-Erweiterungen sowie asynchroner und nebenläufiger Programmierung. Das Projekt bietet spezialisierte Frameworks für die Entwicklung und Bereitstellung von Large Language Models, einschließlich Werkzeugen für verteilte GPU-Inferenz und High-Performance-Serving. Es enthält zudem detaillierte Muster für die Orchestrierung von High-Performance-Computing-Clustern, die GPU-Ressourcenzuweisung und Multi-Node-Workload-Management abdecken. Die Bibliothek deckt ein breites Spektrum an Funktionen ab, einschließlich sicherer Netzwerkkommunikation und Kryptografie, Object-Relational-Mapping und Datenbankverwaltung sowie die Implementierung komplexer Datenstrukturen und Algorithmen. Sie bietet zudem Utilities für Speicherverwaltung, native Interoperabilität via Foreign-Function-Interfaces und systemnahe OS-Integration.
Offers implementations for reserving specific compute nodes exclusively to prevent interference during interactive sessions.
ClearML is a comprehensive MLOps platform designed to manage the end-to-end machine learning lifecycle, from initial experimentation to production deployment. It provides a suite of integrated tools including a pipeline orchestrator for automating workflows, an experiment tracking tool for logging hyperparameters and metrics, and a metadata-driven data versioning system for managing large-scale datasets and model artifacts. The platform is distinguished by its advanced compute management and serving capabilities. It features a GPU compute manager that supports fractional resource slicing and
Provides self-service and advanced scheduling for allocating GPU compute power and optimizing hardware throughput.
ClearML is a comprehensive MLOps platform designed to manage the entire machine learning lifecycle. It functions as an experiment tracking tool, a data versioning system, and a pipeline orchestrator, while providing infrastructure for GPU cluster management and model serving. The platform is distinguished by its ability to handle hybrid-cloud compute scheduling and fractional GPU allocation, allowing multiple workloads to share a single hardware accelerator. It employs a metadata-based approach to data versioning, using virtual views to track large datasets and artifacts without duplicating r
Controls hardware utilization via quotas and fractional GPU slicing to optimize resource allocation.
Nuclio is a high-performance serverless framework designed for Kubernetes that automatically executes user functions when events arrive from HTTP endpoints, message queues, or streaming data platforms. It processes hundreds of thousands of events per second per function instance through efficient parallel workers, and can allocate functions to run on either CPU or GPU hardware to match workload requirements for data processing or machine learning tasks. The platform scales function instances down to zero when idle and wakes them on demand based on incoming event load, while providing an event
Allocates serverless functions to run on either CPU or GPU hardware to match workload requirements.
KServe is a Kubernetes-native platform for deploying and serving machine learning models as scalable inference services. It supports both generative AI models, including large language models, and traditional predictive models from frameworks such as TensorFlow, PyTorch, Scikit-Learn, XGBoost, and ONNX. The platform manages the full lifecycle of model deployments, including revision tracking, canary rollouts, A/B testing, and automatic rollbacks, and provides serverless scale-to-zero capabilities for cost-efficient resource management. KServe distinguishes itself through a standardized infere
Allocates GPU resources, higher memory, and longer timeouts to meet the computational demands of content generation.
Quip Node Manager ist eine grafische Benutzeroberfläche für das Bereitstellen, Überwachen und Konfigurieren von Quip-Network-Nodes und deren zugehörigen Container-Stacks. Er dient als Dashboard für die Container-Orchestrierung, das es Nutzern ermöglicht, miteinander verbundene Anwendungsdienste ohne Command-Line-Tools zu verwalten. Das Projekt bietet einen Hardware-Beschleunigungs-Manager für das Mapping spezifischer CPU- und GPU-Rechenressourcen auf die Laufzeitumgebung und die Verwaltung des Gerätespeichers. Es enthält einen Validator für die Systembereitschaft, um die Verfügbarkeit von Container-Tools und die Erreichbarkeit von Netzwerk-Ports vor dem Starten des Anwendungs-Stacks zu verifizieren, sowie einen Reverse-Proxy-Manager, der Sicherheitszertifikate automatisch via DNS- und E-Mail-Verifizierung erwirbt und erneuert. Die Software bietet Funktionen für die automatisierte Node-Bereitstellung, das Streaming von Laufzeit-Logs in Echtzeit und die Überwachung von Software-Updates. Sie verfolgt Image-Digests und Anwendungs-Releases in festen Intervallen, um automatische Systemneustarts auszulösen, wenn Updates verfügbar sind.
Assigns specific CPU and GPU resources and manages device memory to optimize compute node performance.
ZenML is an extensible machine learning orchestration framework designed to manage the end-to-end lifecycle of data pipelines and AI agent workflows. It functions as a durable orchestrator that executes machine learning tasks as directed acyclic graphs, ensuring that every step is containerized for consistent performance across local, cloud, and hybrid infrastructure. By decoupling pipeline code from underlying compute and storage backends, the platform allows developers to define infrastructure-agnostic stacks that remain portable across diverse environments. The project distinguishes itself
Allocates specific CPU, memory, or GPU resources to pipeline execution to meet performance demands.
Cube Studio ist eine Cloud-native MLOps-Plattform und ein Kubernetes-basierter KI-Orchestrator, der für den gesamten Lebenszyklus des maschinellen Lernens konzipiert ist. Es bietet ein Framework für verteiltes Training zur Feinabstimmung großer Modelle, einen GPU-Ressourcenmanager für Hardware-Virtualisierung und einen ML-Pipeline-Orchestrator, der visuelle gerichtete azyklische Graphen zur Verwaltung von End-to-End-Workflows nutzt. Die Plattform zeichnet sich durch ihren spezialisierten LLM-Inference-Server aus, der Retrieval-Augmented Generation und den Aufbau privater Wissensdatenbanken unterstützt. Sie verfügt über ein dediziertes System für das überwachte Fine-Tuning und Reinforcement Learning großer Sprachmodelle, ergänzt durch visuelle Tools zur Hyperparameter-Suche. Das System deckt ein breites Spektrum operativer Fähigkeiten ab, darunter multimodale Datenlabeling-Prozesse, verteilte Datenpipelines und Multi-Cluster-Workload-Scheduling. Zudem bietet es browserbasierte interaktive Entwicklungsumgebungen, Container-Image-Management und eine Modell-Registry für die Versionierung und Bereitstellung skalierbarer Inference-APIs mit Traffic-Splitting. Die Infrastruktur umfasst ein integriertes Cluster-Health-Monitoring sowie rollenbasierte Zugriffskontrolle mit Single-Sign-On-Integration.
Virtually allocates and isolates GPU compute and memory resources across multi-tenant projects and edge nodes.
FedML ist eine Bibliothek für verteiltes Machine Learning-Training, ein Framework für Federated Learning und ein Orchestrator für GPU-Workloads. Es bietet die Kernsystemkomponenten, die für die Ausführung von groß angelegtem Modelltraining und Fine-Tuning über Multi-Cloud-, On-Premise- und dezentrale GPU-Cluster hinweg erforderlich sind, und bietet zudem eine dedizierte Engine für skalierbares Model-Serving sowie einen MLOps-Pipeline-Manager für das End-to-End-Lifecycle-Management. Die Plattform zeichnet sich dadurch aus, dass sie datenschutzfreundliches Federated Learning über dezentrale Edge-Geräte und organisatorische Silos hinweg ermöglicht, wobei Rohdaten auf der lokalen Hardware verbleiben. Sie bietet zudem einen Compute-Marktplatz für Ressourcen-Pooling, der es Benutzern ermöglicht, ungenutzte GPU-Kapazitäten für die verteilte Aufgabenausführung in einen gemeinsamen Pool einzubringen. Das System deckt ein breites Spektrum an Funktionen ab, darunter Multi-Cloud-GPU-Orchestrierung, automatisiertes Machine-Learning-Pipeline-Management und Edge-AI-Deployment für IoT-Geräte und Smartphones. Zudem integriert es Tools für das Fine-Tuning von Foundation-Modellen, Deployment von Inferenz mit geringer Latenz und das Tracking von Trainingsexperimenten mit Hardware-Performance-Profiling. Benutzer können Workloads über eine Command-Line-Interface und deklarative Konfigurationsdateien starten und planen.
Controls the allocation and placement of workloads across available GPU resources to optimize hardware utilization.
JStorm is a distributed stream processing engine designed for executing continuous, low-latency computations on high-volume data streams. It functions as a real-time data analytics platform that manages complex data pipelines through directed acyclic graph execution, coordinating task distribution across clusters to support event-driven systems. The platform maintains compatibility with existing Apache Storm topologies while providing enhanced stability for enterprise-grade environments. It distinguishes itself through automated fault-tolerant task orchestration, which detects component failu
Balances processing loads by dynamically allocating computational resources across hardware nodes.