3 Repos
Dynamically allocates GPU nodes across multiple virtual clusters to maximize hardware utilization.
Distinct from Black-Box Maximizers: None of the candidates describe Kubernetes-level GPU node allocation for multi-tenant density.
Explore 3 awesome GitHub repositories matching devops & infrastructure · GPU Resource Optimization. Refine with filters or upvote what's useful.
vcluster is a Kubernetes virtual cluster platform that creates fully isolated Kubernetes environments with dedicated control planes, API servers, and RBAC on shared physical infrastructure. It virtualizes Kubernetes control planes by running them as pods inside a host cluster, as standalone binaries on bare metal or virtual machines, or within Docker containers, providing each tenant their own isolated Kubernetes environment without the overhead of managing separate physical clusters. The platform enables multi-tenant Kubernetes isolation through multiple tenancy models, from shared node pool
Dynamically allocates GPU nodes across hundreds of isolated virtual clusters to maximize hardware utilization.
ClearML is a comprehensive MLOps platform designed to manage the end-to-end machine learning lifecycle, from initial experimentation to production deployment. It provides a suite of integrated tools including a pipeline orchestrator for automating workflows, an experiment tracking tool for logging hyperparameters and metrics, and a metadata-driven data versioning system for managing large-scale datasets and model artifacts. The platform is distinguished by its advanced compute management and serving capabilities. It features a GPU compute manager that supports fractional resource slicing and
Increases hardware capacity through workload scheduling and fractional GPU management.
Aibrix ist ein Inferenz-Orchestrator, der für die Skalierung, das Routing und die Verwaltung der Bereitstellung großer Sprachmodelle über verteilte vLLM-Cluster entwickelt wurde. Er dient als zentrales Gateway für Load-Balancing und das Routing von Traffic zu spezifischen Modell-Replikaten und -Versionen. Das System verwaltet Ressourceneffizienz durch einen GPU-Cluster-Autoscaler, der die Anzahl der Compute-Instanzen basierend auf dem Echtzeit-Request-Volumen anpasst. Es optimiert den Betrieb weiter durch das Mischen verschiedener Beschleunigertypen innerhalb eines Clusters und die Nutzung eines Modell-Adapter-Orchestrators, um leichtgewichtige Parameter-Adapter auf geteilten Basismodellen bereitzustellen. Zu den breiten Funktionen gehören die Verwendung eines verteilten Key-Value-Cache-Managers zum Teilen von Token-Daten über Inferenz-Engines hinweg und die Implementierung von Hardware-Health-Monitoring zur Erkennung von Ausfällen der Verarbeitungseinheiten. Das Projekt bietet zudem eine einheitliche Metrik-Pipeline, um die Sammlung von Performancedaten über diverse Laufzeitumgebungen hinweg zu standardisieren.
Optimizes operational costs by mixing different accelerator types and monitoring hardware health within a single cluster.