15 Repos
Platforms for hosting and serving machine learning models via APIs.
Distinguishing note: Focuses on the serving interface for multi-modal models.
Explore 15 awesome GitHub repositories matching artificial intelligence & ml · Model Serving Frameworks. Refine with filters or upvote what's useful.
LocalAI is a self-hosted inference server that enables the execution of machine learning models directly on local hardware. By providing a unified interface for text, image, and audio processing, it allows users to maintain full control over data privacy and infrastructure costs while eliminating dependencies on external network services. The platform functions as an API gateway that mimics standard cloud-based artificial intelligence interfaces, allowing existing applications to integrate local models as drop-in replacements. It utilizes a container-based architecture to package runtimes and
Serves machine learning models through a compatible interface that handles text, image, and audio requests while optimizing system performance.
Ray is a distributed computing framework designed to scale Python and Java applications across clusters by abstracting task scheduling and resource management. It functions as a resource-aware execution engine that manages task dependencies, placement, and fault tolerance across networked compute nodes. At its core, the system provides a stateful actor model, allowing developers to define classes that run in dedicated processes to maintain and mutate internal state across remote method calls. The framework distinguishes itself through a robust cross-language interoperability layer, enabling f
Deploying and scaling complex model pipelines across multiple GPUs to handle high-throughput requests with automatic resource autoscaling.
PowerInfer is an inference engine and serving framework designed to run large language models on local hardware. It combines a hybrid CPU-GPU offloader, a quantization tool, and a sparse model optimizer to enable the execution of high-parameter models on consumer-grade devices. The system distinguishes itself through neuron-activation-based offloading, using a predictor model to preload frequent neurons into VRAM while keeping rare neurons in system memory. This hybrid execution model balances workloads between the GPU and CPU based on input patterns to optimize memory access and increase tok
Ships a web service framework for hosting large language models with batch generation and API access.
jetson-inference is a set of libraries and tools for executing optimized deep learning models on embedded GPU hardware. Its primary purpose is to enable real-time computer vision and AI inference at the edge with low latency and high throughput. The project distinguishes itself through high-performance streaming analytics and the ability to execute concurrent AI pipelines on auto-grade silicon. It provides specialized support for multi-sensor stream processing, utilizing zero-copy data transport to load camera frames directly into GPU memory. The codebase covers a broad surface of capabiliti
Serves models from multiple frameworks across diverse hardware accelerators and CPUs using optimized configurations.
Integrates deployment, scheduling, and monitoring for model serving frameworks.
ToolBench is an open platform for training, serving, and evaluating large language models that retrieve and call real-world APIs to complete user instructions. It provides an API-aware inference engine that selects relevant tools from a large corpus and generates sequences of tool calls to produce final answers, along with a custom API registration system that lets users add their own REST endpoints for the model to discover and invoke. The platform includes a complete instruction-tuning pipeline for training models on curated tool-use data, a multi-tool execution engine that coordinates sequ
Provides a web-based chat interface and REST endpoints for serving fine-tuned models with tool-augmented responses.
KServe is a Kubernetes-native platform for deploying and serving machine learning models as scalable inference services. It supports both generative AI models, including large language models, and traditional predictive models from frameworks such as TensorFlow, PyTorch, Scikit-Learn, XGBoost, and ONNX. The platform manages the full lifecycle of model deployments, including revision tracking, canary rollouts, A/B testing, and automatic rollbacks, and provides serverless scale-to-zero capabilities for cost-efficient resource management. KServe distinguishes itself through a standardized infere
Supports serving models from TensorFlow, PyTorch, Scikit-Learn, XGBoost, ONNX, and Hugging Face with standardized inference protocols.
KServe is an open platform for deploying and serving generative and predictive AI models on Kubernetes. It defines inference services as custom resources with declarative YAML specifications, enabling a Kubernetes-native approach to model deployment and lifecycle management. The platform leverages Knative-based serverless scaling for automatic scale-to-zero and revision management, and supports a pluggable serving runtime architecture that maps model formats to containerized execution environments. KServe distinguishes itself through model-aware autoscaling that scales replicas based on token
Runs exported models from TensorFlow, PyTorch, Scikit-learn, XGBoost, and others behind a unified inference endpoint.
Dieses Projekt ist eine umfassende Bildungsressource und ein Lehrplan, der sich auf das Design und die Implementierung des gesamten Machine-Learning-Software- und Hardware-Stacks konzentriert. Es dient als technische Referenz für die Architektur von Machine-Learning-Systemen, die von Low-Level-Programmierschnittstellen bis hin zur Deployment-Infrastruktur im großen Maßstab reicht. Das Projekt bietet instruktive Anleitungen zu mehreren spezialisierten Bereichen, einschließlich der Entwicklung von KI-Compilern durch Zwischenrepräsentationen und Graph-Optimierungen. Es deckt die Architekturmuster ab, die für verteiltes Training über GPU-Cluster hinweg erforderlich sind, sowie die Programmierung von Hardware-Beschleunigern zur Optimierung von Workloads auf spezialisierten Chips. Die Ressource beschreibt zudem die Implementierung von Modell-Serving-Frameworks für Produktionsumgebungen und das Design von Reinforcement-Learning-Pipelines. Ihr Umfang erstreckt sich auf die Kernkomponenten von ML-Systemen, wie automatische Differenzierung, Tensor-Abstraktionen und die Orchestrierung von GPU-Ressourcen.
Details implementation strategies and frameworks for deploying trained models to production with a focus on inference optimization.
This repository is a collection of reference implementations, templates, and sample galleries for building and integrating machine learning models within the .NET ecosystem. It provides a set of practical demonstrations for implementing machine learning workflows using the ML.NET framework. The project emphasizes the integration of pre-trained models via the Open Neural Network Exchange format, allowing the execution of external machine learning logic within managed applications. It includes specific examples for loading and executing these standardized models to ensure cross-platform compati
Provides runtimes that load and execute ONNX models for cross-framework inference.
Dieses Projekt ist eine umfassende Lehrressource und ein Kurs zum Aufbau neuronaler Netze mit PyTorch. Es deckt die grundlegenden Bausteine des Deep Learning ab, einschließlich Tensor-Manipulation, automatischer Differenzierung und der Konstruktion modularer Komponenten für neuronale Netze. Das Repository dient als technischer Leitfaden für verschiedene spezialisierte Bereiche. Es bietet Implementierungsdetails für Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung sowie Workflows für die Verarbeitung natürlicher Sprache (NLP) mit Transformern, rekurrenten Netzen und generativen Modellen. Zudem enthält es eine Referenz für generative KI, mit Fokus auf die Synthese von Bildern mittels Diffusionsmodellen und adversarialen Netzwerken. Das Material erstreckt sich auf Modelloptimierung und Deployment-Pipelines. Es behandelt Techniken zur Reduzierung der Modellgröße und zur Erhöhung der Inferenzgeschwindigkeit durch Quantisierung und den Export von Modellen in Formate wie ONNX und TensorRT. Weitere Kompetenzbereiche umfassen Data Engineering für paralleles Laden, Modellevaluierung mittels benutzerdefinierter Metriken und das Deployment von Open-Source Large Language Models. Das Projekt wird primär als eine Reihe von Jupyter Notebooks bereitgestellt.
Uses dedicated inference engines to load and execute ONNX models for cross-framework predictions.
SakuraLLM is a multi-format document translation system that hosts large language models for translating Japanese text into other languages. It functions as an inference server that exposes translation models through an OpenAI-compatible API, allowing any tool supporting the OpenAI client format to send translation requests. The system is designed as a glossary-aware translation engine that applies user-defined term dictionaries to ensure consistent translation of proper nouns and names across outputs. The project distinguishes itself by supporting multiple high-performance inference backends
Loads full-precision models using the vLLM backend with PagedAttention and tensor parallel multi-GPU acceleration.
lite.ai.toolkit ist ein C++ Computer-Vision-Toolkit für Edge-KI-Deployments. Es ermöglicht die Ausführung vortrainierter Modelle für Objekterkennung, Bildklassifizierung und Segmentierung auf ressourcenbeschränkten Geräten. Das Projekt bietet eine Multi-Backend-Inferenz-Engine, die die ONNX-Model-Runtime unterstützt, wodurch KI-Modelle auf verschiedenen Hardware-Zielen ausgeführt werden können. Es enthält eine GPU-beschleunigte Pipeline speziell für NVIDIA-Hardware, um Latenzen zu reduzieren und die Verarbeitungsgeschwindigkeit zu erhöhen. Das Toolkit deckt ein breites Spektrum an Funktionen zur Gesichtsanalyse ab, einschließlich Emotionserkennung, Geschlechts- und Altersschätzung sowie Kopfhaltungserkennung. Es bietet zudem Tools für die Gesichtserkennung durch die Extraktion von Feature-Embeddings und die Berechnung der Kosinus-Ähnlichkeit zur Identitätsprüfung. Zusätzliche Funktionen umfassen Image-Matting zur Vordergrundisolierung, Kolorierung von Graustufenbildern und künstlerischen Style-Transfer.
Utilizes an ONNX model runtime to ensure cross-framework compatibility and efficient execution across diverse hardware.
Dieses Projekt ist eine umfassende Bildungsressource und ein Tutorial-Handbuch für das Erstellen, Trainieren und Bereitstellen von Machine-Learning-Modellen mit TensorFlow 2. Es dient als strukturierter Lernleitfaden für grundlegende Deep-Learning-Konzepte, einschließlich neuronaler Netzwerkarchitekturen, automatischer Differenzierung und Tensor-Operationen. Das Handbuch bietet technische Anleitungen zur Optimierung der Ausführungseffizienz durch GPU-Speicherverwaltung, verteiltes Training und Modellquantisierung. Es enthält zudem detaillierte Anleitungen für den Aufbau leistungsfähiger Datenpipelines und den Export von Modellen für Produktionsserver, mobile Geräte und Webbrowser. Das Material deckt ein breites Spektrum an Funktionen ab, darunter die Modellentwicklung mit konvolutionellen und rekurrenten Netzwerken, die Implementierung benutzerdefinierter Verlustfunktionen und Layer sowie die Nutzung vortrainierter Modelle für Transfer Learning. Zudem werden Bereitstellungsstrategien für Edge-Geräte und die Nutzung cloudbasierter Runtimes zur Hardwarebeschleunigung behandelt. Die Ressource ist als Sammlung von Jupyter Notebooks implementiert.
Explains how to load specific model versions and automatically update to the latest deployment version.
vllm-omni is a high-throughput serving engine and distributed inference framework designed for omni-modal models. It serves as a multi-modal model API server capable of generating text, image, video, and audio data, providing a standardized interface for remote client access. The system features a non-autoregressive generation engine for parallel media production and a robot policy inference server that acts as a real-time communication bridge to robotic hardware using specialized protocols. It supports hybrid execution models that combine sequential token generation with parallelized media g
Serves as a high-throughput runtime for deploying and accessing omni-modal models that generate text, image, video, and audio.