9 Repos
Combines short requests into batches and splits long sequences across GPUs to balance throughput and latency.
Distinct from Request Batching: Distinct from Request Batching: focuses on dynamic batching for inference workloads with sequence splitting, not general data operation batching.
Explore 9 awesome GitHub repositories matching data & databases · Dynamic Inference Batching. Refine with filters or upvote what's useful.
tensorrtx is a computer vision inference engine and model implementation library designed for graphics processor acceleration. It provides a framework for optimizing deep learning models through a GPU inference optimizer, a deep learning model converter for transforming weights from frameworks like TensorFlow and PyTorch, and a custom plugin library to implement operations not natively supported by the TensorRT API. The project distinguishes itself through a comprehensive collection of pre-defined network implementations, ranging from various YOLO versions and DETR transformers for object det
Implements dynamic batching for inference workloads to optimize the balance between throughput and latency.
Combines short requests into batches and splits long sequences across GPUs for balanced throughput.
Combines dynamic batching and concurrent execution to maximize hardware utilization during model serving.
OpenChat ist ein Framework für das Training, Fine-Tuning und Deployment von Large Language Models, die für Konversations- und mathematische Schlussfolgerungsaufgaben optimiert sind. Es bietet einen umfassenden Lebenszyklus für diese Modelle, von Trainings-Pipelines und Deployment-Stacks bis hin zu einer webbasierten Chat-Oberfläche. Das Projekt konzentriert sich darauf, eine leistungsstarke Modellausführung auf Consumer-Hardware ohne den Bedarf an Enterprise-Beschleunigern zu ermöglichen. Es enthält einen produktionsreifen Inference-Server, der das OpenAI-Chat-Completion-Protokoll implementiert und dynamisches Request-Batching nutzt, um den Hardware-Durchsatz zu optimieren. Das System deckt den gesamten operativen Workflow ab, einschließlich Dataset-Tokenisierung und Modell-Fine-Tuning mittels Padding-freiem Training und Reinforcement Learning. Es erweitert dies um API-Hosting mit schlüsselbasierter Authentifizierung und eine grafische Benutzeroberfläche für die menschliche Interaktion in Echtzeit.
Uses dynamic request batching to group multiple API requests into a single inference pass for higher throughput.
fastllm is a set of specialized software components for model weight conversion, Mixture-of-Experts runtimes, and tensor parallelism. It provides an OpenAI compatible API server to expose large language model capabilities through a standardized request format. The project features a tensor parallelism framework that splits computational workloads across multiple GPUs to accelerate execution. It includes a dedicated runtime optimized for Mixture-of-Experts architectures and a quantization tool to convert model weights into lower precision formats to reduce memory usage and increase throughput.
Groups multiple incoming requests into single execution passes to maximize GPU utilization and reduce token latency.
Dieses Projekt ist eine PyTorch-Implementierung des YOLOv4-Objekterkennungs-Frameworks. Es bietet ein System zum Trainieren und Bereitstellen neuronaler Netzwerke, die mehrere Objekte in Bildern und Videostreams identifizieren und lokalisieren. Das Framework enthält Tools zur Konvertierung trainierter Gewichte in universelle Formate und hardwarespezifische optimierte Engines, wobei insbesondere ONNX und TensorRT unterstützt werden. Es verfügt über einen TensorRT-Inferenz-Optimierer zur Latenzreduzierung und Durchsatzsteigerung sowie eine Modellarchitektur, die mit NVIDIA DeepStream Streaming-Analytics-Pipelines kompatibel ist. Das System deckt das Modelltraining mit Mosaic-Datenaugmentierung ab und unterstützt die Echtzeit-Objekterkennung über mehrere Inferenz-Engines hinweg. Es bietet Hilfsprogramme für die Modellkonvertierung zu TensorFlow und unterstützt sowohl statische als auch dynamische Batch-Konfigurationen für das Deployment.
Supports both static and dynamic batch configurations to optimize GPU memory usage and inference throughput.
CTranslate2 is a C++ inference engine and runtime for Transformer models, designed to execute models on both CPU and GPU with optimizations for speed and memory efficiency. It functions as a model format converter, quantization tool, and REST API server, enabling deployment of neural machine translation, automatic speech recognition, and text generation models. The engine distinguishes itself through a suite of runtime optimizations including layer fusion, weight-matrix quantization, batch-by-length grouping, and a caching allocator that reuses GPU memory. It supports tensor-parallel model di
Processes multiple requests in parallel across CPU cores or GPUs, with dynamic memory allocation per batch size.
SLIME is a distributed reinforcement learning framework for large language model post-training that bridges Megatron training with SGLang inference servers. It orchestrates scalable RL loops across GPU clusters, decoupling training and inference into independent processes that communicate over HTTP and NCCL for independent scaling and fault tolerance. The system supports multi-agent reinforcement learning workflows with parallel agent instances, customizable rollout strategies, and personalized agent serving that improves models from prior conversations without disrupting API serving. The fra
Packs variable-length sequences into batches up to a token limit per GPU, preserving per-sample loss while maximizing throughput.
LitServe ist ein Python-Framework für KI-Inferenzserver und LLM-Serving, das für Inferenz mit hoher Nebenläufigkeit konzipiert ist. Es fungiert als verteilter KI-Modellserver und Inferenz-Engine mit dynamischem Batching und bietet die Werkzeuge zum Erstellen und Hosten benutzerdefinierter Server, auf denen KI-Modelle laufen. Das Framework zeichnet sich durch eine Request-Queue mit dynamischem Batching aus, die einzelne Inferenzanfragen zu einzelnen Tensoren gruppiert, um den GPU-Durchsatz zu maximieren. Es unterstützt verteiltes GPU-Skalieren, wodurch Modell-Workloads auf mehrere Hardware-Beschleuniger verteilt werden können, um Rechenlasten auszugleichen und die Gesamtkapazität zu erhöhen. Das System bietet eine High-Level-Wrapper-Schnittstelle, die Request-Preprocessing und Postprocessing von der Kern-Modellausführungslogik entkoppelt. Es enthält zudem Funktionen für Echtzeit-Modell-Streaming zur inkrementellen Bereitstellung von Ausgaben und nutzt eine asynchrone Event-Loop zur Handhabung gleichzeitiger Netzwerkanfragen.
Implements a dynamic-batching request queue to maximize GPU throughput by grouping individual requests.