38 repositorios
Techniques for grouping multiple small data operations into a single larger request to increase throughput.
Distinct from Obsolete Entry Clearing: The candidates focus on log inspection or cleanup; this is a performance optimization for processing multiple log entries together.
Explore 38 awesome GitHub repositories matching data & databases · Request Batching. Refine with filters or upvote what's useful.
Hystrix is a latency and fault tolerance library designed to prevent cascading failures in distributed systems. It functions as a circuit breaker implementation that monitors failure thresholds and opens circuits to isolate remote calls when downstream services degrade. The project distinguishes itself by providing multiple isolation mechanisms, utilizing dedicated thread pools and semaphores to ensure that latency in one dependency does not saturate the entire system. It also features a request collapsing and batching engine that groups concurrent calls into single executions to reduce the t
Groups multiple concurrent calls into a single batch execution to reduce the total load on downstream systems.
FoundationDB is an ACID-compliant distributed transactional key-value store. It functions as a scalable database engine that ensures strict serializability and data consistency across a cluster of servers using a shared-nothing architecture. The system is distinguished by its multi-region replication capabilities, allowing data to be synchronized across different datacenters for high availability and disaster recovery. It utilizes optimistic concurrency control to manage distributed transactions and employs a majority-based coordination system to maintain cluster state. The platform provides
Groups multiple read requests into a single server call to reduce network overhead and improve throughput.
Este proyecto es un servicio de incrustación BERT de alto rendimiento y servidor de inferencia diseñado para mapear secuencias de texto en vectores numéricos de longitud fija. Funciona como un microservicio de aprendizaje automático y servidor de modelos distribuido que desacopla el manejo de solicitudes de la computación pesada. El sistema utiliza una infraestructura de mensajería ZeroMQ para proporcionar comunicación de baja latencia entre clientes distribuidos y el servidor de inferencia. Incorpora procesamiento por lotes del lado del servidor y escalado de carga de trabajo de GPU para maximizar la utilización del hardware y gestionar grandes volúmenes de solicitudes. La plataforma admite infraestructura de búsqueda semántica generando incrustaciones intermodales tanto para texto como para imágenes dentro de un espacio vectorial compartido. Esto permite la búsqueda intermodal, la clasificación de relevancia de contenido y la re-clasificación de resultados basada en la alineación semántica entre el contenido visual y las descripciones de texto. El servicio se puede implementar como un microservicio elástico accesible a través de protocolos gRPC, HTTP o WebSocket, con streaming dúplex sin bloqueo para manejar grandes conjuntos de datos.
Groups individual requests into optimized batches to maximize GPU throughput during inference.
StreamDiffusion is an interactive generative AI framework and inference engine designed for the low-latency delivery of image and video streams. It provides a real-time Stable Diffusion pipeline for text-to-image and image-to-image generation, enabling the creation of continuous generative image streams with minimized computational delay. The framework optimizes throughput using a pre-computed cache engine and residual-based guidance approximation to reduce the number of required model passes. It further manages GPU load through similarity-based frame skipping, which avoids redundant computat
Implements batching of inference requests to maximize GPU throughput and minimize computational overhead.
FlexLLMGen is an inference engine and runtime designed to run large language models on a single GPU by combining weight compression with tensor offloading. It reduces model weight memory usage by approximately 70% through 4-bit quantization, and stores model parameters, attention cache, and hidden states across GPU, CPU, and disk to fit models larger than available GPU memory. The project distinguishes itself through a throughput-oriented batching approach that processes multiple generation requests together in large batches to maximize throughput on a single GPU. It also supports distributed
Processes multiple generation requests together in large batches to maximize throughput on a single GPU.
This project is an AI singing voice conversion system and vocal processor used for training generative voice models and converting vocal recordings or live input into a target voice. It functions as a VITS model trainer and a real-time voice changer that transforms vocal timbre and pitch to change the identity of a singer. The system provides a graphical management dashboard for controlling training hyperparameters and voice conversion presets. It supports low-latency audio streaming for live microphone input and employs pitch estimation to ensure precise matching between source and target vo
Implements grouping of multiple audio segments into single GPU execution passes to accelerate batch inference throughput.
This is a Raft consensus library and distributed consensus engine implemented in Go. It provides the primitives necessary to build fault-tolerant distributed services by implementing a replicated state machine that ensures a group of servers agree on a shared system state through leader election and log replication. The project distinguishes itself through a pluggable architecture for storage backends and snapshot storage, decoupling the consensus logic from physical persistence. It includes specialized mechanisms for leadership transfer, protocol version management to support rolling upgrade
Haftraft processes multiple committed log entries in a single operation to improve throughput and reduce system overhead.
Yoga is a GraphQL server framework and runtime-agnostic HTTP handler used to build and deploy GraphQL APIs. It functions as a toolkit for managing schemas and resolvers, providing a spec-compliant environment for hosting APIs across diverse JavaScript runtimes, including Node.js, Deno, Bun, and serverless cloud environments. The project distinguishes itself through its ability to act as an Apollo Federation gateway, composing multiple subgraphs into a single unified supergraph. It also serves as a dedicated subscription server, delivering real-time data streaming via both WebSockets and Serve
Allows combining multiple GraphQL requests into a single network call to reduce overhead and round trips.
tensorrtx is a computer vision inference engine and model implementation library designed for graphics processor acceleration. It provides a framework for optimizing deep learning models through a GPU inference optimizer, a deep learning model converter for transforming weights from frameworks like TensorFlow and PyTorch, and a custom plugin library to implement operations not natively supported by the TensorRT API. The project distinguishes itself through a comprehensive collection of pre-defined network implementations, ranging from various YOLO versions and DETR transformers for object det
Implements dynamic batching for inference workloads to optimize the balance between throughput and latency.
gspread is a Python client library and API wrapper designed for programmatically interacting with Google Sheets. It serves as a spreadsheet automation library that enables the creation, organization, and management of cloud-based spreadsheets via Python scripts. The library provides a simplified interface for Google Sheets automation, allowing users to read, write, and update data without writing raw HTTP requests. It supports cloud spreadsheet integration, enabling external Python applications to use Google Sheets as a data storage layer. The project covers a broad range of capabilities inc
Implements request batching to group multiple data updates into single network calls for improved performance.
Combines short requests into batches and splits long sequences across GPUs for balanced throughput.
Combines dynamic batching and concurrent execution to maximize hardware utilization during model serving.
KServe is a Kubernetes-native platform for deploying and serving machine learning models as scalable inference services. It supports both generative AI models, including large language models, and traditional predictive models from frameworks such as TensorFlow, PyTorch, Scikit-Learn, XGBoost, and ONNX. The platform manages the full lifecycle of model deployments, including revision tracking, canary rollouts, A/B testing, and automatic rollbacks, and provides serverless scale-to-zero capabilities for cost-efficient resource management. KServe distinguishes itself through a standardized infere
Groups multiple prediction requests into a single batch to improve throughput on GPU and CPU runtimes.
KServe is an open platform for deploying and serving generative and predictive AI models on Kubernetes. It defines inference services as custom resources with declarative YAML specifications, enabling a Kubernetes-native approach to model deployment and lifecycle management. The platform leverages Knative-based serverless scaling for automatic scale-to-zero and revision management, and supports a pluggable serving runtime architecture that maps model formats to containerized execution environments. KServe distinguishes itself through model-aware autoscaling that scales replicas based on token
Accumulates multiple prediction requests and processes them together to increase throughput.
OpenChat es un framework para el entrenamiento, ajuste fino (fine-tuning) y despliegue de modelos de lenguaje de gran tamaño optimizados para tareas de razonamiento conversacional y matemático. Proporciona un ciclo de vida completo para estos modelos, desde pipelines de entrenamiento y stacks de despliegue hasta una interfaz de chat basada en web. El proyecto se centra en permitir la ejecución de modelos de alto rendimiento en hardware de consumo sin necesidad de aceleradores de nivel empresarial. Incluye un servidor de inferencia listo para producción que implementa el protocolo de chat completion de OpenAI y utiliza el procesamiento por lotes dinámico (dynamic batching) para optimizar el rendimiento del hardware. El sistema cubre todo el flujo de trabajo operativo, incluyendo la tokenización de datasets y el ajuste fino de modelos mediante entrenamiento sin padding y aprendizaje por refuerzo. Se extiende además al alojamiento de API con autenticación basada en claves y una interfaz gráfica de usuario para la interacción humana en tiempo real.
Uses dynamic request batching to group multiple API requests into a single inference pass for higher throughput.
orpc is a contract-first API development framework for TypeScript that starts with a shared contract definition and generates type-safe clients and servers from that single source of truth. It guarantees end-to-end type safety, meaning inputs, outputs, errors, and streaming data are all checked at compile time across the client–server boundary. What distinguishes orpc from typical RPC frameworks is its ability to export contracts as OpenAPI specifications, to optimize server-side rendering by calling API handlers directly inside the server process, and to support real‑time bidirectional commu
Groups multiple API requests into a single call to reduce network overhead and improve efficiency.
fastllm es un conjunto de componentes de software especializados para la conversión de pesos de modelos, tiempos de ejecución de Mezcla de Expertos (MoE) y paralelismo de tensores. Proporciona un servidor API compatible con OpenAI para exponer las capacidades de los modelos de lenguaje de gran tamaño a través de un formato de solicitud estandarizado. El proyecto cuenta con un framework de paralelismo de tensores que divide las cargas de trabajo computacionales entre múltiples GPU para acelerar la ejecución. Incluye un tiempo de ejecución dedicado optimizado para arquitecturas de Mezcla de Expertos y una herramienta de cuantización para convertir los pesos del modelo a formatos de menor precisión para reducir el uso de memoria y aumentar el rendimiento. El sistema cubre flujos de trabajo de alto nivel para la inferencia distribuida, incluyendo la gestión de memoria mapeada por dispositivo, procesamiento por lotes dinámico y ejecución en modo mixto. También proporciona una interfaz de línea de comandos y una interfaz de usuario basada en terminal para la gestión de modelos y la configuración del despliegue.
Groups multiple incoming requests into single execution passes to maximize GPU utilization and reduce token latency.
Este proyecto es una guía arquitectónica de MLOps y framework para diseñar y desplegar sistemas de deep learning en entornos de producción. Proporciona un enfoque estructurado para el despliegue de inferencia de modelos, orquestación de pipelines de ML y la creación de arquitecturas de machine learning a nivel de producción. El proyecto se distingue por un enfoque en deep learning distribuido y edge AI. Cubre metodologías para paralelizar el entrenamiento de modelos a través de múltiples GPUs para manejar grandes datasets y aplica técnicas como cuantización y destilación para reducir el tamaño del modelo para hardware embebido. La superficie de capacidad se extiende al monitoreo y observabilidad, incluyendo el seguimiento del rendimiento del modelo, deriva de datos (data drift) y métricas de experimentos. También aborda la orquestación de flujos de trabajo de datos, versionado de datasets mediante almacenes de objetos y la gestión de solicitudes de inferencia de alto volumen utilizando procesamiento por lotes adaptativo y orquestación basada en contenedores.
Implements adaptive batching to maximize GPU throughput while maintaining latency limits for model inference.
exllamav2 es una librería de inferencia de alto rendimiento diseñada para ejecutar modelos de lenguaje grandes localmente en GPUs de grado consumidor. Proporciona un runner acelerado por GPU y herramientas de cuantización para permitir la ejecución de modelos sin depender de servicios de computación en la nube. El proyecto cuenta con una utilidad de cuantización que comprime modelos en bitrates mixtos de entre dos y ocho bits para reducir los requisitos de VRAM. Se distingue por un generador de texto por lotes que maneja solicitudes agrupadas y deduplica datos de caché para aumentar el rendimiento. La librería cubre una amplia superficie de capacidades, incluyendo streaming de tokens asíncrono para salida en tiempo real, ejecución de kernels de GPU personalizados para operaciones de álgebra lineal y mapeo de memoria local para acceso de baja latencia a los pesos del modelo.
Groups multiple model inference requests into a single hardware execution pass to maximize GPU throughput.
exllamav2 es un motor de inferencia de alto rendimiento y framework para ejecutar modelos de lenguaje grandes localmente en GPUs de clase consumidor. Proporciona un sistema completo para el despliegue de modelos locales, incluyendo un motor de inferencia especializado y herramientas para la cuantización de modelos. El proyecto cuenta con un framework de inferencia multi-GPU que distribuye las cargas de trabajo entre múltiples tarjetas gráficas para ejecutar modelos que exceden la capacidad de memoria de un solo dispositivo. Incluye un cuantizador de modelos de GPU capaz de convertir modelos a formatos de precisión mixta de entre 2 y 8 bits para equilibrar el uso de memoria y la precisión. El motor admite la generación de texto de alto rendimiento mediante inferencia paralela basada en lotes y streaming de salida asíncrono. Estas capacidades están respaldadas por kernels CUDA personalizados y deduplicación de caché para optimizar el uso del hardware y reducir la latencia durante la generación de tokens.
Executes multiple text completion prompts simultaneously using batch-based parallel inference to maximize GPU utilization.