5 repositorios
Capabilities for loading AI models directly from cloud-native object storage or remote repositories.
Distinct from Cloud Storage: Focuses on the loading of ML models for inference, not general cloud storage management.
Explore 5 awesome GitHub repositories matching devops & infrastructure · Remote Model Loading. Refine with filters or upvote what's useful.
OpenVINO is an AI inference engine and model serving platform designed to execute optimized deep learning models across CPUs, GPUs, and NPUs through a unified API. It includes a model optimization toolkit for converting, quantizing, and compressing models from various frameworks, alongside a specialized generative AI runtime for large language models. The project distinguishes itself through a plugin-based hardware acceleration layer that maps neural network operations to vendor-specific drivers. It features advanced execution mechanisms such as continuous batching, speculative decoding, and
Retrieves AI models directly from cloud storage using URI paths and authentication credentials.
llama-rs es un motor de inferencia de modelos de lenguaje de gran tamaño (LLM) local implementado en Rust. Permite la ejecución de cálculos de modelos en hardware local para generar respuestas de texto a partir de prompts de usuario. El proyecto utiliza operaciones de tensores basadas en Rust y mapeo de modelos en memoria directa para manejar álgebra lineal de alto rendimiento y carga eficiente de pesos. Incorpora cuantización de pesos para reducir la huella de memoria de los modelos convirtiendo pesos de alta precisión en formatos más pequeños. El sistema incluye una interfaz de línea de comandos para sesiones de chat interactivas y prompts únicos, junto con persistencia de sesión respaldada por archivos para guardar y restaurar historiales de conversación. También proporciona utilidades para recuperar configuraciones de tokenizadores desde hubs remotos y herramientas para calcular puntuaciones de perplejidad para evaluar el rendimiento del modelo.
Retrieves model-specific vocabulary and merge rules from external hubs for consistent encoding.
KServe is an open platform for deploying and serving generative and predictive AI models on Kubernetes. It defines inference services as custom resources with declarative YAML specifications, enabling a Kubernetes-native approach to model deployment and lifecycle management. The platform leverages Knative-based serverless scaling for automatic scale-to-zero and revision management, and supports a pluggable serving runtime architecture that maps model formats to containerized execution environments. KServe distinguishes itself through model-aware autoscaling that scales replicas based on token
Fetches model artifacts from S3, GCS, Azure Blob, or Hugging Face Hub for deployment.
Este proyecto es un framework de servicio de modelos de PyTorch diseñado para desplegar y escalar modelos de machine learning en producción a través de endpoints de red escalables. Funciona como un servidor de inferencia de alto rendimiento, optimizador y gestor del ciclo de vida del modelo que maneja la carga de modelos, el procesamiento por lotes (batching) de solicitudes y la aceleración por hardware. El sistema se distingue por sus capacidades avanzadas de orquestación y optimización, como el encadenamiento de múltiples modelos en flujos de trabajo secuenciales mediante grafos de ejecución y el uso de procesamiento por lotes dinámico para mejorar el rendimiento y la latencia. Proporciona soporte especializado para IA generativa y modelos de lenguaje de gran tamaño (LLM) mediante procesamiento por lotes continuo y paralelismo de tensores. Las áreas de capacidad incluyen la gestión de recursos de GPU en hardware diverso como NVIDIA, AMD y Apple Silicon, así como una gestión integral del ciclo de vida del modelo para registro, versionado y escalado de trabajadores. También integra herramientas de observabilidad para rastrear la salud del sistema y el rendimiento del modelo mediante métricas compatibles con Prometheus. El servidor se gestiona a través de una interfaz de línea de comandos utilizada para el control del ciclo de vida y la configuración de parámetros de tiempo de ejecución.
Supports downloading and registering model archives directly from public HTTP links or cloud storage URLs.
zml is a machine learning model compiler and cross-platform inference engine that transforms model descriptions into optimized executable binaries for specific hardware accelerators. It functions as a model deployment toolkit and hardware-agnostic orchestrator, utilizing a tensor-based architecture definition to provide strong type checking during the compilation process. The project distinguishes itself through the ability to shard tensors and distribute large-scale AI workloads across a logical mesh of multiple devices. It further supports the remote model lifecycle by authenticating and do
Downloads model weights and configurations from cloud buckets and HTTPS endpoints.