15 repository-uri
The process of provisioning cloud infrastructure specifically to host AI models as reachable API endpoints.
Distinct from Cloud Deployment: Specializes general cloud deployment for the specific purpose of AI model inference hosting.
Explore 15 awesome GitHub repositories matching devops & infrastructure · Model Endpoint Deployment. Refine with filters or upvote what's useful.
This repository is a collection of Jupyter notebooks providing reference implementations and templates for building, training, and deploying machine learning models using Amazon SageMaker. It serves as an example library for implementing model architectures and automating the machine learning lifecycle. The library provides practical patterns for machine learning training, data engineering, and model deployment. It includes implementation guides for MLOps, including workflows for model monitoring, lineage tracking, and hyperparameter tuning. The examples cover a broad range of capabilities i
Hosts trained models as persistent REST endpoints for real-time requests or via large-scale batch transform jobs.
This project is a structured learning curriculum and technical reference for mastering deep learning with TensorFlow. It provides a comprehensive guide for building, training, and deploying neural networks, combining theoretical fundamentals with practical implementation examples. The repository distinguishes itself by covering the end-to-end machine learning workflow, from low-level tensor mathematics and linear algebra to the creation of complex model architectures. It includes specific guidance on developing data pipelines for diverse data types, such as images, text, and time-series seque
Provides methods for hosting saved models as reachable API endpoints for external clients.
This project is an AI-powered IDE extension and LLM coding assistant that provides a conversational interface for generating, refactoring, and debugging code. It functions as an AI agent framework and a Model Context Protocol client, connecting AI models to external data sources and tools to automate complex development tasks. The system is distinguished by its use of autonomous AI agents capable of multi-step task execution, including the ability to read files, modify code, and run terminal commands iteratively. It supports recursive agent orchestration through subagent delegation and employ
Provisions cloud hosting environments to deploy AI models as accessible endpoints for web API interaction.
Oumi is a comprehensive large language model development platform designed for synthesizing data, fine-tuning models, and running performance evaluations. It serves as a unified environment for the entire model lifecycle, encompassing a training and fine-tuning suite, an evaluation framework, and tools for synthetic data generation and model distillation. The platform is distinguished by its iterative, failure-driven synthesis approach, which analyzes model weaknesses during evaluation to generate targeted training data. It utilizes an LLM-based judge framework to programmatically score respo
Provides mechanisms to export trained models and provision cloud infrastructure to host them as reachable API endpoints.
Flyte is a Kubernetes-based machine learning orchestrator and containerized pipeline manager designed for coordinating AI workflows and data pipelines. It functions as an engine for defining and executing resilient pipelines, utilizing a data lineage tracker to maintain immutable execution states and ensure reproducible outputs. The platform distinguishes itself by packaging individual tasks into separate containers to ensure dependency isolation and environment consistency. It provides specialized capabilities for machine learning, including the transformation of trained models into scalable
Transforms trained machine learning models into scalable API endpoints for production serving.
nlp-recipes is a collection of implementation guides and reference templates for applying natural language processing techniques to real-world tasks. It provides standardized workflows and code examples for developing NLP pipelines, from dataset preparation and model training to performance evaluation. The project focuses on the practical application of transformer-based models, offering patterns for fine-tuning pretrained architectures for tasks such as text classification, named entity recognition, and question answering. It also includes a toolkit for model interpretability, allowing users
Deploys trained NLP models as scalable web services via cloud-hosted API endpoints.
FARA is a visual computer-use agent model that controls a browser by predicting screen coordinates for clicking, typing, and scrolling, without relying on DOM or accessibility trees. It is designed to automate multi-step web tasks such as searching, form filling, booking, and shopping by reasoning over visual state and decomposing tasks into sequential actions. The model uses a compact 7-billion-parameter decoder-only transformer that can run on consumer GPUs for low-latency on-device inference, or be deployed as a managed endpoint on Azure Foundry for cloud-based inference without local infr
Deploys a computer-use model via Azure Foundry endpoint without managing infrastructure or downloading weights.
Acest proiect este o colecție de cursuri de deep learning în PyTorch, constând în proiecte practice și exerciții de programare. Se concentrează pe implementarea arhitecturilor de rețele neuronale și antrenarea modelelor pentru a rezolva probleme complexe de date. Repository-ul include o suită de proiecte de computer vision pentru construirea de clasificatori de imagini, autoencodere și aplicații de transfer de stil. Dispune de un laborator de rețele generative adversariale (GAN) pentru crearea de imagini sintetice și implementări specifice pentru transfer learning, pentru a adapta ponderile pre-antrenate la sarcini noi. Codul sursă acoperă analiza datelor secvențiale pentru procesarea limbajului natural (NLP) folosind rețele neuronale recurente și word embeddings. Capabilitățile suplimentare includ preprocesarea datelor de imagine, evaluarea performanței modelelor și deployment-ul modelelor antrenate în infrastructuri cloud. Materialele sunt livrate sub forma unei serii de Jupyter Notebooks.
Provides instructions for hosting trained models as reachable API endpoints on cloud infrastructure.
Text Embeddings Inference este un server de inferență de înaltă performanță conceput pentru a găzdui modele de embedding de text și clasificare a secvențelor ca endpoint-uri API scalabile. Oferă un API de vector embedding pentru a converti textul în reprezentări dense și un server de reranking cross-encoder pentru a puncta relevanța secvențelor de documente față de o interogare. Proiectul dispune de un motor de inferență accelerat GPU care utilizează batching dinamic și nuclee specializate pentru a maximiza throughput-ul. Oferă o interfață binară de înaltă performanță prin gRPC ca alternativă la HTTP standard pentru a reduce latența rețelei și overhead-ul de serializare. Sistemul acoperă o gamă largă de capabilități, inclusiv clasarea similarității documentelor, reranking-ul textului multilingv și clasificarea secvențelor pentru predicția categoriilor sau a sentimentului. Suportă diverse medii de deployment, variind de la containere serverless cu auto-scaling până la instalații izolate (air-gapped). Accelerarea hardware este disponibilă pentru GPU-uri NVIDIA, GPU-uri AMD și Apple Metal.
Creates hosted environments with specific hardware accelerators and runtime configurations for model inference.
This project is an educational resource and engineering guide for building, deploying, and optimizing large language model applications and production pipelines. It serves as a blueprint for cloud AI infrastructure, providing a framework for orchestrating inference endpoints, data warehouses, and scalable production environments. The repository provides specific implementation patterns for retrieval augmented generation to ground model responses in external data. It includes a training workflow for crawling, structuring, and processing datasets to facilitate model fine-tuning, alongside an ev
Provides a blueprint for provisioning cloud infrastructure to host AI models as reachable API endpoints.
whisper-jax este o implementare de înaltă performanță a modelului de recunoaștere automată a vorbirii Whisper, rescris folosind framework-ul JAX. Este conceput pentru inferență accelerată și utilizează compilarea XLA pentru a optimiza execuția modelului pe acceleratoare hardware. Proiectul se concentrează pe transcrierea optimizată pentru TPU pentru a obține un throughput și o viteză ridicate. Include un pipeline de traducere a ponderilor care convertește parametrii modelului pre-antrenat din PyTorch în array-uri compatibile cu JAX. Sistemul suportă transcrierea audio în text, traducerea vorbirii în mai multe limbi și generarea de timestamp-uri audio. Permite procesarea audio în loturi și scalează performanța prin batching paralel pe date și partiționarea tensorilor în paralel pe model. Proiectul oferă o metodă de a implementa modelul de transcriere ca endpoint de inferență la distanță cu o interfață web.
Enables deployment of the transcription model as a remote inference endpoint with a web interface.
KoboldAI-Client este o interfață web și un toolkit pentru interacțiunea cu modele de limbaj mari (LLM). Funcționează ca un generator local de text AI pentru storytelling și AI conversațional, oferind un front-end pentru modele găzduite fie pe hardware local, fie în medii cloud. Sistemul include un manager de personaje care utilizează module externe și „soft-prompting” pentru a ghida răspunsurile AI către personaje și stiluri de scriere specifice. De asemenea, oferă un wrapper API care expune un REST API standardizat, compatibil cu OpenAI, permițând aplicațiilor externe să comunice cu modelele găzduite. Platforma suportă diverse moduri de interacțiune pentru scriere, gaming și chatbot-uri, și include scripting în sandbox pentru a automatiza procesarea datelor și a filtra input-ul și output-ul modelului. Opțiunile de implementare variază de la execuția locală privată la medii GPU cloud containerizate.
Provides tools for provisioning cloud infrastructure to host AI models as reachable API endpoints.
Riffusion-hobby este un instrument AI generativ care creează muzică prin producerea de imagini spectrogramă via Stable Diffusion și convertirea lor în audio redabil. Funcționează ca un sintetizator audio de spectrogramă, utilizând deep learning pentru a transforma reprezentările de frecvență bazate pe imagini ale sunetului în fișiere audio. Proiectul operează ca un server de inferență muzicală AI, oferind un endpoint API bazat pe web pentru a genera audio din prompt-uri text și imagini seed. Include, de asemenea, o interfață de linie de comandă pentru executarea sarcinilor de generare muzicală și configurarea modelelor de difuzie pentru crearea automată de audio, precum și un generator audio în timp real pentru manipularea reprezentărilor sonore. Sistemul acoperă o gamă largă de capabilități, inclusiv implementarea modelelor în cloud, găzduirea inferenței la distanță și procesarea semnalului digital pentru conversia imagine-audio. Oferă, de asemenea, un playground interactiv bazat pe web pentru experimentarea cu parametrii modelului și explorarea setărilor de generare muzicală.
Provisions cloud infrastructure to host AI models as reachable API endpoints.
This project is an educational course and learning curriculum for implementing and fine-tuning transformer models using the Hugging Face ecosystem. It serves as a structured guide and technical walkthrough for processing multimodal data, adapting pre-trained neural networks, and deploying models. The material includes a guide for managing, versioning, and distributing model weights and datasets through a centralized asset hub. It also provides a practical tutorial on adapting models to specific datasets using parameter-efficient methods and an implementation guide for solving natural language
Provides instructions on hosting models as reachable API endpoints on optimized infrastructure.
SmolLM is a project dedicated to the development of small language models. It focuses on training and fine-tuning compact models that maintain high performance while utilizing fewer parameters. The project emphasizes efficient AI inference and on-device text generation, aiming to enable the deployment of lightweight models on edge devices with limited memory and processing power. It utilizes synthetic data generation to produce artificial datasets that improve the reasoning and training of these AI systems. The system supports a variety of optimization and training capabilities, including we
Deploys, pauses, and deletes model endpoints using managed or custom Docker images.