13 dépôts
Bridging core processing logic with third-party external tools and systems to extend functionality.
Distinct from External Process Integrators: Candidates focused on specific niches like recommendations or shell scripts rather than general stream processor extensibility.
Explore 13 awesome GitHub repositories matching data & databases · External System Integrations. Refine with filters or upvote what's useful.
Storm is a distributed stream processing framework designed to execute unbounded computations across a cluster to process real-time data streams. It functions as a data pipeline orchestrator that allows users to define and deploy declarative data flow graphs connecting streaming sources to processing components. The system operates as a multi-tenant distributed compute engine that isolates workloads and limits resource usage across shared clusters using dedicated pools and access control. It is also a secure distributed processing engine that employs encrypted node communication and SSL-secur
Provides mechanisms to bridge processing logic with external systems and tools.
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Integrates with third-party frameworks and systems using a library of standardized connectors.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Connects to data processing frameworks and query engines to facilitate data ingestion and federated query execution.
Easegress is a cloud-native traffic orchestration platform that functions as a multi-protocol API gateway and service mesh proxy. It routes, transforms, and orchestrates HTTP and MQTT traffic through configurable filter chains, providing high availability, security controls, and resilience for backend services. The platform integrates with service discovery systems like Kubernetes, Consul, and Eureka to dynamically route traffic to discovered services with automatic failover and health monitoring. The system distinguishes itself through a pipeline-based filter chain architecture where request
Connects with Kubernetes, service registries, serverless platforms, and distributed tracing backends to extend functionality.
KurrentDB is an event-native database designed for event sourcing and event-driven architectures. It stores events as immutable, ordered records in streams, preserving a complete audit trail and enabling temporal queries. The database uses gRPC for all client-server and inter-node communication, providing efficient binary serialization and bidirectional streaming, and supports atomic multi-stream writes that ensure consistency across multiple streams in a single transaction. The database distinguishes itself with a built-in JavaScript projection engine that transforms, filters, and aggregates
Connects event streams to traditional databases and data pipelines using pre-built connectors.
pyinfra is a Python-based infrastructure automation framework that turns Python code into shell commands for managing servers, Docker containers, and local machines. It operates as a declarative, idempotent deployment tool, applying desired system states by comparing target configurations against current states and making only the necessary changes. The framework provides a connector-based transport abstraction that unifies SSH, Docker, and local execution behind a common interface, with a parallel execution engine that manages concurrent operations across hosts. The tool distinguishes itself
Connects to infrastructure providers like Docker, Terraform, and Vagrant through built-in connectors.
Sparrow est une plateforme d'extraction de documents par LLM et un moteur d'inférence basé sur la vision, conçu pour convertir des images et des PDF en données structurées validées. Il fonctionne comme un orchestrateur de workflow agentique qui enchaîne des tâches de classification, d'extraction et de validation dans des pipelines multi-étapes. Le système se distingue par une couche d'inférence agnostique au backend qui gère les modèles sur des GPU locaux, Apple Silicon et des fournisseurs cloud. Il utilise le "visual grounding" basé sur les coordonnées pour mapper le texte extrait à des boîtes englobantes précises et utilise un guidage par indices pour orienter l'attention et normaliser les formats de données. La plateforme couvre les workflows d'intelligence documentaire, incluant le traitement spécialisé d'images de tableaux pour maintenir l'intégrité structurelle et une validation basée sur des schémas pour vérifier l'exactitude des champs extraits. Elle fournit également un tableau de bord d'analyse documentaire pour surveiller les performances de l'API, les statistiques d'utilisation et l'état du système. L'architecture inclut un système d'extension par plugins pour intégrer des bibliothèques tierces utilisées dans l'indexation et l'orchestration.
Includes a plugin architecture to integrate third-party libraries for indexing and workflow orchestration.
OpenTSDB est une base de données de séries temporelles distribuée et un moteur de métriques conçu pour stocker et gérer des volumes massifs de métriques système à haute cardinalité. Il fonctionne comme un magasin de données et une plateforme d'analyse qui permet l'ingestion de métriques à grande échelle et la surveillance de la performance de l'infrastructure à travers un cluster distribué. Le système se distingue par une abstraction de stockage distribué qui supporte de multiples backends tels que HBase, Cassandra et Google Bigtable. Il utilise un arbre de métriques hiérarchique pour organiser les séries temporelles et emploie l'indexation par identifiant numérique pour réduire l'empreinte de stockage et accélérer les recherches pour les métriques taguées. Le projet couvre de larges domaines de capacités incluant l'analyse de données de séries temporelles avec des calculs de centiles distribués et le downsampling, ainsi qu'une gestion complète des métadonnées. Il fournit une intégration API pour l'ingestion et l'interrogation de données, le cache off-heap pour l'optimisation des performances, et des outils pour l'audit d'intégrité des données et l'analyse d'anomalies. Le système est géré via une interface en ligne de commande pour l'administration de la base de données et la synchronisation de l'arbre de métriques.
Accepts data streams from various external system monitors and agents to centralize metric storage.
WuKongIM est un serveur de messagerie instantanée distribué conçu pour le chat en temps réel et les notifications. Il fonctionne comme un cluster de communication décentralisé qui utilise un routeur de messages pub-sub pour distribuer les données aux utilisateurs individuels et aux canaux de groupe à grande échelle. Le système inclut un protocole de streaming de chat IA spécialisé pour fournir des réponses incrémentales à faible latence depuis des agents d'intelligence artificielle. Il dispose également d'une passerelle d'événements webhook qui transfère les changements de statut de communication et les événements de message aux applications métier externes via des callbacks. La plateforme fournit une infrastructure pour la communication de groupe à haute capacité, la synchronisation de messages multi-appareils et le suivi de conversation basé sur l'état. La sécurité est gérée via le chiffrement de la couche transport et l'accès aux canaux basé sur les permissions, tandis que la fiabilité du système est maintenue via le basculement automatisé, la reprise après sinistre et le monitoring de santé basé sur le heartbeat.
Provides connectivity to third-party systems via webhooks to synchronize communication with external business data.
Dkron is a distributed, fault-tolerant system designed for scheduling and executing recurring tasks across a cluster of nodes. It functions as a cron-based orchestrator that manages job lifecycles, including automatic retries, timeouts, and complex dependencies, while ensuring state consistency through a consensus protocol. By coordinating remote task execution across infrastructure, it enables the automation of background operations and the management of distributed workflows. The system distinguishes itself through a modular architecture that supports pluggable storage backends and a plugin
Connects to external applications and infrastructure tools using client libraries and providers to manage background tasks programmatically.
o2oa est une plateforme d'automatisation de bureau d'entreprise Java open-source conçue pour gérer les flux de travail d'entreprise, les hiérarchies organisationnelles et les tâches de bureau collaboratives. Elle fonctionne comme une plateforme d'application métier low-code et un portail d'information d'entreprise, fournissant un environnement de développement visuel pour construire des applications d'entreprise personnalisées. La plateforme se distingue par son moteur de flux de travail d'entreprise intégré, qui permet la conception et l'automatisation des processus métier en utilisant des conditions de routage personnalisables et des scripts pilotés par événements. Elle se différencie davantage en tant que framework d'entreprise multi-bases de données, prenant en charge diverses bases de données relationnelles et déploiements haute disponibilité sur différents systèmes d'exploitation. Le système couvre un large éventail de domaines de capacités, notamment la modélisation visuelle low-code pour les formulaires et les pages, la conception de portail centralisé avec des tableaux de bord pilotés par les données, et l'intégration de données d'entreprise avec des services RESTful et des modèles de langage étendus. Il intègre également la gestion de la structure organisationnelle, le contrôle d'accès basé sur les rôles et le déploiement mobile multiplateforme pour Android, iOS et HarmonyOS. L'installation est prise en charge sur les environnements Linux et Windows en utilisant Docker et Nginx.
Exchanges organizational data with external systems or internal modules using a suite of RESTful services.
Iggy est une plateforme de streaming de messages distribuée et un courtier de messages multi-protocole qui fonctionne comme un magasin de journaux distribué persistant. Il fournit une infrastructure pour publier et consommer des messages binaires en utilisant un journal en ajout seul (append-only log), garantissant une haute disponibilité et une cohérence des données entre les nœuds via la réplication Viewstamped. La plateforme se distingue par son infrastructure de streaming LLM spécialisée, qui utilise un protocole serveur pour connecter les grands modèles de langage aux données en streaming et aux contrôles système. Cela inclut des protocoles standardisés pour la gestion du contexte et le pontage de données via HTTP ou l'entrée-sortie standard. Le système couvre un large éventail de capacités, y compris l'orchestration de pipelines de données avec des plugins de source et de destination modulaires, la coordination de groupes de consommateurs pour la mise à l'échelle horizontale et la prise en charge du transport multi-protocole via TCP, QUIC, HTTP et WebSocket. Il intègre également des primitives de sécurité telles que le chiffrement AES-256-GCM pour les données au repos et en transit, et fournit une observabilité via les métriques Prometheus, le traçage OpenTelemetry et un tableau de bord web opérationnel. Le serveur peut être déployé en utilisant des images de conteneur et orchestré via Kubernetes.
Bridges streams with external databases and search engines using a plugin system with built-in transformations.
Zeebe est un moteur de flux de travail cloud-native et une machine à états distribuée conçue pour l'orchestration des processus métier en utilisant les normes BPMN et DMN. Il opère comme un runtime de flux de travail gRPC haute performance qui exécute des processus métier complexes via une architecture de streaming d'événements partitionnée. Le système fonctionne également comme un orchestrateur pour les agents de modèles de langage de grande taille, coordonnant le raisonnement de l'IA et l'utilisation d'outils au sein de processus métier déterministes. Le moteur se distingue par son réseau de courtiers peer-to-peer et un modèle de réplication de données basé sur le consensus qui garantit une haute disponibilité et une tolérance aux pannes. Il emploie un cluster de courtiers partitionné pour atteindre une scalabilité horizontale et utilise une contre-pression de requête adaptative pour réguler le flux de commandes entrant et prévenir la surcharge du système. La plateforme couvre une large surface de capacités opérationnelles, incluant la surveillance de l'exécution en temps réel avec des cartes thermiques de performance, la prise de décision métier automatisée via des tables de décision et l'exécution de tâches distribuées via un modèle de travailleur de tâches basé sur le polling. Elle fournit également des outils pour l'isolation des ressources multi-locataires, le contrôle d'accès basé sur l'identité et l'intégration d'API web externes et de fonctions sans serveur. Le système peut être déployé à travers divers environnements, incluant Kubernetes et Docker, et est géré via une combinaison d'une interface en ligne de commande et d'une API REST programmatique.
Integrates business workflows with third-party applications and enterprise data sources through standardized connectors.