13 Repos
Bridging core processing logic with third-party external tools and systems to extend functionality.
Distinct from External Process Integrators: Candidates focused on specific niches like recommendations or shell scripts rather than general stream processor extensibility.
Explore 13 awesome GitHub repositories matching data & databases · External System Integrations. Refine with filters or upvote what's useful.
Storm is a distributed stream processing framework designed to execute unbounded computations across a cluster to process real-time data streams. It functions as a data pipeline orchestrator that allows users to define and deploy declarative data flow graphs connecting streaming sources to processing components. The system operates as a multi-tenant distributed compute engine that isolates workloads and limits resource usage across shared clusters using dedicated pools and access control. It is also a secure distributed processing engine that employs encrypted node communication and SSL-secur
Provides mechanisms to bridge processing logic with external systems and tools.
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Integrates with third-party frameworks and systems using a library of standardized connectors.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Connects to data processing frameworks and query engines to facilitate data ingestion and federated query execution.
Easegress is a cloud-native traffic orchestration platform that functions as a multi-protocol API gateway and service mesh proxy. It routes, transforms, and orchestrates HTTP and MQTT traffic through configurable filter chains, providing high availability, security controls, and resilience for backend services. The platform integrates with service discovery systems like Kubernetes, Consul, and Eureka to dynamically route traffic to discovered services with automatic failover and health monitoring. The system distinguishes itself through a pipeline-based filter chain architecture where request
Connects with Kubernetes, service registries, serverless platforms, and distributed tracing backends to extend functionality.
KurrentDB is an event-native database designed for event sourcing and event-driven architectures. It stores events as immutable, ordered records in streams, preserving a complete audit trail and enabling temporal queries. The database uses gRPC for all client-server and inter-node communication, providing efficient binary serialization and bidirectional streaming, and supports atomic multi-stream writes that ensure consistency across multiple streams in a single transaction. The database distinguishes itself with a built-in JavaScript projection engine that transforms, filters, and aggregates
Connects event streams to traditional databases and data pipelines using pre-built connectors.
pyinfra is a Python-based infrastructure automation framework that turns Python code into shell commands for managing servers, Docker containers, and local machines. It operates as a declarative, idempotent deployment tool, applying desired system states by comparing target configurations against current states and making only the necessary changes. The framework provides a connector-based transport abstraction that unifies SSH, Docker, and local execution behind a common interface, with a parallel execution engine that manages concurrent operations across hosts. The tool distinguishes itself
Connects to infrastructure providers like Docker, Terraform, and Vagrant through built-in connectors.
Sparrow ist eine LLM-Plattform zur Dokumentenextraktion und eine vision-basierte Inferenz-Engine, die darauf ausgelegt ist, Bilder und PDFs in validierte, strukturierte Daten umzuwandeln. Sie fungiert als agentischer Workflow-Orchestrator, der Klassifizierungs-, Extraktions- und Validierungsaufgaben in mehrstufige Pipelines verkettet. Das System zeichnet sich durch eine Backend-agnostische Inferenzschicht aus, die Modelle über lokale GPUs, Apple Silicon und Cloud-Anbieter hinweg verwaltet. Es nutzt koordinatenbasiertes Visual Grounding, um extrahierten Text präzisen Bounding-Box-Koordinaten zuzuordnen, und verwendet hinweisgesteuerte Modellsteuerung, um die Aufmerksamkeit zu lenken und Datenformate zu normalisieren. Die Plattform deckt Workflows für Dokumentenintelligenz ab, einschließlich spezialisierter bildbasierter Tabellenverarbeitung zur Wahrung der strukturellen Integrität sowie schema-basierter Validierung zur Überprüfung der Korrektheit extrahierter Felder. Zudem bietet sie ein Dashboard zur Dokumentenanalyse für das Monitoring von API-Performance, Nutzungsstatistiken und Systemzustand. Die Architektur umfasst ein Plugin-basiertes Erweiterungssystem zur Integration von Drittanbieter-Bibliotheken für Indizierung und Orchestrierung.
Includes a plugin architecture to integrate third-party libraries for indexing and workflow orchestration.
OpenTSDB ist eine verteilte Zeitreihendatenbank und Metrics-Engine, die für die Speicherung und Verwaltung massiver Mengen hochkardinaler Systemmetriken entwickelt wurde. Es fungiert als Datenspeicher und Analyseplattform, die groß angelegte Metrik-Ingestion und Infrastruktur-Performance-Monitoring über einen verteilten Cluster hinweg ermöglicht. Das System zeichnet sich durch eine verteilte Speicherabstraktion aus, die mehrere Backends wie HBase, Cassandra und Google Bigtable unterstützt. Es nutzt einen hierarchischen Metrikbaum zur Organisation von Zeitreihen und verwendet numerische Identifikator-Indizierung, um den Speicherbedarf zu reduzieren und Suchvorgänge für getaggte Metriken zu beschleunigen. Das Projekt deckt breite Funktionsbereiche ab, einschließlich Zeitreihendatenanalyse mit verteilten Perzentilberechnungen und Downsampling sowie umfassendem Metadatenmanagement. Es bietet API-Integration für Datenaufnahme und -abfrage, Off-Heap-Caching zur Performance-Optimierung sowie Tools für die Datenintegritätsprüfung und Anomalieanalyse. Das System wird über eine Kommandozeilenschnittstelle für die Datenbankadministration und die Synchronisation des Metrikbaums verwaltet.
Accepts data streams from various external system monitors and agents to centralize metric storage.
WuKongIM is a distributed instant messaging server designed for real-time chat and notifications. It functions as a decentralized communication cluster that utilizes a pub-sub message router to distribute data to individual users and large-scale group channels. The system includes a specialized AI chat streaming protocol to deliver low-latency, incremental responses from artificial intelligence agents. It also features a webhook event gateway that forwards communication status changes and message events to external business applications via callbacks. The platform provides infrastructure for
Provides connectivity to third-party systems via webhooks to synchronize communication with external business data.
Dkron is a distributed, fault-tolerant system designed for scheduling and executing recurring tasks across a cluster of nodes. It functions as a cron-based orchestrator that manages job lifecycles, including automatic retries, timeouts, and complex dependencies, while ensuring state consistency through a consensus protocol. By coordinating remote task execution across infrastructure, it enables the automation of background operations and the management of distributed workflows. The system distinguishes itself through a modular architecture that supports pluggable storage backends and a plugin
Connects to external applications and infrastructure tools using client libraries and providers to manage background tasks programmatically.
o2oa ist eine Open-Source-Java-Enterprise-Office-Automatisierungsplattform, die entwickelt wurde, um Unternehmens-Workflows, Organisationshierarchien und kollaborative Büroaufgaben zu verwalten. Sie fungiert als Low-Code-Business-Applikationsplattform und Unternehmensinformationsportal und bietet eine visuelle Entwicklungsumgebung für den Aufbau benutzerdefinierter Unternehmensanwendungen. Die Plattform zeichnet sich durch ihre integrierte Enterprise-Workflow-Engine aus, die den Entwurf und die Automatisierung von Geschäftsprozessen mithilfe anpassbarer Routing-Bedingungen und ereignisgesteuerter Skripte ermöglicht. Sie differenziert sich zudem als Multi-Datenbank-Enterprise-Framework, das verschiedene relationale Datenbanken und Hochverfügbarkeitsbereitstellungen über verschiedene Betriebssysteme hinweg unterstützt. Das System deckt ein breites Spektrum an Fähigkeitsbereichen ab, einschließlich Low-Code-Visual-Modeling für Formulare und Seiten, zentralisiertem Portal-Design mit datengesteuerten Dashboards und Unternehmensdatenintegration mit RESTful-Diensten und großen Sprachmodellen. Es integriert zudem Organisationsstrukturmanagement, rollenbasierte Zugriffskontrolle und Multi-Plattform-Mobile-Deployment für Android, iOS und HarmonyOS. Die Installation wird über Linux- und Windows-Umgebungen unter Verwendung von Docker und Nginx unterstützt.
Exchanges organizational data with external systems or internal modules using a suite of RESTful services.
Iggy is a distributed message streaming platform and multi-protocol message broker that functions as a persistent distributed log store. It provides infrastructure for publishing and consuming binary messages using an append-only log, ensuring high availability and data consistency across nodes through Viewstamped Replication. The platform is distinguished by its specialized LLM streaming infrastructure, which uses a server protocol to connect large language models to streaming data and system controls. This includes standardized protocols for context management and data bridging via HTTP or
Bridges streams with external databases and search engines using a plugin system with built-in transformations.
Zeebe ist eine Cloud-native Workflow-Engine und eine verteilte Zustandsmaschine, die für die Orchestrierung von Geschäftsprozessen unter Verwendung von BPMN- und DMN-Standards konzipiert wurde. Sie arbeitet als hochperformante gRPC-Workflow-Runtime, die komplexe Geschäftsprozesse durch eine partitionierte Event-Streaming-Architektur ausführt. Das System fungiert zudem als Orchestrator für Large-Language-Model-Agenten und koordiniert KI-Reasoning und Tool-Nutzung innerhalb deterministischer Geschäftsprozesse. Die Engine zeichnet sich durch ihr Peer-to-Peer-Broker-Networking und ein konsensbasiertes Datenreplikationsmodell aus, das hohe Verfügbarkeit und Fehlertoleranz sicherstellt. Sie setzt einen partitionierten Broker-Cluster ein, um horizontale Skalierbarkeit zu erreichen, und nutzt adaptives Request-Backpressure, um den eingehenden Befehlsfluss zu regulieren und Systemüberlastungen zu verhindern. Die Plattform deckt ein breites Spektrum operativer Funktionen ab, einschließlich Echtzeit-Ausführungsüberwachung mit Performance-Heatmaps, automatisierter Geschäftsentscheidungsfindung über Entscheidungstabellen und verteilter Task-Ausführung durch ein polling-basiertes Job-Worker-Modell. Sie bietet zudem Tools für Multi-Tenant-Ressourcenisolierung, identitätsbasierte Zugriffskontrolle und die Integration externer Web-APIs und serverloser Funktionen. Das System kann über verschiedene Umgebungen hinweg bereitgestellt werden, einschließlich Kubernetes und Docker, und wird über eine Kombination aus Kommandozeilenschnittstelle und programmatischer REST-API verwaltet.
Integrates business workflows with third-party applications and enterprise data sources through standardized connectors.