13 repositorios
Bridging core processing logic with third-party external tools and systems to extend functionality.
Distinct from External Process Integrators: Candidates focused on specific niches like recommendations or shell scripts rather than general stream processor extensibility.
Explore 13 awesome GitHub repositories matching data & databases · External System Integrations. Refine with filters or upvote what's useful.
Storm is a distributed stream processing framework designed to execute unbounded computations across a cluster to process real-time data streams. It functions as a data pipeline orchestrator that allows users to define and deploy declarative data flow graphs connecting streaming sources to processing components. The system operates as a multi-tenant distributed compute engine that isolates workloads and limits resource usage across shared clusters using dedicated pools and access control. It is also a secure distributed processing engine that employs encrypted node communication and SSL-secur
Provides mechanisms to bridge processing logic with external systems and tools.
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Integrates with third-party frameworks and systems using a library of standardized connectors.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Connects to data processing frameworks and query engines to facilitate data ingestion and federated query execution.
Easegress is a cloud-native traffic orchestration platform that functions as a multi-protocol API gateway and service mesh proxy. It routes, transforms, and orchestrates HTTP and MQTT traffic through configurable filter chains, providing high availability, security controls, and resilience for backend services. The platform integrates with service discovery systems like Kubernetes, Consul, and Eureka to dynamically route traffic to discovered services with automatic failover and health monitoring. The system distinguishes itself through a pipeline-based filter chain architecture where request
Connects with Kubernetes, service registries, serverless platforms, and distributed tracing backends to extend functionality.
KurrentDB is an event-native database designed for event sourcing and event-driven architectures. It stores events as immutable, ordered records in streams, preserving a complete audit trail and enabling temporal queries. The database uses gRPC for all client-server and inter-node communication, providing efficient binary serialization and bidirectional streaming, and supports atomic multi-stream writes that ensure consistency across multiple streams in a single transaction. The database distinguishes itself with a built-in JavaScript projection engine that transforms, filters, and aggregates
Connects event streams to traditional databases and data pipelines using pre-built connectors.
pyinfra is a Python-based infrastructure automation framework that turns Python code into shell commands for managing servers, Docker containers, and local machines. It operates as a declarative, idempotent deployment tool, applying desired system states by comparing target configurations against current states and making only the necessary changes. The framework provides a connector-based transport abstraction that unifies SSH, Docker, and local execution behind a common interface, with a parallel execution engine that manages concurrent operations across hosts. The tool distinguishes itself
Connects to infrastructure providers like Docker, Terraform, and Vagrant through built-in connectors.
Sparrow es una plataforma de extracción de documentos basada en LLM y un motor de inferencia visual diseñado para convertir imágenes y PDFs en datos estructurados validados. Funciona como un orquestador de flujos de trabajo agenticos que encadena tareas de clasificación, extracción y validación en pipelines de múltiples pasos. El sistema se distingue por una capa de inferencia agnóstica al backend que gestiona modelos en GPUs locales, Apple Silicon y proveedores en la nube. Emplea grounding visual basado en coordenadas para mapear el texto extraído a coordenadas precisas de cuadros delimitadores y utiliza dirección de modelos basada en pistas para guiar la atención y normalizar formatos de datos. La plataforma cubre flujos de trabajo de inteligencia documental, incluyendo procesamiento especializado de tablas basadas en imágenes para mantener la integridad estructural y validación basada en esquemas para verificar la exactitud de los campos extraídos. También proporciona un panel de análisis documental para monitorear el rendimiento de la API, analíticas de uso y el estado del sistema. La arquitectura incluye un sistema de extensión basado en plugins para integrar librerías de terceros utilizadas en indexación y orquestación.
Includes a plugin architecture to integrate third-party libraries for indexing and workflow orchestration.
OpenTSDB es una base de datos de series temporales distribuida y un motor de métricas diseñado para almacenar y gestionar volúmenes masivos de métricas de sistema de alta cardinalidad. Funciona como un almacén de datos y plataforma de análisis que permite la ingesta de métricas a gran escala y el monitoreo del rendimiento de la infraestructura a través de un clúster distribuido. El sistema se distingue por una abstracción de almacenamiento distribuido que admite múltiples backends como HBase, Cassandra y Google Bigtable. Utiliza un árbol de métricas jerárquico para organizar series temporales y emplea indexación de identificadores numéricos para reducir la huella de almacenamiento y acelerar las búsquedas de métricas etiquetadas. El proyecto cubre áreas de capacidad amplias, incluyendo análisis de datos de series temporales con cálculos de percentiles distribuidos y submuestreo, así como una gestión integral de metadatos. Proporciona integración de API para la ingesta y consulta de datos, caché fuera de memoria (off-heap) para optimización del rendimiento y herramientas para la auditoría de integridad de datos y análisis de anomalías. El sistema se gestiona a través de una interfaz de línea de comandos para la administración de bases de datos y la sincronización del árbol de métricas.
Accepts data streams from various external system monitors and agents to centralize metric storage.
WuKongIM es un servidor de mensajería instantánea distribuido diseñado para chat y notificaciones en tiempo real. Funciona como un clúster de comunicación descentralizado que utiliza un router de mensajes pub-sub para distribuir datos a usuarios individuales y canales de grupo a gran escala. El sistema incluye un protocolo de streaming de chat de IA especializado para entregar respuestas incrementales de baja latencia desde agentes de inteligencia artificial. También cuenta con una puerta de enlace de eventos webhook que reenvía cambios de estado de comunicación y eventos de mensajes a aplicaciones de negocio externas mediante callbacks. La plataforma proporciona infraestructura para comunicación grupal de alta capacidad, sincronización de mensajes entre dispositivos y seguimiento de conversaciones basado en estados. La seguridad se gestiona mediante cifrado en la capa de transporte y acceso a canales basado en permisos, mientras que la fiabilidad del sistema se mantiene mediante failover automatizado, recuperación ante desastres y monitoreo de salud basado en latidos (heartbeat).
Provides connectivity to third-party systems via webhooks to synchronize communication with external business data.
Dkron is a distributed, fault-tolerant system designed for scheduling and executing recurring tasks across a cluster of nodes. It functions as a cron-based orchestrator that manages job lifecycles, including automatic retries, timeouts, and complex dependencies, while ensuring state consistency through a consensus protocol. By coordinating remote task execution across infrastructure, it enables the automation of background operations and the management of distributed workflows. The system distinguishes itself through a modular architecture that supports pluggable storage backends and a plugin
Connects to external applications and infrastructure tools using client libraries and providers to manage background tasks programmatically.
o2oa es una plataforma de automatización de oficinas empresariales Java de código abierto diseñada para gestionar flujos de trabajo corporativos, jerarquías organizacionales y tareas de oficina colaborativas. Funciona como una plataforma de aplicaciones de negocio low-code y un portal de información corporativa, proporcionando un entorno de desarrollo visual para construir aplicaciones empresariales personalizadas. La plataforma se distingue por su motor de flujo de trabajo empresarial integrado, que permite el diseño y la automatización de procesos de negocio utilizando condiciones de enrutamiento personalizables y scripts basados en eventos. Se diferencia aún más como un framework empresarial de múltiples bases de datos, que admite varias bases de datos relacionales y despliegues de alta disponibilidad en diferentes sistemas operativos. El sistema cubre una amplia gama de áreas de capacidad, incluyendo modelado visual low-code para formularios y páginas, diseño de portal centralizado con dashboards basados en datos e integración de datos empresariales con servicios RESTful y modelos de lenguaje grandes. También incorpora gestión de estructura organizacional, control de acceso basado en roles y despliegue móvil multiplataforma para Android, iOS y HarmonyOS. La instalación es compatible en entornos Linux y Windows utilizando Docker y Nginx.
Exchanges organizational data with external systems or internal modules using a suite of RESTful services.
Iggy es una plataforma de streaming de mensajes distribuida y un broker de mensajes multiprotocolo que funciona como un almacén de registros distribuidos persistente. Proporciona infraestructura para publicar y consumir mensajes binarios utilizando un registro de solo adición (append-only log), asegurando alta disponibilidad y consistencia de datos entre nodos mediante Viewstamped Replication. La plataforma se distingue por su infraestructura de streaming para LLM, que utiliza un protocolo de servidor para conectar modelos de lenguaje grandes a datos de streaming y controles del sistema. Esto incluye protocolos estandarizados para la gestión de contexto y el puente de datos mediante HTTP o entrada/salida estándar. El sistema cubre un amplio conjunto de capacidades, incluyendo la orquestación de pipelines de datos con plugins modulares de origen y destino, coordinación de grupos de consumidores para escalado horizontal y soporte de transporte multiprotocolo a través de TCP, QUIC, HTTP y WebSocket. También incorpora primitivas de seguridad como cifrado AES-256-GCM para datos en reposo y en tránsito, y proporciona observabilidad mediante métricas de Prometheus, rastreo con OpenTelemetry y un panel de control operativo web. El servidor puede desplegarse utilizando imágenes de contenedor y orquestarse mediante Kubernetes.
Bridges streams with external databases and search engines using a plugin system with built-in transformations.
Zeebe es un motor de flujo de trabajo cloud-native y máquina de estados distribuida diseñada para la orquestación de procesos de negocio utilizando estándares BPMN y DMN. Opera como un runtime de flujo de trabajo gRPC de alto rendimiento que ejecuta procesos de negocio complejos a través de una arquitectura de streaming de eventos particionada. El sistema también funciona como un orquestador para agentes de modelos de lenguaje de gran tamaño, coordinando el razonamiento de IA y el uso de herramientas dentro de procesos de negocio deterministas. El motor se distingue por su red de brokers peer-to-peer y un modelo de replicación de datos basado en consenso que garantiza alta disponibilidad y tolerancia a fallos. Emplea un cluster de brokers particionado para lograr escalabilidad horizontal y utiliza contrapresión de solicitudes adaptativa para regular el flujo de comandos entrantes y prevenir la sobrecarga del sistema. La plataforma cubre una amplia superficie de capacidades operativas, incluyendo monitoreo de ejecución en tiempo real con mapas de calor de rendimiento, toma de decisiones de negocio automatizada mediante tablas de decisión y ejecución de tareas distribuidas a través de un modelo de trabajador de tareas basado en polling. También proporciona herramientas para el aislamiento de recursos multi-tenant, control de acceso basado en identidad e integración de APIs web externas y funciones serverless. El sistema puede desplegarse a través de varios entornos, incluyendo Kubernetes y Docker, y se gestiona mediante una combinación de interfaz de línea de comandos y una API REST programática.
Integrates business workflows with third-party applications and enterprise data sources through standardized connectors.