2 dépôts
Using SQL statements to define and manage change data capture sources.
Distinct from SQL Statement Executions: Specifically relates to using SQL for CDC configuration, which is distinct from general SQL query execution or ML integration.
Explore 2 awesome GitHub repositories matching data & databases · SQL-Based CDC Integrations. Refine with filters or upvote what's useful.
This project is a streaming data integration framework that captures real-time database changes and synchronizes them with downstream systems. It operates as a distributed streaming ETL and database synchronizer, reading database logs and snapshots to propagate row-level modifications to target sinks. The system supports declarative data integration, allowing users to define source-to-sink data flows using SQL or YAML configurations. It distinguishes itself by automating schema evolution to maintain synchronization when source structures change and ensuring exactly-once delivery and processin
Defines change data capture sources using SQL statements to query and process database changes.
Chunjun est un framework d'intégration de données distribué et un pipeline ETL basé sur SQL conçu pour synchroniser les données entre des sources hétérogènes. Il fonctionne comme un outil de capture de données modifiées (CDC) et un synchroniseur de données hétérogènes, utilisant un environnement de traitement distribué pour déplacer et transformer les données à travers différents types de bases de données. Le système se distingue par son architecture de connecteurs basée sur des plugins, qui permet le développement de plugins de source et de destination personnalisés pour étendre la connectivité aux systèmes de données non pris en charge. Il prend en charge la capture de données modifiées en temps réel à partir des journaux de bases de données relationnelles et implémente la propagation de l'évolution de schéma pour appliquer automatiquement les changements structurels des tables sources aux tables de destination. Le framework fournit des capacités pour la synchronisation de données incrémentielle et le calcul de données inter-sources utilisant la logique SQL. La fiabilité est gérée via une récupération de tâche basée sur des points de contrôle pour reprendre les transferts interrompus et des files d'attente de lettres mortes pour la gestion des données sales afin d'auditer les enregistrements mal formés. Les tâches d'intégration peuvent être déployées sur des clusters autonomes, Yarn ou des environnements Kubernetes, avec une prise en charge du déploiement conteneurisé via Docker.
Enables the definition of data integration and CDC workflows using SQL scripts compatible with streaming syntax.