Why is alibaba/datax a recommended Data Extraction GitHub Repositories repository?

Reads records from remote SQL Server databases using JDBC connections and SQL SELECT statements.

Why is dlt-hub/dlt a recommended Data Extraction GitHub Repositories repository?

Enables the retrieval of records from relational databases via connectivity plugins for target loading.

2 repository-uri

Awesome GitHub RepositoriesData Extraction

Retrieval of records from a specific database via connectivity plugins.

Distinct from SQL Server Data Sources: Distinct from SQL Server Data Sources: focuses on general data synchronization extraction rather than ML feature retrieval.

Explore 2 awesome GitHub repositories matching data & databases · Data Extraction. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

alibaba/datax
alibaba/DataX
17,241Vezi pe GitHub
DataX is a distributed data integration framework and plugin-based ETL tool designed for synchronizing large datasets between heterogeneous sources and destinations. It functions as a JDBC data migration engine and offline synchronization tool, enabling the movement of data between relational databases, NoSQL stores, and object storage. The system utilizes a plugin-based connector architecture that decouples reader and writer logic, allowing it to map and transform data types across different storage engines using a standardized internal representation. This design supports heterogeneous data
Reads records from remote SQL Server databases using JDBC connections and SQL SELECT statements.
Java
Vezi pe GitHub17,241
dlt-hub/dlt
dlt-hub/dlt
5,472Vezi pe GitHub
dlt este un instrument de ingestie a datelor Python și un framework de pipeline ETL conceput pentru a prelua date din surse diverse și a le persista în destinații structurate. Funcționează ca un motor de inferență a schemei care detectează automat tipurile de date și aplatizează structurile JSON imbricate în tabele relaționale, mutând datele din surse către lakehouse-uri, depozite de date sau baze de date vectoriale. Proiectul se distinge prin generarea de pipeline-uri bazată pe AI, utilizând modele lingvistice mari pentru a crea codul de extracție și conectorii pentru API-urile REST. De asemenea, suportă stocarea vectorială multimodală și popularea specializată a bazelor de date vectoriale pentru a susține aplicațiile AI și machine learning. Framework-ul acoperă o gamă largă de capabilități, inclusiv evoluția automată a schemei, încărcarea incrementală a datelor prin urmărirea stării și validarea calității datelor prin aplicarea contractelor de date. Oferă instrumente pentru normalizarea datelor relaționale, transformări pre- și post-încărcare și o varietate de adaptoare de destinație pentru baze de date SQL și stocare de obiecte în cloud. Observabilitatea este gestionată prin dashboard-uri de execuție a pipeline-ului, urmărirea lineage-ului coloanelor și verificarea versiunii schemei folosind hash-uri bazate pe conținut.
Enables the retrieval of records from relational databases via connectivity plugins for target loading.
Pythondatadata-engineeringdata-lake
Vezi pe GitHub5,472

Awesome Data Extraction GitHub Repositories

alibaba/DataX

dlt-hub/dlt