Why is alibaba/datax a recommended Data Extraction GitHub Repositories repository?

Reads records from remote SQL Server databases using JDBC connections and SQL SELECT statements.

Why is dlt-hub/dlt a recommended Data Extraction GitHub Repositories repository?

Enables the retrieval of records from relational databases via connectivity plugins for target loading.

2 Repos

Awesome GitHub RepositoriesData Extraction

Retrieval of records from a specific database via connectivity plugins.

Distinct from SQL Server Data Sources: Distinct from SQL Server Data Sources: focuses on general data synchronization extraction rather than ML feature retrieval.

Explore 2 awesome GitHub repositories matching data & databases · Data Extraction. Refine with filters or upvote what's useful.

Finde die besten Repos mit KI.Wir suchen mit KI nach den am besten passenden Repositories.

alibaba/datax
alibaba/DataX
17,241Auf GitHub ansehen
DataX is a distributed data integration framework and plugin-based ETL tool designed for synchronizing large datasets between heterogeneous sources and destinations. It functions as a JDBC data migration engine and offline synchronization tool, enabling the movement of data between relational databases, NoSQL stores, and object storage. The system utilizes a plugin-based connector architecture that decouples reader and writer logic, allowing it to map and transform data types across different storage engines using a standardized internal representation. This design supports heterogeneous data
Reads records from remote SQL Server databases using JDBC connections and SQL SELECT statements.
Java
Auf GitHub ansehen17,241
dlt-hub/dlt
dlt-hub/dlt
5,472Auf GitHub ansehen
dlt ist ein Python-Tool zur Datenaufnahme und ein ETL-Pipeline-Framework, das darauf ausgelegt ist, Daten aus verschiedenen Quellen abzurufen und in strukturierten Zielen zu speichern. Es fungiert als Schema-Inferenz-Engine, die automatisch Datentypen erkennt und verschachtelte JSON-Strukturen in relationale Tabellen flacht, wobei Daten von Quellen in Lakehouses, Warehouses oder Vektordatenbanken verschoben werden. Das Projekt zeichnet sich durch KI-gestützte Pipeline-Generierung aus, die Large Language Models nutzt, um Extraktionscode und Konnektoren für REST-APIs zu erstellen. Es unterstützt zudem multimodale Vektorspeicherung und die spezialisierte Befüllung von Vektordatenbanken zur Unterstützung von KI- und Machine-Learning-Anwendungen. Das Framework deckt ein breites Spektrum an Funktionen ab, einschließlich automatisierter Schema-Evolution, inkrementellem Datenladen mittels Statusverfolgung und Datenqualitätsvalidierung durch die Durchsetzung von Datenverträgen. Es bietet Tools für relationale Datennormalisierung, Pre- und Post-Load-Transformationen sowie eine Vielzahl von Ziel-Adaptern für SQL-Datenbanken und Cloud-Objektspeicher. Die Observability wird durch Pipeline-Ausführungs-Dashboards, Spalten-Lineage-Tracking und Schema-Versionsverifizierung mittels inhaltsbasierter Hashes gehandhabt.
Enables the retrieval of records from relational databases via connectivity plugins for target loading.
Pythondatadata-engineeringdata-lake
Auf GitHub ansehen5,472

Awesome Data Extraction GitHub Repositories

alibaba/DataX

dlt-hub/dlt