1 Repo
Extracting data from SQL databases for loading into structured datasets.
Distinct from SQL to Pandas Ingestion: Distinct from SQL to Pandas Ingestion: covers general loading into various structured destinations, not just pandas DataFrames.
Explore 1 awesome GitHub repository matching data & databases · SQL Database Ingestion. Refine with filters or upvote what's useful.
dlt ist ein Python-Tool zur Datenaufnahme und ein ETL-Pipeline-Framework, das darauf ausgelegt ist, Daten aus verschiedenen Quellen abzurufen und in strukturierten Zielen zu speichern. Es fungiert als Schema-Inferenz-Engine, die automatisch Datentypen erkennt und verschachtelte JSON-Strukturen in relationale Tabellen flacht, wobei Daten von Quellen in Lakehouses, Warehouses oder Vektordatenbanken verschoben werden. Das Projekt zeichnet sich durch KI-gestützte Pipeline-Generierung aus, die Large Language Models nutzt, um Extraktionscode und Konnektoren für REST-APIs zu erstellen. Es unterstützt zudem multimodale Vektorspeicherung und die spezialisierte Befüllung von Vektordatenbanken zur Unterstützung von KI- und Machine-Learning-Anwendungen. Das Framework deckt ein breites Spektrum an Funktionen ab, einschließlich automatisierter Schema-Evolution, inkrementellem Datenladen mittels Statusverfolgung und Datenqualitätsvalidierung durch die Durchsetzung von Datenverträgen. Es bietet Tools für relationale Datennormalisierung, Pre- und Post-Load-Transformationen sowie eine Vielzahl von Ziel-Adaptern für SQL-Datenbanken und Cloud-Objektspeicher. Die Observability wird durch Pipeline-Ausführungs-Dashboards, Spalten-Lineage-Tracking und Schema-Versionsverifizierung mittels inhaltsbasierter Hashes gehandhabt.
Extracts data from SQL databases to be loaded into structured destination datasets.