1 repository
Extracting data from SQL databases for loading into structured datasets.
Distinct from SQL to Pandas Ingestion: Distinct from SQL to Pandas Ingestion: covers general loading into various structured destinations, not just pandas DataFrames.
Explore 1 awesome GitHub repository matching data & databases · SQL Database Ingestion. Refine with filters or upvote what's useful.
dlt este un instrument de ingestie a datelor Python și un framework de pipeline ETL conceput pentru a prelua date din surse diverse și a le persista în destinații structurate. Funcționează ca un motor de inferență a schemei care detectează automat tipurile de date și aplatizează structurile JSON imbricate în tabele relaționale, mutând datele din surse către lakehouse-uri, depozite de date sau baze de date vectoriale. Proiectul se distinge prin generarea de pipeline-uri bazată pe AI, utilizând modele lingvistice mari pentru a crea codul de extracție și conectorii pentru API-urile REST. De asemenea, suportă stocarea vectorială multimodală și popularea specializată a bazelor de date vectoriale pentru a susține aplicațiile AI și machine learning. Framework-ul acoperă o gamă largă de capabilități, inclusiv evoluția automată a schemei, încărcarea incrementală a datelor prin urmărirea stării și validarea calității datelor prin aplicarea contractelor de date. Oferă instrumente pentru normalizarea datelor relaționale, transformări pre- și post-încărcare și o varietate de adaptoare de destinație pentru baze de date SQL și stocare de obiecte în cloud. Observabilitatea este gestionată prin dashboard-uri de execuție a pipeline-ului, urmărirea lineage-ului coloanelor și verificarea versiunii schemei folosind hash-uri bazate pe conținut.
Extracts data from SQL databases to be loaded into structured destination datasets.