1 个仓库
Extracting data from SQL databases for loading into structured datasets.
Distinct from SQL to Pandas Ingestion: Distinct from SQL to Pandas Ingestion: covers general loading into various structured destinations, not just pandas DataFrames.
Explore 1 awesome GitHub repository matching data & databases · SQL Database Ingestion. Refine with filters or upvote what's useful.
dlt 是一个 Python 数据摄取工具和 ETL 流水线框架,旨在从不同来源获取数据并将其持久化到结构化目标中。它作为一个模式推断引擎,可自动检测数据类型并将嵌套的 JSON 结构扁平化为关系表,将数据从源端移动到数据湖、数据仓库或向量数据库。 该项目通过 AI 驱动的流水线生成脱颖而出,利用大语言模型为 REST API 构建提取代码和连接器。它还支持多模态向量存储和向量数据库的专门填充,以支持 AI 和机器学习应用。 该框架涵盖了广泛的功能,包括自动化模式演进、通过状态跟踪进行增量数据加载,以及通过强制执行数据契约进行数据质量验证。它提供了用于关系数据规范化、加载前后转换的工具,以及针对 SQL 数据库和云对象存储的多种目标适配器。 可观测性通过流水线执行仪表板、列血缘跟踪以及使用基于内容的哈希进行模式版本验证来处理。
Extracts data from SQL databases to be loaded into structured destination datasets.