1 个仓库
Mechanisms for transferring and transforming data between in-memory data frames and cloud storage services.
Distinguishing note: Candidates focus on project moves or local files, not the bridge between pandas data frames and cloud services
Explore 1 awesome GitHub repository matching data & databases · DataFrame Cloud Integrations. Refine with filters or upvote what's useful.
该项目是一个 AWS pandas 集成库和数据流水线框架,旨在简化本地内存与 AWS 存储及分析服务之间的数据移动和转换。它作为一个云数据湖工具包和存储文件管理器,允许用户在各种云环境中读取、写入和转换结构化数据。 该库作为分布式计算编排器脱颖而出,能够在 EMR 等环境中管理集群,以处理超出单机内存限制的数据集。它还提供用于管理向量索引和在云存储桶内执行相似度搜索的专门功能。 其更广泛的功能面涵盖了针对 DynamoDB、RDS 和 Timestream 等服务的云数据库 ETL,以及通过 AWS Glue 进行的云数据目录管理。它支持通过 Athena 和 Redshift 进行无服务器数据分析,并提供用于管理 S3 对象、在 OpenSearch 中索引文档以及分析 CloudWatch 日志的实用程序。
Simplifies the movement and transformation of data between local memory data frames and AWS cloud services.