8 repositorios
Systems for organizing and coordinating access to massive datasets across distributed query engines.
Distinct from Big Data Processing: Focuses specifically on the management and coordination of table state rather than the general processing of data.
Explore 8 awesome GitHub repositories matching data & databases · Table Managers. Refine with filters or upvote what's useful.
RisingWave is a cloud-native streaming database and real-time analytics engine that uses standard SQL to process continuous data streams. It functions as a streaming data lakehouse, combining the capabilities of a streaming SQL database with a platform that integrates streaming ingestion with open table formats. The system is distinguished by its use of the PostgreSQL wire protocol, allowing it to integrate with existing SQL tools and drivers. It employs a decoupled compute and storage architecture, persisting streaming state and materialized views in cloud object storage to enable independen
Handles the lifecycle of Iceberg tables, including catalog management and automated compaction.
LanceDB is a vector database and columnar data store designed to function as a versioned dataset manager and vector search engine. It serves as a high-performance backend for indexing and retrieving high-dimensional embeddings, providing the foundation for machine learning data pipelines. The system distinguishes itself through a combination of cloud-native object storage and immutable version tracking, allowing for data time-travel and reproducible AI experiments. It integrates hybrid search capabilities, merging dense vector similarity with BM25 full-text search and SQL-like scalar filters
Creates and manages tables that simultaneously store vector embeddings and scalar metadata.
Iceberg is an open table format and big data table manager designed for huge analytic datasets in cloud storage. It provides a specification for tracking large-scale datasets to maintain transactional consistency and structural integrity. The project utilizes a standardized REST catalog interface to manage table metadata, ensuring interoperability between different compute engines. This allows diverse query engines to connect to a single table interface and maintain consistency across different processing frameworks. Its core capabilities include managing large-scale analytic tables, coordin
Provides a comprehensive system for managing massive analytic datasets and coordinating concurrent read/write operations across multiple engines.
Moto is a cloud service mockery framework and API mock server that simulates AWS infrastructure locally. It allows developers to test cloud-dependent code and verify infrastructure-as-code templates without deploying real resources or incurring costs. The project functions as an SDK interceptor that can patch existing service clients to redirect requests to a local mock environment. It can also be run as a standalone HTTP server, enabling any programming language to interact with the simulated endpoints. The framework covers a vast array of simulated capabilities, including data storage, com
Simulates the organization and coordination of massive datasets via table and namespace management.
Apache Hive is a SQL-on-Hadoop data warehouse that enables querying and managing petabytes of data stored in distributed storage such as HDFS and cloud storage services. It provides a familiar SQL interface for batch analytics and reporting, supported by a core set of components including the HiveServer2 Thrift service for remote query execution, the Hive Metastore Service for central metadata management, the Hive ACID Transaction Engine for concurrent read-write operations, and the Hive LLAP Interactive Engine for low-latency analytical processing. The WebHCat REST API offers an HTTP interfac
Manages large analytic datasets in Iceberg format with snapshot isolation, branching, tagging, and full DML support.
lakeFS es un sistema de versionado de lagos de datos que proporciona ramificaciones (branching) y commits similares a Git para grandes conjuntos de datos almacenados en almacenamiento de objetos. Funciona como una capa de control de versiones, permitiendo la creación de instantáneas inmutables, commits atómicos y ramificaciones de copia cero para crear entornos aislados para la experimentación de datos sin duplicar archivos físicos. El sistema sirve como una puerta de enlace de almacenamiento compatible con S3 y un catálogo REST de Iceberg, permitiendo que los protocolos de almacenamiento en la nube estándar y los clientes compatibles gestionen tablas versionadas. Actúa como un guardián de calidad de datos mediante el uso de un sistema de hooks basado en eventos para validar conjuntos de datos contra políticas de gobernanza antes de que los cambios se fusionen en producción. La plataforma cubre amplias capacidades para la gobernanza de datos, incluyendo colaboración mediante pull requests, control de acceso basado en roles y seguimiento del linaje de datos. Proporciona integración para la orquestación de flujos de trabajo, pipelines de aprendizaje automático y varios motores de cómputo de big data, soportando conectividad de almacenamiento multi-nube y sincronización de identidad mediante SSO y SCIM. El software se puede instalar utilizando binarios, contenedores o Helm charts para su despliegue en Kubernetes.
Provides a complete history of modifications for Iceberg tables by staging changes on specific references.
GeoPandas es una biblioteca de Python que extiende pandas con soporte nativo para datos geoespaciales. Trata las geometrías geográficas (puntos, líneas y polígonos) como un tipo de columna de primera clase dentro de los DataFrames, permitiendo a los usuarios almacenar, manipular y analizar datos espaciales vectoriales junto con atributos tabulares tradicionales. La biblioteca está construida sobre componentes geoespaciales probados: utiliza Shapely para todas las operaciones geométricas, Fiona y GDAL para leer y escribir formatos de archivos espaciales estándar, PyProj para la reproyección de coordenadas y un índice espacial R-tree (de Shapely) para acelerar las consultas espaciales. Lo que distingue a GeoPandas es su integración fluida de flujos de trabajo de análisis espacial completos dentro del ecosistema de pandas. Los usuarios pueden realizar transformaciones de sistemas de referencia de coordenadas para alinear datos entre diferentes proyecciones, calcular propiedades geométricas como área y longitud, generar buffers y centroides, y realizar operaciones de conjuntos como intersecciones y uniones. La biblioteca también admite filtrado basado en ubicación, uniones espaciales que combinan conjuntos de datos basados en relaciones geométricas y análisis de superposición que producen resultados agregados. Para la exploración, ofrece capacidades de visualización de mapas, produciendo gráficos estáticos y mapas interactivos directamente desde tablas espaciales. Más allá de estos diferenciadores clave, GeoPandas maneja el ciclo de vida completo de los datos geográficos: importación y exportación a formatos comunes como Shapefile, GeoJSON y GeoPackage; gestión de tablas espaciales que vinculan la geometría con columnas de atributos; y consulta o filtrado de entidades por ubicación, condiciones de atributos o predicados espaciales. Su documentación cubre la instalación, una referencia completa de la API y guías de usuario que explican tareas geoespaciales comunes.
Manages tables that combine geometric features with scalar attribute columns for spatial data analysis.
Gravitino is a federated metadata lake and unified data catalog designed to manage tables, files, and AI models across diverse data sources and cloud storage. It serves as a centralized interface for governing schemas, access controls, and tagging across relational databases, messaging queues, and object stores. The project distinguishes itself by unifying the management of AI assets, such as machine learning models and their version lineages, alongside traditional tabular data. It also implements the Iceberg REST specification to provide a standardized metadata server and proxy for lakehouse
Provides a metadata service for Iceberg tables via Hive Thrift, JDBC, and REST APIs.