8 مستودعات
Systems for organizing and coordinating access to massive datasets across distributed query engines.
Distinct from Big Data Processing: Focuses specifically on the management and coordination of table state rather than the general processing of data.
Explore 8 awesome GitHub repositories matching data & databases · Table Managers. Refine with filters or upvote what's useful.
RisingWave is a cloud-native streaming database and real-time analytics engine that uses standard SQL to process continuous data streams. It functions as a streaming data lakehouse, combining the capabilities of a streaming SQL database with a platform that integrates streaming ingestion with open table formats. The system is distinguished by its use of the PostgreSQL wire protocol, allowing it to integrate with existing SQL tools and drivers. It employs a decoupled compute and storage architecture, persisting streaming state and materialized views in cloud object storage to enable independen
Handles the lifecycle of Iceberg tables, including catalog management and automated compaction.
LanceDB is a vector database and columnar data store designed to function as a versioned dataset manager and vector search engine. It serves as a high-performance backend for indexing and retrieving high-dimensional embeddings, providing the foundation for machine learning data pipelines. The system distinguishes itself through a combination of cloud-native object storage and immutable version tracking, allowing for data time-travel and reproducible AI experiments. It integrates hybrid search capabilities, merging dense vector similarity with BM25 full-text search and SQL-like scalar filters
Creates and manages tables that simultaneously store vector embeddings and scalar metadata.
Iceberg is an open table format and big data table manager designed for huge analytic datasets in cloud storage. It provides a specification for tracking large-scale datasets to maintain transactional consistency and structural integrity. The project utilizes a standardized REST catalog interface to manage table metadata, ensuring interoperability between different compute engines. This allows diverse query engines to connect to a single table interface and maintain consistency across different processing frameworks. Its core capabilities include managing large-scale analytic tables, coordin
Provides a comprehensive system for managing massive analytic datasets and coordinating concurrent read/write operations across multiple engines.
Moto is a cloud service mockery framework and API mock server that simulates AWS infrastructure locally. It allows developers to test cloud-dependent code and verify infrastructure-as-code templates without deploying real resources or incurring costs. The project functions as an SDK interceptor that can patch existing service clients to redirect requests to a local mock environment. It can also be run as a standalone HTTP server, enabling any programming language to interact with the simulated endpoints. The framework covers a vast array of simulated capabilities, including data storage, com
Simulates the organization and coordination of massive datasets via table and namespace management.
Apache Hive is a SQL-on-Hadoop data warehouse that enables querying and managing petabytes of data stored in distributed storage such as HDFS and cloud storage services. It provides a familiar SQL interface for batch analytics and reporting, supported by a core set of components including the HiveServer2 Thrift service for remote query execution, the Hive Metastore Service for central metadata management, the Hive ACID Transaction Engine for concurrent read-write operations, and the Hive LLAP Interactive Engine for low-latency analytical processing. The WebHCat REST API offers an HTTP interfac
Manages large analytic datasets in Iceberg format with snapshot isolation, branching, tagging, and full DML support.
lakeFS هو نظام إصدارات لبحيرات البيانات يوفر تفرعاً (branching) والتزامات (commits) تشبه Git لمجموعات البيانات الكبيرة المخزنة في تخزين الكائنات. يعمل كطبقة تحكم في الإصدار، مما يتيح إنشاء لقطات غير قابلة للتغيير، والتزامات ذرية، وتفرعاً بدون نسخ (zero-copy) لإنشاء بيئات معزولة لتجارب البيانات دون تكرار الملفات الفيزيائية. يعمل النظام كبوابة تخزين متوافقة مع S3 وفهرس Iceberg REST، مما يسمح لبروتوكولات التخزين السحابي القياسية والعملاء المتوافقين بإدارة الجداول ذات الإصدارات. يعمل كحارس لجودة البيانات باستخدام نظام خطافات (hooks) قائم على الأحداث للتحقق من مجموعات البيانات مقابل سياسات الحوكمة قبل دمج التغييرات في الإنتاج. تغطي المنصة قدرات واسعة لحوكمة البيانات، بما في ذلك التعاون عبر طلبات السحب (pull requests)، والتحكم في الوصول القائم على الأدوار، وتتبع أصل البيانات. يوفر تكاملاً لتنسيق سير العمل، وخطوط أنابيب التعلم الآلي، ومحركات حوسبة البيانات الضخمة المختلفة، ويدعم اتصال التخزين متعدد السحابة ومزامنة الهوية عبر SSO وSCIM. يمكن تثبيت البرنامج باستخدام ملفات ثنائية، أو حاويات، أو Helm charts للنشر على Kubernetes.
Provides a complete history of modifications for Iceberg tables by staging changes on specific references.
GeoPandas هي مكتبة Python توسع pandas بدعم أصلي للبيانات الجغرافية المكانية. فهي تعامل الأشكال الهندسية الجغرافية — النقاط والخطوط والمضلعات — كنوع عمود من الدرجة الأولى داخل DataFrames، مما يتيح للمستخدمين تخزين ومعالجة وتحليل البيانات المكانية المتجهة جنباً إلى جنب مع السمات الجدولية التقليدية. بُنيت المكتبة فوق مكونات جغرافية مكانية موثوقة: فهي تستخدم Shapely لجميع العمليات الهندسية، وFiona وGDAL لقراءة وكتابة تنسيقات الملفات المكانية القياسية، وPyProj لإعادة إسقاط الإحداثيات، وفهرس مكاني R-tree (من Shapely) لتسريع الاستعلامات المكانية. ما يميز GeoPandas هو تكاملها السلس لسير عمل التحليل المكاني الكامل داخل نظام pandas البيئي. يمكن للمستخدمين إجراء تحويلات لنظام مرجع الإحداثيات لمواءمة البيانات عبر إسقاطات مختلفة، وحساب الخصائص الهندسية مثل المساحة والطول، وإنشاء النطاقات (buffers) والمراكز (centroids)، وإجراء عمليات المجموعات مثل التقاطعات والاتحادات. تدعم المكتبة أيضاً التصفية القائمة على الموقع، والربط المكاني الذي يجمع مجموعات البيانات بناءً على العلاقات الهندسية، وتحليلات التراكب التي تنتج نتائج مجمعة. ولأغراض الاستكشاف، توفر المكتبة إمكانيات تصور الخرائط، مما ينتج رسوماً بيانية ثابتة وخرائط تفاعلية مباشرة من الجداول المكانية. بالإضافة إلى هذه الميزات الأساسية، تتعامل GeoPandas مع دورة الحياة الكاملة للبيانات الجغرافية: الاستيراد من والتصدير إلى تنسيقات شائعة مثل Shapefile وGeoJSON وGeoPackage؛ وإدارة الجداول المكانية التي تربط الهندسة بأعمدة السمات؛ والاستعلام عن المعالم أو تصفيتها حسب الموقع أو شروط السمات أو المسندات المكانية. تغطي وثائقها التثبيت، ومرجعاً شاملاً لـ API، وأدلة مستخدم تشرح المهام الجغرافية المكانية الشائعة.
Manages tables that combine geometric features with scalar attribute columns for spatial data analysis.
Gravitino is a federated metadata lake and unified data catalog designed to manage tables, files, and AI models across diverse data sources and cloud storage. It serves as a centralized interface for governing schemas, access controls, and tagging across relational databases, messaging queues, and object stores. The project distinguishes itself by unifying the management of AI assets, such as machine learning models and their version lineages, alongside traditional tabular data. It also implements the Iceberg REST specification to provide a standardized metadata server and proxy for lakehouse
Provides a metadata service for Iceberg tables via Hive Thrift, JDBC, and REST APIs.