11 रिपॉजिटरी
Systems that redistribute data and scale writer tasks to improve throughput and resource utilization.
Distinct from Concurrent Write Optimizations: Distinct from general concurrent write optimizations: focuses on scaling writer tasks and preventing data skew.
Explore 11 awesome GitHub repositories matching data & databases · Data Write Throughput Optimizers. Refine with filters or upvote what's useful.
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Redistributes data across nodes to prevent skew and dynamically scales writer tasks to improve throughput.
ScyllaDB is a distributed NoSQL database engine designed for high-throughput data storage and low-latency performance at scale. It functions as a shard-aware platform that manages large-scale datasets across distributed clusters, providing a foundation for real-time applications that require consistent availability and operational stability. The system distinguishes itself through a shared-nothing architecture that distributes data across independent CPU cores to eliminate lock contention. It incorporates a user-space networking stack and an asynchronous event-driven engine to maximize hardwa
Routes requests directly to the appropriate data partition using shard-aware connectivity to maximize system throughput.
Metaflow is a Python machine learning framework and MLOps workflow orchestrator designed to manage the lifecycle of data pipelines from local prototyping to production. It serves as a distributed compute manager and an experiment tracking system, enabling the creation of reproducible pipelines that transition between development and high-availability production environments. The framework distinguishes itself through an integrated checkpointing system that automatically persists intermediate data artifacts to remote storage, allowing failed runs to be resumed from the last successful step. It
Provides high-throughput S3 data management using parallel operations and recursive prefix loading.
CubeFS एक डिस्ट्रीब्यूटेड क्लाउड स्टोरेज सिस्टम है जिसे डेटा सेंटर्स और हाइब्रिड क्लाउड्स में फ़ाइल और ऑब्जेक्ट स्टोरेज को मैनेज करने के लिए डिज़ाइन किया गया है। यह एक मल्टी-टेनेंट डिस्ट्रीब्यूटेड फ़ाइल सिस्टम और ऑब्जेक्ट स्टोर के रूप में कार्य करता है जो असंरचित कंटेंट को स्टोर करने के लिए डिस्ट्रीब्यूटेड आर्किटेक्चर का उपयोग करके एक्साबाइट स्केल पर डेटा को हैंडल करने में सक्षम है। यह सिस्टम एक मल्टी-प्रोटोकॉल इंटरफ़ेस लेयर द्वारा अलग है जो S3, POSIX और HDFS इंटरफ़ेस के माध्यम से एक साथ डेटा एक्सेस की अनुमति देता है। यह प्रोसेसिंग और पर्सिस्टेंस को स्वतंत्र रूप से स्केल करने के लिए एक डिकपल्ड कंप्यूट-स्टोरेज आर्किटेक्चर का उपयोग करता है और विभिन्न टेनेंट्स के बीच संसाधनों और डेटा को अलग करने के लिए फाइन-ग्रेन्ड आइसोलेशन नीतियां लागू करता है। विश्वसनीयता को कॉन्फ़िगर करने योग्य रिडंडेंसी रणनीतियों के माध्यम से मैनेज किया जाता है, जिसमें मल्टी-रेप्लिका मिररिंग और इरेज़र कोडिंग शामिल हैं। प्लेटफ़ॉर्म में डेटा एक्सेस को तेज़ करने के लिए एक मल्टी-टियर कैशिंग सिस्टम शामिल है और यह पर्सिस्टेंट वॉल्यूम्स के प्रोविज़निंग को ऑटोमेट करने के लिए कंटेनर स्टोरेज इंटरफ़ेस ड्राइवर के माध्यम से Kubernetes के साथ इंटीग्रेट होता है।
Optimizes I/O performance for various file sizes through sequential and random write optimizations.
Mountpoint for Amazon S3 is a FUSE-based filesystem client that mounts S3 buckets as local directories, enabling standard file operations on objects without custom code. It enforces S3 bucket permissions through AWS Identity and Access Management policies on every operation, and implements lazy object materialization to fetch content on-demand rather than downloading entire objects at mount time. The filesystem maps S3's flat key namespace into a hierarchical directory structure using forward slashes as path separators, and supports write-back object assembly that accumulates local writes into
Provides tunable network throughput, concurrency, and part-size parameters for high-volume S3 data transfers.
Dragonboat is a Go implementation of the Raft consensus protocol designed to maintain consistent state across a distributed cluster of nodes. It provides a library for building distributed state machines that ensure data integrity and fault tolerance during system failures. The project distinguishes itself through a multi-group Raft implementation, which partitions data across independent consensus groups to distribute workloads and increase overall system processing capacity. It also incorporates mutual TLS to encrypt inter-node communication and verify the identity of cluster members. The
Implements read-path optimizations that verify the latest committed index to ensure consistency without generating new log entries.
OpenTSDB एक डिस्ट्रीब्यूटेड टाइम सीरीज़ डेटाबेस और मेट्रिक्स इंजन है जिसे उच्च-कार्डिनैलिटी सिस्टम मेट्रिक्स की विशाल मात्रा को संग्रहीत और प्रबंधित करने के लिए डिज़ाइन किया गया है। यह एक डेटा स्टोर और एनालिटिक्स प्लेटफॉर्म के रूप में कार्य करता है जो डिस्ट्रीब्यूटेड क्लस्टर में बड़े पैमाने पर मेट्रिक अंतर्ग्रहण और इंफ्रास्ट्रक्चर परफॉरमेंस निगरानी को सक्षम बनाता है। यह सिस्टम एक डिस्ट्रीब्यूटेड स्टोरेज एब्स्ट्रैक्शन के माध्यम से खुद को अलग करता है जो HBase, Cassandra और Google Bigtable जैसे कई बैकएंड्स का समर्थन करता है। यह टाइम सीरीज़ को व्यवस्थित करने के लिए एक पदानुक्रमित मेट्रिक ट्री का उपयोग करता है और स्टोरेज फुटप्रिंट्स को कम करने और टैग्ड मेट्रिक्स के लिए लुकअप्स को तेज करने के लिए संख्यात्मक पहचानकर्ता इंडेक्सिंग का उपयोग करता है। यह प्रोजेक्ट डिस्ट्रीब्यूटेड पर्सेंटाइल गणना और डाउनसैंपलिंग के साथ टाइम सीरीज़ डेटा विश्लेषण, साथ ही व्यापक मेटाडेटा प्रबंधन सहित व्यापक क्षमता क्षेत्रों को कवर करता है। यह डेटा अंतर्ग्रहण और क्वेरी के लिए API एकीकरण, परफॉरमेंस ऑप्टिमाइज़ेशन के लिए ऑफ-हीप कैशिंग और डेटा अखंडता ऑडिटिंग और विसंगति विश्लेषण के लिए टूल्स प्रदान करता है। यह सिस्टम डेटाबेस प्रशासन और मेट्रिक ट्री सिंक्रोनाइज़ेशन के लिए कमांड-लाइन इंटरफेस के माध्यम से प्रबंधित किया जाता है।
Scales write throughput by distributing incoming data points across a cluster of nodes to handle millions of points per second.
Velox is a high-performance C++ query execution engine and columnar data processing library. It serves as a composable framework for implementing analytical query engines, providing a vectorized expression evaluator and a toolkit for data management systems. The project is distinguished by its use of vectorized columnar execution and arena-based memory allocation to process large-scale datasets. It features specialized optimizations such as broadcast join table caching, dynamic filter push-down, and dictionary encoding to reduce memory overhead and accelerate analytical reads. The engine cov
Optimizes filtered reads from Parquet columns using stack buffers to reduce per-row overhead.
Orioledb PostgreSQL के लिए एक क्लाउड-नेटिव स्टोरेज इंजन है जिसे आधुनिक हार्डवेयर पर वर्टिकल स्केलेबिलिटी और प्रदर्शन में सुधार करने के लिए डिफ़ॉल्ट स्टोरेज लेयर को बदलने के लिए डिज़ाइन किया गया है। यह एक इंडेक्स-ऑर्गनाइज्ड टेबल स्टोर के रूप में कार्य करता है, जो डेटा रिट्रीवल को तेज करने के लिए टेबल पंक्तियों को सीधे प्राथमिक इंडेक्स के भीतर व्यवस्थित करता है। इंजन डेटा वर्शनिंग को प्रबंधित करने के लिए एक अनडू लॉग स्टोरेज सिस्टम का उपयोग करता है, जो मैन्युअल वैक्यूमिंग की आवश्यकता को समाप्त करता है और टेबल ब्लोट को रोकता है। यह ब्लॉक-लेवल और पेज-लेवल डेटा कम्प्रेशन के माध्यम से डिस्क फुटप्रिंट को और कम करता है। यह प्रोजेक्ट उन्नत इंडेक्स प्रबंधन और स्वचालित डेटाबेस रखरखाव के लिए क्षमताएं प्रदान करता है। इसमें रो-लेवल लॉगिंग के माध्यम से उच्च उपलब्धता रिकवरी के लिए सुविधाएं शामिल हैं, साथ ही स्थान उपयोग का विश्लेषण करने और टेबल अखंडता को सत्यापित करने के लिए उपकरण भी शामिल हैं।
Improves read throughput on high-core servers by removing buffer mapping and atomic operations during in-memory reads.
SlateDB is a cloud-native key-value store and distributed database engine that utilizes a log-structured merge-tree architecture. It serves as a transactional storage layer designed to persist data directly to cloud object storage. The engine differentiates itself by optimizing read performance for remote storage through the use of bloom filters and multi-level block caching. It employs a single-writer multi-reader model and provides the ability to create zero-copy clones via copy-on-write checkpointing. The system supports atomic transactions, range queries, and snapshot-based concurrency c
Implements multi-level block caching and bloom filters to reduce latency when retrieving data from cloud object storage.
This project is a reference library of architectural blueprints, study materials, and design patterns for building scalable, high-availability distributed systems. It serves as a technical guide for scalability engineering, providing structural solutions for common engineering challenges. The repository focuses on distributed systems design, covering essential patterns for data replication, consensus algorithms, and transaction management. It distinguishes itself by offering detailed blueprints for specialized domains, including real-time data streaming, large-scale data storage, and high-ava
Uses Bloom filters to optimize read paths by verifying key existence before performing disk lookups.