11 repositorios
Systems that redistribute data and scale writer tasks to improve throughput and resource utilization.
Distinct from Concurrent Write Optimizations: Distinct from general concurrent write optimizations: focuses on scaling writer tasks and preventing data skew.
Explore 11 awesome GitHub repositories matching data & databases · Data Write Throughput Optimizers. Refine with filters or upvote what's useful.
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Redistributes data across nodes to prevent skew and dynamically scales writer tasks to improve throughput.
ScyllaDB is a distributed NoSQL database engine designed for high-throughput data storage and low-latency performance at scale. It functions as a shard-aware platform that manages large-scale datasets across distributed clusters, providing a foundation for real-time applications that require consistent availability and operational stability. The system distinguishes itself through a shared-nothing architecture that distributes data across independent CPU cores to eliminate lock contention. It incorporates a user-space networking stack and an asynchronous event-driven engine to maximize hardwa
Routes requests directly to the appropriate data partition using shard-aware connectivity to maximize system throughput.
Metaflow is a Python machine learning framework and MLOps workflow orchestrator designed to manage the lifecycle of data pipelines from local prototyping to production. It serves as a distributed compute manager and an experiment tracking system, enabling the creation of reproducible pipelines that transition between development and high-availability production environments. The framework distinguishes itself through an integrated checkpointing system that automatically persists intermediate data artifacts to remote storage, allowing failed runs to be resumed from the last successful step. It
Provides high-throughput S3 data management using parallel operations and recursive prefix loading.
CubeFS es un sistema de almacenamiento en la nube distribuido diseñado para gestionar almacenamiento de archivos y objetos en centros de datos y nubes híbridas. Funciona como un sistema de archivos distribuido multi-inquilino y un almacén de objetos capaz de manejar datos a escala de exabytes, utilizando una arquitectura distribuida para almacenar contenido no estructurado. El sistema se distingue por una capa de interfaz multiprotocolo que permite el acceso simultáneo a datos a través de interfaces S3, POSIX y HDFS. Emplea una arquitectura desacoplada de cómputo-almacenamiento para escalar el procesamiento y la persistencia de forma independiente e implementa políticas de aislamiento de grano fino para separar recursos y datos entre diferentes inquilinos. La fiabilidad se gestiona mediante estrategias de redundancia configurables, incluyendo replicación múltiple y codificación de borrado (erasure coding). La plataforma incluye un sistema de caché multinivel para acelerar el acceso a los datos y se integra con Kubernetes a través de un controlador de Container Storage Interface (CSI) para automatizar el aprovisionamiento de volúmenes persistentes.
Optimizes I/O performance for various file sizes through sequential and random write optimizations.
Mountpoint for Amazon S3 is a FUSE-based filesystem client that mounts S3 buckets as local directories, enabling standard file operations on objects without custom code. It enforces S3 bucket permissions through AWS Identity and Access Management policies on every operation, and implements lazy object materialization to fetch content on-demand rather than downloading entire objects at mount time. The filesystem maps S3's flat key namespace into a hierarchical directory structure using forward slashes as path separators, and supports write-back object assembly that accumulates local writes into
Provides tunable network throughput, concurrency, and part-size parameters for high-volume S3 data transfers.
Dragonboat es una implementación en Go del protocolo de consenso Raft diseñada para mantener un estado consistente a través de un clúster distribuido de nodos. Proporciona una biblioteca para construir máquinas de estado distribuidas que aseguran la integridad de los datos y la tolerancia a fallos durante las caídas del sistema. El proyecto se distingue por una implementación Raft de múltiples grupos, que particiona los datos a través de grupos de consenso independientes para distribuir cargas de trabajo y aumentar la capacidad de procesamiento general del sistema. También incorpora TLS mutuo para cifrar la comunicación entre nodos y verificar la identidad de los miembros del clúster. El sistema incluye capacidades para máquinas de estado de alto rendimiento con soporte para persistencia tanto en memoria como en disco. Cuenta con optimizaciones de ruta de lectura para asegurar la consistencia sin generar nuevas entradas de registro, una interfaz de almacenamiento conectable para backends de registro personalizados y herramientas administrativas para la recuperación de quórum para restaurar la disponibilidad después de una pérdida permanente de la mayoría de los nodos. La estabilidad operativa se apoya mediante la exportación de métricas de salud del clúster.
Implements read-path optimizations that verify the latest committed index to ensure consistency without generating new log entries.
OpenTSDB es una base de datos de series temporales distribuida y un motor de métricas diseñado para almacenar y gestionar volúmenes masivos de métricas de sistema de alta cardinalidad. Funciona como un almacén de datos y plataforma de análisis que permite la ingesta de métricas a gran escala y el monitoreo del rendimiento de la infraestructura a través de un clúster distribuido. El sistema se distingue por una abstracción de almacenamiento distribuido que admite múltiples backends como HBase, Cassandra y Google Bigtable. Utiliza un árbol de métricas jerárquico para organizar series temporales y emplea indexación de identificadores numéricos para reducir la huella de almacenamiento y acelerar las búsquedas de métricas etiquetadas. El proyecto cubre áreas de capacidad amplias, incluyendo análisis de datos de series temporales con cálculos de percentiles distribuidos y submuestreo, así como una gestión integral de metadatos. Proporciona integración de API para la ingesta y consulta de datos, caché fuera de memoria (off-heap) para optimización del rendimiento y herramientas para la auditoría de integridad de datos y análisis de anomalías. El sistema se gestiona a través de una interfaz de línea de comandos para la administración de bases de datos y la sincronización del árbol de métricas.
Scales write throughput by distributing incoming data points across a cluster of nodes to handle millions of points per second.
Velox es un motor de ejecución de consultas en C++ de alto rendimiento y biblioteca de procesamiento de datos columnares. Sirve como un framework componible para implementar motores de consulta analíticos, proporcionando un evaluador de expresiones vectorizadas y un toolkit para sistemas de gestión de datos. El proyecto se distingue por su uso de ejecución columnar vectorizada y asignación de memoria basada en arena para procesar conjuntos de datos a gran escala. Cuenta con optimizaciones especializadas como caché de tablas de broadcast join, push-down de filtros dinámicos y codificación de diccionario para reducir la sobrecarga de memoria y acelerar las lecturas analíticas. El motor cubre una amplia gama de capacidades analíticas, incluyendo la implementación de hash, merge y semi joins, así como agregación paralela multietapa y cálculo de funciones de ventana. Proporciona primitivas para almacenamiento columnar en memoria, decodificación de datos Parquet e integración con almacenamiento en la nube. La extensibilidad se proporciona a través de un sistema de registro de funciones para funciones escalares y agregadas personalizadas, con bindings de alto nivel disponibles para conectar la lógica de C++ a Python.
Optimizes filtered reads from Parquet columns using stack buffers to reduce per-row overhead.
Orioledb es un motor de almacenamiento nativo de la nube para PostgreSQL diseñado para reemplazar la capa de almacenamiento por defecto para mejorar la escalabilidad vertical y el rendimiento en hardware moderno. Funciona como un almacén de tablas organizado por índices, organizando las filas de la tabla directamente dentro del índice primario para acelerar la recuperación de datos. El motor utiliza un sistema de almacenamiento de log de deshacer (undo log) para gestionar el versionado de datos, lo que elimina la necesidad de vacuuming manual y evita el crecimiento excesivo de las tablas (table bloat). Reduce aún más la huella en disco a través de la compresión de datos a nivel de bloque y de página. El proyecto proporciona capacidades para la gestión avanzada de índices y el mantenimiento automatizado de bases de datos. Incluye características para la recuperación de alta disponibilidad a través de logging a nivel de fila, así como herramientas para analizar la utilización del espacio y verificar la integridad de las tablas.
Improves read throughput on high-core servers by removing buffer mapping and atomic operations during in-memory reads.
SlateDB is a cloud-native key-value store and distributed database engine that utilizes a log-structured merge-tree architecture. It serves as a transactional storage layer designed to persist data directly to cloud object storage. The engine differentiates itself by optimizing read performance for remote storage through the use of bloom filters and multi-level block caching. It employs a single-writer multi-reader model and provides the ability to create zero-copy clones via copy-on-write checkpointing. The system supports atomic transactions, range queries, and snapshot-based concurrency c
Implements multi-level block caching and bloom filters to reduce latency when retrieving data from cloud object storage.
This project is a reference library of architectural blueprints, study materials, and design patterns for building scalable, high-availability distributed systems. It serves as a technical guide for scalability engineering, providing structural solutions for common engineering challenges. The repository focuses on distributed systems design, covering essential patterns for data replication, consensus algorithms, and transaction management. It distinguishes itself by offering detailed blueprints for specialized domains, including real-time data streaming, large-scale data storage, and high-ava
Uses Bloom filters to optimize read paths by verifying key existence before performing disk lookups.