Why is prestodb/presto a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Redistributes data across nodes to prevent skew and dynamically scales writer tasks to improve throughput.

Why is scylladb/scylladb a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Routes requests directly to the appropriate data partition using shard-aware connectivity to maximize system throughput.

Why is netflix/metaflow a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Provides high-throughput S3 data management using parallel operations and recursive prefix loading.

Why is cubefs/cubefs a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Optimizes I/O performance for various file sizes through sequential and random write optimizations.

Why is awslabs/mountpoint-s3 a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Provides tunable network throughput, concurrency, and part-size parameters for high-volume S3 data transfers.

Why is lni/dragonboat a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Implements read-path optimizations that verify the latest committed index to ensure consistency without generating new log entries.

Why is opentsdb/opentsdb a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Scales write throughput by distributing incoming data points across a cluster of nodes to handle millions of points per second.

Why is facebookincubator/velox a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Optimizes filtered reads from Parquet columns using stack buffers to reduce per-row overhead.

Why is orioledb/orioledb a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Improves read throughput on high-core servers by removing buffer mapping and atomic operations during in-memory reads.

Why is slatedb/slatedb a recommended Data Write Throughput Optimizers GitHub Repositories repository?

Implements multi-level block caching and bloom filters to reduce latency when retrieving data from cloud object storage.

11 repositorios

Awesome GitHub RepositoriesData Write Throughput Optimizers

Systems that redistribute data and scale writer tasks to improve throughput and resource utilization.

Distinct from Concurrent Write Optimizations: Distinct from general concurrent write optimizations: focuses on scaling writer tasks and preventing data skew.

Explore 11 awesome GitHub repositories matching data & databases · Data Write Throughput Optimizers. Refine with filters or upvote what's useful.

Encuentra los mejores repositorios con IA.Buscaremos los repositorios que mejor coincidan usando IA.

prestodb/presto
prestodb/presto
16,711Ver en GitHub
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Redistributes data across nodes to prevent skew and dynamically scales writer tasks to improve throughput.
Javabig-datadatahadoop
Ver en GitHub16,711
scylladb/scylladb
scylladb/scylladb
15,355Ver en GitHub
ScyllaDB is a distributed NoSQL database engine designed for high-throughput data storage and low-latency performance at scale. It functions as a shard-aware platform that manages large-scale datasets across distributed clusters, providing a foundation for real-time applications that require consistent availability and operational stability. The system distinguishes itself through a shared-nothing architecture that distributes data across independent CPU cores to eliminate lock contention. It incorporates a user-space networking stack and an asynchronous event-driven engine to maximize hardwa
Routes requests directly to the appropriate data partition using shard-aware connectivity to maximize system throughput.
C++c-plus-pluscassandracpp
Ver en GitHub15,355
netflix/metaflow
Netflix/metaflow
9,764Ver en GitHub
Metaflow is a Python machine learning framework and MLOps workflow orchestrator designed to manage the lifecycle of data pipelines from local prototyping to production. It serves as a distributed compute manager and an experiment tracking system, enabling the creation of reproducible pipelines that transition between development and high-availability production environments. The framework distinguishes itself through an integrated checkpointing system that automatically persists intermediate data artifacts to remote storage, allowing failed runs to be resumed from the last successful step. It
Provides high-throughput S3 data management using parallel operations and recursive prefix loading.
Pythonagentsaiaws
Ver en GitHub9,764
cubefs/cubefs
cubefs/cubefs
5,593Ver en GitHub
CubeFS es un sistema de almacenamiento en la nube distribuido diseñado para gestionar almacenamiento de archivos y objetos en centros de datos y nubes híbridas. Funciona como un sistema de archivos distribuido multi-inquilino y un almacén de objetos capaz de manejar datos a escala de exabytes, utilizando una arquitectura distribuida para almacenar contenido no estructurado. El sistema se distingue por una capa de interfaz multiprotocolo que permite el acceso simultáneo a datos a través de interfaces S3, POSIX y HDFS. Emplea una arquitectura desacoplada de cómputo-almacenamiento para escalar el procesamiento y la persistencia de forma independiente e implementa políticas de aislamiento de grano fino para separar recursos y datos entre diferentes inquilinos. La fiabilidad se gestiona mediante estrategias de redundancia configurables, incluyendo replicación múltiple y codificación de borrado (erasure coding). La plataforma incluye un sistema de caché multinivel para acelerar el acceso a los datos y se integra con Kubernetes a través de un controlador de Container Storage Interface (CSI) para automatizar el aprovisionamiento de volúmenes persistentes.
Optimizes I/O performance for various file sizes through sequential and random write optimizations.
Goai-native-storagecloud-native-storagecloud-storage
Ver en GitHub5,593
awslabs/mountpoint-s3
awslabs/mountpoint-s3
5,581Ver en GitHub
Mountpoint for Amazon S3 is a FUSE-based filesystem client that mounts S3 buckets as local directories, enabling standard file operations on objects without custom code. It enforces S3 bucket permissions through AWS Identity and Access Management policies on every operation, and implements lazy object materialization to fetch content on-demand rather than downloading entire objects at mount time. The filesystem maps S3's flat key namespace into a hierarchical directory structure using forward slashes as path separators, and supports write-back object assembly that accumulates local writes into
Provides tunable network throughput, concurrency, and part-size parameters for high-volume S3 data transfers.
Rustawsfilesystemfuse
Ver en GitHub5,581
lni/dragonboat
lni/dragonboat
5,308Ver en GitHub
Dragonboat es una implementación en Go del protocolo de consenso Raft diseñada para mantener un estado consistente a través de un clúster distribuido de nodos. Proporciona una biblioteca para construir máquinas de estado distribuidas que aseguran la integridad de los datos y la tolerancia a fallos durante las caídas del sistema. El proyecto se distingue por una implementación Raft de múltiples grupos, que particiona los datos a través de grupos de consenso independientes para distribuir cargas de trabajo y aumentar la capacidad de procesamiento general del sistema. También incorpora TLS mutuo para cifrar la comunicación entre nodos y verificar la identidad de los miembros del clúster. El sistema incluye capacidades para máquinas de estado de alto rendimiento con soporte para persistencia tanto en memoria como en disco. Cuenta con optimizaciones de ruta de lectura para asegurar la consistencia sin generar nuevas entradas de registro, una interfaz de almacenamiento conectable para backends de registro personalizados y herramientas administrativas para la recuperación de quórum para restaurar la disponibilidad después de una pérdida permanente de la mayoría de los nodos. La estabilidad operativa se apoya mediante la exportación de métricas de salud del clúster.
Implements read-path optimizations that verify the latest committed index to ensure consistency without generating new log entries.
Goconsensusdistributed-consensusdistributed-storage
Ver en GitHub5,308
opentsdb/opentsdb
OpenTSDB/opentsdb
5,068Ver en GitHub
OpenTSDB es una base de datos de series temporales distribuida y un motor de métricas diseñado para almacenar y gestionar volúmenes masivos de métricas de sistema de alta cardinalidad. Funciona como un almacén de datos y plataforma de análisis que permite la ingesta de métricas a gran escala y el monitoreo del rendimiento de la infraestructura a través de un clúster distribuido. El sistema se distingue por una abstracción de almacenamiento distribuido que admite múltiples backends como HBase, Cassandra y Google Bigtable. Utiliza un árbol de métricas jerárquico para organizar series temporales y emplea indexación de identificadores numéricos para reducir la huella de almacenamiento y acelerar las búsquedas de métricas etiquetadas. El proyecto cubre áreas de capacidad amplias, incluyendo análisis de datos de series temporales con cálculos de percentiles distribuidos y submuestreo, así como una gestión integral de metadatos. Proporciona integración de API para la ingesta y consulta de datos, caché fuera de memoria (off-heap) para optimización del rendimiento y herramientas para la auditoría de integridad de datos y análisis de anomalías. El sistema se gestiona a través de una interfaz de línea de comandos para la administración de bases de datos y la sincronización del árbol de métricas.
Scales write throughput by distributing incoming data points across a cluster of nodes to handle millions of points per second.
Java
Ver en GitHub5,068
facebookincubator/velox
facebookincubator/velox
4,155Ver en GitHub
Velox es un motor de ejecución de consultas en C++ de alto rendimiento y biblioteca de procesamiento de datos columnares. Sirve como un framework componible para implementar motores de consulta analíticos, proporcionando un evaluador de expresiones vectorizadas y un toolkit para sistemas de gestión de datos. El proyecto se distingue por su uso de ejecución columnar vectorizada y asignación de memoria basada en arena para procesar conjuntos de datos a gran escala. Cuenta con optimizaciones especializadas como caché de tablas de broadcast join, push-down de filtros dinámicos y codificación de diccionario para reducir la sobrecarga de memoria y acelerar las lecturas analíticas. El motor cubre una amplia gama de capacidades analíticas, incluyendo la implementación de hash, merge y semi joins, así como agregación paralela multietapa y cálculo de funciones de ventana. Proporciona primitivas para almacenamiento columnar en memoria, decodificación de datos Parquet e integración con almacenamiento en la nube. La extensibilidad se proporciona a través de un sistema de registro de funciones para funciones escalares y agregadas personalizadas, con bindings de alto nivel disponibles para conectar la lógica de C++ a Python.
Optimizes filtered reads from Parquet columns using stack buffers to reduce per-row overhead.
C++
Ver en GitHub4,155
orioledb/orioledb
orioledb/orioledb
4,089Ver en GitHub
Orioledb es un motor de almacenamiento nativo de la nube para PostgreSQL diseñado para reemplazar la capa de almacenamiento por defecto para mejorar la escalabilidad vertical y el rendimiento en hardware moderno. Funciona como un almacén de tablas organizado por índices, organizando las filas de la tabla directamente dentro del índice primario para acelerar la recuperación de datos. El motor utiliza un sistema de almacenamiento de log de deshacer (undo log) para gestionar el versionado de datos, lo que elimina la necesidad de vacuuming manual y evita el crecimiento excesivo de las tablas (table bloat). Reduce aún más la huella en disco a través de la compresión de datos a nivel de bloque y de página. El proyecto proporciona capacidades para la gestión avanzada de índices y el mantenimiento automatizado de bases de datos. Incluye características para la recuperación de alta disponibilidad a través de logging a nivel de fila, así como herramientas para analizar la utilización del espacio y verificar la integridad de las tablas.
Improves read throughput on high-core servers by removing buffer mapping and atomic operations during in-memory reads.
Cdatabaseorioledbpostgres
Ver en GitHub4,089
slatedb/slatedb
slatedb/slatedb
2,730Ver en GitHub
SlateDB is a cloud-native key-value store and distributed database engine that utilizes a log-structured merge-tree architecture. It serves as a transactional storage layer designed to persist data directly to cloud object storage. The engine differentiates itself by optimizing read performance for remote storage through the use of bloom filters and multi-level block caching. It employs a single-writer multi-reader model and provides the ability to create zero-copy clones via copy-on-write checkpointing. The system supports atomic transactions, range queries, and snapshot-based concurrency c
Implements multi-level block caching and bloom filters to reduce latency when retrieving data from cloud object storage.
Rustdatabaseembedded-databaselsm-tree
Ver en GitHub2,730
admol/systemdesign
Admol/SystemDesign
2,645Ver en GitHub
This project is a reference library of architectural blueprints, study materials, and design patterns for building scalable, high-availability distributed systems. It serves as a technical guide for scalability engineering, providing structural solutions for common engineering challenges. The repository focuses on distributed systems design, covering essential patterns for data replication, consensus algorithms, and transaction management. It distinguishes itself by offering detailed blueprints for specialized domains, including real-time data streaming, large-scale data storage, and high-ava
Uses Bloom filters to optimize read paths by verifying key existence before performing disk lookups.
Ver en GitHub2,645

Awesome Data Write Throughput Optimizers GitHub Repositories

prestodb/presto

scylladb/scylladb

Netflix/metaflow

cubefs/cubefs

awslabs/mountpoint-s3

lni/dragonboat

OpenTSDB/opentsdb

facebookincubator/velox

orioledb/orioledb

slatedb/slatedb

Admol/SystemDesign

Explorar subetiquetas