3 repository-uri
The process of rewriting small data fragments into larger contiguous files to optimize scan performance.
Distinct from Compact Metadata Storage: No candidates accurately describe the database-level compaction of data fragments and removal of deleted rows.
Explore 3 awesome GitHub repositories matching data & databases · Data File Compaction. Refine with filters or upvote what's useful.
Lance is a versioned columnar data format and storage engine designed as a multimodal AI lakehouse. It serves as a vector database storage engine and a cloud object store dataset manager, organizing images, video, audio, and embeddings into a unified format optimized for machine learning workflows. The project distinguishes itself by combining a columnar layout for structured data with a specialized blob store for large multimodal tensors. It implements a hybrid search engine that integrates vector similarity search, full-text search, and SQL analytics on a single dataset, supported by a stor
Rewrites small data fragments into larger files and removes deleted rows to improve storage layout and scan performance.
RoseDB is an embedded key-value database and log-structured storage engine. It functions as a library-based database that runs within an application process to provide local data persistence without the need for a separate database server. The project implements a Bitcask-style store, utilizing an append-only log format to maximize write throughput and minimize seek time. It ensures data consistency by grouping multiple read and write operations into single atomic units. The storage architecture relies on an in-memory key index for constant-time lookups and uses segment-based file management
Divides the data log into smaller files to simplify compaction and improve disk space recovery.
Indigo este un framework și toolkit bazat pe Go, conceput pentru construirea, găzduirea și scalarea serviciilor în ecosistemul AT Protocol. Acesta oferă infrastructura fundamentală pentru rețelele sociale descentralizate, permițând dezvoltatorilor să implementeze servicii de relay, să gestioneze repository-uri de utilizatori semnate criptografic și să gestioneze rezoluția identității în medii federate. Proiectul se distinge printr-o arhitectură robustă care decuplează găzduirea conținutului de descoperire, permițând moderarea independentă și generarea algoritmică a feed-urilor. Utilizează stocarea adresată prin conținut și structuri de repository bazate pe arbori Merkle pentru a asigura integritatea datelor, în timp ce generarea schemei bazată pe lexicon creează automat structuri type-safe pentru comunicarea între servicii. Prin maparea handle-urilor lizibile pentru oameni la identificatori descentralizați, sistemul menține proprietatea verificabilă a utilizatorului și portabilitatea contului între furnizorii de găzduire independenți. Dincolo de identitatea sa de bază, proiectul acoperă o suprafață cuprinzătoare pentru gestionarea stării distribuite, inclusiv streaming-ul de evenimente în timp real, sincronizarea și moderarea automatizată. Oferă instrumente extinse pentru simularea activității rețelei, telemetrie operațională și indexarea fluxurilor de date globale. Framework-ul este conceput pentru medii de producție, oferind opțiuni de deployment containerizat și endpoint-uri de diagnosticare pentru a monitoriza sănătatea sincronizării și performanța sistemului.
Optimizes storage footprint by merging smaller data slices into larger, efficient files for archived streams.