Why is eto-ai/lance a recommended Data File Compaction GitHub Repositories repository?

Rewrites small data fragments into larger files and removes deleted rows to improve storage layout and scan performance.

Why is roseduan/rosedb a recommended Data File Compaction GitHub Repositories repository?

Divides the data log into smaller files to simplify compaction and improve disk space recovery.

Why is bluesky-social/indigo a recommended Data File Compaction GitHub Repositories repository?

Optimizes storage footprint by merging smaller data slices into larger, efficient files for archived streams.

3 repository-uri

Awesome GitHub RepositoriesData File Compaction

The process of rewriting small data fragments into larger contiguous files to optimize scan performance.

Distinct from Compact Metadata Storage: No candidates accurately describe the database-level compaction of data fragments and removal of deleted rows.

Explore 3 awesome GitHub repositories matching data & databases · Data File Compaction. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

eto-ai/lance
eto-ai/lance
6,671Vezi pe GitHub
Lance is a versioned columnar data format and storage engine designed as a multimodal AI lakehouse. It serves as a vector database storage engine and a cloud object store dataset manager, organizing images, video, audio, and embeddings into a unified format optimized for machine learning workflows. The project distinguishes itself by combining a columnar layout for structured data with a specialized blob store for large multimodal tensors. It implements a hybrid search engine that integrates vector similarity search, full-text search, and SQL analytics on a single dataset, supported by a stor
Rewrites small data fragments into larger files and removes deleted rows to improve storage layout and scan performance.
Rust
Vezi pe GitHub6,671
roseduan/rosedb
roseduan/rosedb
4,882Vezi pe GitHub
RoseDB is an embedded key-value database and log-structured storage engine. It functions as a library-based database that runs within an application process to provide local data persistence without the need for a separate database server. The project implements a Bitcask-style store, utilizing an append-only log format to maximize write throughput and minimize seek time. It ensures data consistency by grouping multiple read and write operations into single atomic units. The storage architecture relies on an in-memory key index for constant-time lookups and uses segment-based file management
Divides the data log into smaller files to simplify compaction and improve disk space recovery.
Go
Vezi pe GitHub4,882
bluesky-social/indigo
bluesky-social/indigo
1,357Vezi pe GitHub
Indigo este un framework și toolkit bazat pe Go, conceput pentru construirea, găzduirea și scalarea serviciilor în ecosistemul AT Protocol. Acesta oferă infrastructura fundamentală pentru rețelele sociale descentralizate, permițând dezvoltatorilor să implementeze servicii de relay, să gestioneze repository-uri de utilizatori semnate criptografic și să gestioneze rezoluția identității în medii federate. Proiectul se distinge printr-o arhitectură robustă care decuplează găzduirea conținutului de descoperire, permițând moderarea independentă și generarea algoritmică a feed-urilor. Utilizează stocarea adresată prin conținut și structuri de repository bazate pe arbori Merkle pentru a asigura integritatea datelor, în timp ce generarea schemei bazată pe lexicon creează automat structuri type-safe pentru comunicarea între servicii. Prin maparea handle-urilor lizibile pentru oameni la identificatori descentralizați, sistemul menține proprietatea verificabilă a utilizatorului și portabilitatea contului între furnizorii de găzduire independenți. Dincolo de identitatea sa de bază, proiectul acoperă o suprafață cuprinzătoare pentru gestionarea stării distribuite, inclusiv streaming-ul de evenimente în timp real, sincronizarea și moderarea automatizată. Oferă instrumente extinse pentru simularea activității rețelei, telemetrie operațională și indexarea fluxurilor de date globale. Framework-ul este conceput pentru medii de producție, oferind opțiuni de deployment containerizat și endpoint-uri de diagnosticare pentru a monitoriza sănătatea sincronizării și performanța sistemului.
Optimizes storage footprint by merging smaller data slices into larger, efficient files for archived streams.
Goatprotoblueskydweb
Vezi pe GitHub1,357

Awesome Data File Compaction GitHub Repositories

eto-ai/lance

roseduan/rosedb

bluesky-social/indigo

Explorează sub-etichetele