Why is eto-ai/lance a recommended Data File Compaction GitHub Repositories repository?

Rewrites small data fragments into larger files and removes deleted rows to improve storage layout and scan performance.

Why is roseduan/rosedb a recommended Data File Compaction GitHub Repositories repository?

Divides the data log into smaller files to simplify compaction and improve disk space recovery.

Why is bluesky-social/indigo a recommended Data File Compaction GitHub Repositories repository?

Optimizes storage footprint by merging smaller data slices into larger, efficient files for archived streams.

3 dépôts

Awesome GitHub RepositoriesData File Compaction

The process of rewriting small data fragments into larger contiguous files to optimize scan performance.

Distinct from Compact Metadata Storage: No candidates accurately describe the database-level compaction of data fragments and removal of deleted rows.

Explore 3 awesome GitHub repositories matching data & databases · Data File Compaction. Refine with filters or upvote what's useful.

Trouvez les meilleurs dépôts grâce à l'IA.Nous recherchons les dépôts les plus pertinents grâce à l'IA.

eto-ai/lance
eto-ai/lance
6,671Voir sur GitHub
Lance is a versioned columnar data format and storage engine designed as a multimodal AI lakehouse. It serves as a vector database storage engine and a cloud object store dataset manager, organizing images, video, audio, and embeddings into a unified format optimized for machine learning workflows. The project distinguishes itself by combining a columnar layout for structured data with a specialized blob store for large multimodal tensors. It implements a hybrid search engine that integrates vector similarity search, full-text search, and SQL analytics on a single dataset, supported by a stor
Rewrites small data fragments into larger files and removes deleted rows to improve storage layout and scan performance.
Rust
Voir sur GitHub6,671
roseduan/rosedb
roseduan/rosedb
4,882Voir sur GitHub
RoseDB est une base de données clé-valeur embarquée et un moteur de stockage structuré en logs. Il fonctionne comme une base de données basée sur une bibliothèque qui s'exécute au sein d'un processus applicatif pour fournir une persistance de données locale sans avoir besoin d'un serveur de base de données séparé. Le projet implémente un magasin de style Bitcask, utilisant un format de log append-only pour maximiser le débit d'écriture et minimiser le temps de recherche. Il garantit la cohérence des données en regroupant plusieurs opérations de lecture et d'écriture en unités atomiques uniques. L'architecture de stockage repose sur un index de clés en mémoire pour des recherches à temps constant et utilise une gestion de fichiers basée sur des segments pour gérer le compactage des données et la récupération d'espace disque.
Divides the data log into smaller files to simplify compaction and improve disk space recovery.
Go
Voir sur GitHub4,882
bluesky-social/indigo
bluesky-social/indigo
1,357Voir sur GitHub
Indigo est un framework et une boîte à outils basés sur Go conçus pour construire, héberger et mettre à l'échelle des services au sein de l'écosystème AT Protocol. Il fournit l'infrastructure fondamentale pour le réseautage social décentralisé, permettant aux développeurs d'implémenter des services de relais, de gérer des dépôts utilisateur signés cryptographiquement et de gérer la résolution d'identité dans des environnements fédérés. Le projet se distingue par une architecture robuste qui découple l'hébergement de contenu de la découverte, permettant une modération indépendante et une génération de flux algorithmique. Il utilise un stockage adressé par le contenu et des structures de dépôt basées sur des arbres de Merkle pour garantir l'intégrité des données, tandis que sa génération de schéma pilotée par lexique crée automatiquement des structures typées pour la communication inter-services. En mappant les identifiants lisibles par l'homme à des identifiants décentralisés, le système maintient une propriété utilisateur vérifiable et une portabilité de compte entre des fournisseurs d'hébergement indépendants. Au-delà de son identité de base, le projet couvre une surface complète pour gérer l'état distribué, incluant le streaming d'événements en temps réel, la synchronisation et la modération automatisée. Il fournit des outils étendus pour la simulation d'activité réseau, la télémétrie opérationnelle et l'indexation des flux de données globaux. Le framework est conçu pour les environnements de production, offrant des options de déploiement conteneurisées et des points de terminaison de diagnostic pour surveiller la santé de la synchronisation et les performances du système.
Optimizes storage footprint by merging smaller data slices into larger, efficient files for archived streams.
Goatprotoblueskydweb
Voir sur GitHub1,357

Awesome Data File Compaction GitHub Repositories

eto-ai/lance

roseduan/rosedb

bluesky-social/indigo

Explorer les sous-tags