3 dépôts
Techniques for reducing memory footprint by mapping repeated values to numeric identifiers.
Distinguishing note: Focuses on memory-efficient storage representations rather than general data compression.
Explore 3 awesome GitHub repositories matching data & databases · Data Encoding Optimizations. Refine with filters or upvote what's useful.
Polars is a high-performance columnar data processing library designed for efficient analytical workflows. It functions as a structured data library that organizes information into typed columns, utilizing the Apache Arrow memory format to enable zero-copy data sharing and cache-friendly, vectorized operations. The engine is built to handle large-scale tabular datasets, providing both local and distributed analytical runtimes that scale from single-machine environments to multi-node clusters. The project distinguishes itself through a sophisticated lazy query engine that constructs abstract e
Optimizes memory usage by representing repeated string data as numeric placeholders.
node-qrcode is a JavaScript library and command-line tool for generating scannable QR codes from text or binary data. It functions as both a generator library for Node.js and web browser environments and a standalone command-line interface. The project supports producing QR codes in multiple formats, including raster images and scalable vector graphics. It can also render barcodes as text representations directly within a terminal for rapid visual verification. The generator includes capabilities for configuring error correction levels and optimizing data density through various encoding mod
Reduces QR code size by automatically selecting the most efficient encoding modes for different text segments.
Velox est un moteur d'exécution de requêtes C++ haute performance et une bibliothèque de traitement de données colonnaires. Il sert de framework composable pour implémenter des moteurs de requêtes analytiques, fournissant un évaluateur d'expressions vectorisées et une boîte à outils pour les systèmes de gestion de données. Le projet se distingue par son utilisation de l'exécution colonnaire vectorisée et de l'allocation mémoire basée sur des arènes pour traiter des jeux de données à grande échelle. Il propose des optimisations spécialisées telles que la mise en cache des tables de jointure broadcast, le push-down de filtres dynamiques et l'encodage par dictionnaire pour réduire la surcharge mémoire et accélérer les lectures analytiques. Le moteur couvre un large éventail de capacités analytiques, incluant l'implémentation de jointures hash, merge et semi, ainsi que l'agrégation parallèle multi-étapes et le calcul de fonctions de fenêtre. Il fournit des primitives pour le stockage colonnaire en mémoire, le décodage de données Parquet et l'intégration avec le stockage cloud. L'extensibilité est assurée par un système d'enregistrement de fonctions pour des fonctions scalaires et d'agrégation personnalisées, avec des bindings de haut niveau disponibles pour connecter la logique C++ à Python.
Reduces memory footprint for duplicate values by mapping indices to a base vector without data copying.