3 Repos
Techniques for reducing memory footprint by mapping repeated values to numeric identifiers.
Distinguishing note: Focuses on memory-efficient storage representations rather than general data compression.
Explore 3 awesome GitHub repositories matching data & databases · Data Encoding Optimizations. Refine with filters or upvote what's useful.
Polars is a high-performance columnar data processing library designed for efficient analytical workflows. It functions as a structured data library that organizes information into typed columns, utilizing the Apache Arrow memory format to enable zero-copy data sharing and cache-friendly, vectorized operations. The engine is built to handle large-scale tabular datasets, providing both local and distributed analytical runtimes that scale from single-machine environments to multi-node clusters. The project distinguishes itself through a sophisticated lazy query engine that constructs abstract e
Optimizes memory usage by representing repeated string data as numeric placeholders.
node-qrcode is a JavaScript library and command-line tool for generating scannable QR codes from text or binary data. It functions as both a generator library for Node.js and web browser environments and a standalone command-line interface. The project supports producing QR codes in multiple formats, including raster images and scalable vector graphics. It can also render barcodes as text representations directly within a terminal for rapid visual verification. The generator includes capabilities for configuring error correction levels and optimizing data density through various encoding mod
Reduces QR code size by automatically selecting the most efficient encoding modes for different text segments.
Velox ist eine leistungsstarke C++-Abfrage-Ausführungs-Engine und eine Bibliothek für spaltenbasierte Datenverarbeitung. Sie dient als kompositionsfähiges Framework zur Implementierung analytischer Query-Engines und bietet einen vektorisierten Ausdrucksauswerter sowie ein Toolkit für Datenmanagementsysteme. Das Projekt zeichnet sich durch die Verwendung vektorisierter spaltenbasierter Ausführung und arena-basierter Speicherallokation zur Verarbeitung großer Datensätze aus. Es bietet spezialisierte Optimierungen wie Broadcast-Join-Table-Caching, Dynamic-Filter-Push-Down und Dictionary-Encoding, um den Speicher-Overhead zu reduzieren und analytische Lesezugriffe zu beschleunigen. Die Engine deckt ein breites Spektrum analytischer Funktionen ab, einschließlich der Implementierung von Hash-, Merge- und Semi-Joins sowie mehrstufiger paralleler Aggregation und der Berechnung von Fensterfunktionen. Sie bietet Primitive für spaltenbasierte In-Memory-Speicherung, Parquet-Datendekodierung und die Integration mit Cloud-Speichern. Erweiterbarkeit wird durch ein Funktionsregistrierungssystem für benutzerdefinierte Skalar- und Aggregatfunktionen geboten, wobei High-Level-Bindings verfügbar sind, um die C++-Logik mit Python zu verbinden.
Reduces memory footprint for duplicate values by mapping indices to a base vector without data copying.