3 repository-uri
Techniques for reducing memory footprint by mapping repeated values to numeric identifiers.
Distinguishing note: Focuses on memory-efficient storage representations rather than general data compression.
Explore 3 awesome GitHub repositories matching data & databases · Data Encoding Optimizations. Refine with filters or upvote what's useful.
Polars is a high-performance columnar data processing library designed for efficient analytical workflows. It functions as a structured data library that organizes information into typed columns, utilizing the Apache Arrow memory format to enable zero-copy data sharing and cache-friendly, vectorized operations. The engine is built to handle large-scale tabular datasets, providing both local and distributed analytical runtimes that scale from single-machine environments to multi-node clusters. The project distinguishes itself through a sophisticated lazy query engine that constructs abstract e
Optimizes memory usage by representing repeated string data as numeric placeholders.
node-qrcode is a JavaScript library and command-line tool for generating scannable QR codes from text or binary data. It functions as both a generator library for Node.js and web browser environments and a standalone command-line interface. The project supports producing QR codes in multiple formats, including raster images and scalable vector graphics. It can also render barcodes as text representations directly within a terminal for rapid visual verification. The generator includes capabilities for configuring error correction levels and optimizing data density through various encoding mod
Reduces QR code size by automatically selecting the most efficient encoding modes for different text segments.
Velox este un motor de execuție a interogărilor C++ de înaltă performanță și o bibliotecă de procesare a datelor coloanare. Servește drept framework compozabil pentru implementarea motoarelor de interogare analitică, oferind un evaluator de expresii vectorizat și un toolkit pentru sistemele de gestionare a datelor. Proiectul se distinge prin utilizarea execuției coloanare vectorizate și a alocării memoriei bazate pe arene pentru a procesa seturi de date la scară largă. Dispune de optimizări specializate, cum ar fi caching-ul tabelelor de broadcast join, push-down dinamic al filtrelor și codificare prin dicționar pentru a reduce overhead-ul de memorie și a accelera citirile analitice. Motorul acoperă o gamă largă de capabilități analitice, inclusiv implementarea de hash, merge și semi joins, precum și agregarea paralelă în mai multe etape și calculul funcțiilor de fereastră. Oferă primitive pentru stocarea coloanară în memorie, decodarea datelor Parquet și integrarea cu stocarea în cloud. Extensibilitatea este oferită printr-un sistem de înregistrare a funcțiilor pentru funcții scalare și agregate personalizate, cu binding-uri de nivel înalt disponibile pentru a conecta logica C++ la Python.
Reduces memory footprint for duplicate values by mapping indices to a base vector without data copying.