3 مستودعات
Techniques for reducing memory footprint by mapping repeated values to numeric identifiers.
Distinguishing note: Focuses on memory-efficient storage representations rather than general data compression.
Explore 3 awesome GitHub repositories matching data & databases · Data Encoding Optimizations. Refine with filters or upvote what's useful.
Polars is a high-performance columnar data processing library designed for efficient analytical workflows. It functions as a structured data library that organizes information into typed columns, utilizing the Apache Arrow memory format to enable zero-copy data sharing and cache-friendly, vectorized operations. The engine is built to handle large-scale tabular datasets, providing both local and distributed analytical runtimes that scale from single-machine environments to multi-node clusters. The project distinguishes itself through a sophisticated lazy query engine that constructs abstract e
Optimizes memory usage by representing repeated string data as numeric placeholders.
node-qrcode is a JavaScript library and command-line tool for generating scannable QR codes from text or binary data. It functions as both a generator library for Node.js and web browser environments and a standalone command-line interface. The project supports producing QR codes in multiple formats, including raster images and scalable vector graphics. It can also render barcodes as text representations directly within a terminal for rapid visual verification. The generator includes capabilities for configuring error correction levels and optimizing data density through various encoding mod
Reduces QR code size by automatically selecting the most efficient encoding modes for different text segments.
Velox هو محرك تنفيذ استعلامات عالي الأداء ومكتبة لمعالجة البيانات العمودية بلغة C++. يعمل كإطار عمل قابل للتركيب لتنفيذ محركات الاستعلام التحليلية، ويوفر مقيماً للتعبيرات المتجهة (vectorized) ومجموعة أدوات لأنظمة إدارة البيانات. يتميز المشروع باستخدامه للتنفيذ العمودي المتجه وتخصيص الذاكرة القائم على الساحة (arena-based) لمعالجة مجموعات البيانات واسعة النطاق. يتميز بتحسينات متخصصة مثل التخزين المؤقت لجدول الربط الإذاعي (broadcast join)، ودفع الفلتر الديناميكي للأسفل، وترميز القاموس لتقليل حمل الذاكرة وتسريع القراءات التحليلية. يغطي المحرك مجموعة واسعة من القدرات التحليلية، بما في ذلك تنفيذ عمليات الربط (hash, merge, semi joins)، بالإضافة إلى التجميع المتوازي متعدد المراحل وحساب دوال النافذة. يوفر بدائيات للتخزين العمودي في الذاكرة، وفك تشفير بيانات Parquet، والتكامل مع التخزين السحابي. يتم توفير القابلية للتوسع من خلال نظام تسجيل الدوال للدوال العددية والتجميعية المخصصة، مع توفر روابط عالية المستوى لربط منطق C++ بلغة Python.
Reduces memory footprint for duplicate values by mapping indices to a base vector without data copying.