2 مستودعات
Physical query operators that combine two relations by building a hash table on one and probing it with the other.
Distinct from Custom Hashing Implementations: The candidates focus on the internal hashing functions and data structures (Custom Hashing, Linear Hashing) rather than the relational join operator logic.
Explore 2 awesome GitHub repositories matching data & databases · Hash Join Implementations. Refine with filters or upvote what's useful.
MiniOB is an open-source educational relational database kernel designed for learning the internals of database systems. It implements a dual-engine storage architecture combining B+ Tree and LSM-Tree, supports SQL parsing and query execution, and provides transactional processing with multi-version concurrency control. The system communicates with clients using the MySQL wire protocol and includes a vector database extension for storing and querying high-dimensional vectors. The project distinguishes itself through its comprehensive coverage of core database concepts in a single, learnable c
Combine rows from two tables by building a hash table on one table and probing it with rows from the other.
Velox هو محرك تنفيذ استعلامات عالي الأداء ومكتبة لمعالجة البيانات العمودية بلغة C++. يعمل كإطار عمل قابل للتركيب لتنفيذ محركات الاستعلام التحليلية، ويوفر مقيماً للتعبيرات المتجهة (vectorized) ومجموعة أدوات لأنظمة إدارة البيانات. يتميز المشروع باستخدامه للتنفيذ العمودي المتجه وتخصيص الذاكرة القائم على الساحة (arena-based) لمعالجة مجموعات البيانات واسعة النطاق. يتميز بتحسينات متخصصة مثل التخزين المؤقت لجدول الربط الإذاعي (broadcast join)، ودفع الفلتر الديناميكي للأسفل، وترميز القاموس لتقليل حمل الذاكرة وتسريع القراءات التحليلية. يغطي المحرك مجموعة واسعة من القدرات التحليلية، بما في ذلك تنفيذ عمليات الربط (hash, merge, semi joins)، بالإضافة إلى التجميع المتوازي متعدد المراحل وحساب دوال النافذة. يوفر بدائيات للتخزين العمودي في الذاكرة، وفك تشفير بيانات Parquet، والتكامل مع التخزين السحابي. يتم توفير القابلية للتوسع من خلال نظام تسجيل الدوال للدوال العددية والتجميعية المخصصة، مع توفر روابط عالية المستوى لربط منطق C++ بلغة Python.
Combines datasets based on matching keys using partitioned or broadcast distribution strategies.