1 مستودع
إجراء إحصائيات ملخصة عبر مجموعات بيانات ضخمة باستخدام تنفيذ المعالج المتوازي لسرعة عالية.
ملاحظة تمييزية: تركز البدائل المختصرة على تجميع التتبع أو التجميع السحابي؛ بينما يتعلق هذا بالحساب المتوازي الموفر للذاكرة للإحصائيات الجدولية.
Explore 1 awesome GitHub repository matching data & databases · تجميعات البيانات متعددة الخيوط. Refine with filters or upvote what's useful.
هذا المشروع هو إطار عمل لمعالجة البيانات الجدولية عالي الأداء لـ R، مصمم للتعامل مع مجموعات البيانات الضخمة بكفاءة في الذاكرة وسرعة. يوفر هيكل بيانات محسناً يستخدم دلالات المرجع والتعديل في المكان لإجراء تحويلات معقدة دون عبء نسخ الكائنات غير الضروري. تتميز المكتبة بتحسيناتها المعمارية منخفضة المستوى، بما في ذلك المعالجة المتوازية متعددة الخيوط، والفرز القائم على الجذر، وتحليل الملفات المعينة في الذاكرة. من خلال تفريغ إجراءات معالجة البيانات والتجميع الحرجة إلى كود C مجمع، فإنه يتيح التنفيذ السريع للمهام التي قد تكون مكلفة حسابياً. يدعم محركها الأساسي عمليات علائقية متقدمة، مثل الانضمامات غير المتساوية، والمتدحرجة، والمتداخلة، إلى جانب الفهرسة الثانوية التلقائية لتسريع الوصول المتكرر للبيانات. إلى جانب إمكانات المعالجة الأساسية، يقدم المشروع مجموعة شاملة من الأدوات لإدارة دورة حياة البيانات. يتضمن ذلك أدوات استيعاب وتسلسل عالية السرعة مع الكشف التلقائي عن النوع، بالإضافة إلى دعم متخصص لتحليل السلاسل الزمنية والتجميع متعدد الأبعاد. تم بناء إطار العمل ليتوسع، مما يسمح للمستخدمين بإجراء عمليات تجميع وتصفية وإعادة تشكيل معقدة على مجموعات بيانات تحتوي على مليارات الصفوف مع الحفاظ على استقرار النظام وأدائه.
Distributes grouped computation tasks across multiple CPU cores to handle billions of rows efficiently.