3 مستودعات
Creation of large-scale arrays from lazy function calls or memory-mapped files.
Distinct from Distributed Array Processing: Distinct from general distributed array processing: focuses on the construction phase from lazy sources.
Explore 3 awesome GitHub repositories matching data & databases · Lazy Array Constructors. Refine with filters or upvote what's useful.
Dask هو إطار عمل للحوسبة المتوازية وجدول مهام موزع مصمم لتوسيع نطاق سير عمل علوم البيانات في Python من أجهزة فردية إلى مجموعات (clusters) كبيرة. يعمل كمدير موارد للمجموعة يقوم بتنسيق المنطق الحسابي من خلال تمثيل المهام وتبعياتها كرسوم بيانية موجهة غير دورية. تسمح هذه البنية للنظام بأتمتة توزيع أعباء العمل عبر الأجهزة المتاحة مع إدارة متطلبات التنفيذ المعقدة. يتميز المشروع بمحرك تقييم كسول يؤجل عمليات البيانات حتى يتم طلبها صراحة، مما يتيح تحسين الرسم البياني العالمي وتخصيص الموارد بكفاءة. يتضمن خاصية تسريب البيانات الواعية بالذاكرة لمنع تعطل النظام عند معالجة مجموعات البيانات التي تتجاوز الذاكرة المتاحة، ويستخدم دمج الرسم البياني للمهام لدمج تسلسلات العمليات في خطوات تنفيذ واحدة، مما يقلل من عبء الجدولة والاتصال بين العقد. توفر المنصة سطح قدرات شاملاً لتحليلات البيانات واسعة النطاق، بما في ذلك دعم التعلم الآلي الموزع، وتكامل الحوسبة عالية الأداء، ومعالجة البيانات المتوازية. توفر أدوات واسعة النطاق لإدارة دورة حياة المجموعة، وتوصيف الأداء، والمراقبة في الوقت الفعلي لتنفيذ المهام. يمكن للمستخدمين نشر هذه البيئات عبر بنية تحتية متنوعة، بما في ذلك الأجهزة المحلية، ومزودي السحابة، والأنظمة الحاوية، ومجموعات الحوسبة عالية الأداء.
Constructs large-scale arrays from lazy function calls to enable distributed processing.
Xarray هي مكتبة مصفوفة متعددة الأبعاد لـ Python وإطار عمل لمجموعة بيانات مصنفة. توسع هيكل بيانات NumPy عن طريق إضافة تسميات إلى المصفوفات، مما يسمح بتنظيم البيانات المعقدة متعددة الأبعاد باستخدام أبعاد وإحداثيات مسماة. توفر المكتبة واجهة بيانات NetCDF لقراءة وكتابة صيغ البيانات العلمية مثل NetCDF وZarr. تمكّن الحوسبة المصفوفة العلمية من خلال الحفاظ على العلاقة بين البيانات والإحداثيات الفيزيائية أثناء العمليات الرياضية. يغطي المشروع تحليل البيانات متعددة الأبعاد، ومعالجة البيانات الجغرافية المكانية، ومعالجة بيانات المناخ. كما يدعم تحليل السلاسل الزمنية لإدارة تسلسلات الملاحظات بمرور الوقت.
Wraps Dask arrays to defer computation until a result is explicitly requested.
Stumpy هي مكتبة Python لتحليل السلاسل الزمنية القابلة للتوسع تركز على تنفيذ خوارزميات ملف تعريف المصفوفة (matrix profile). توفر إطار عمل لحساب ملفات تعريف المسافة لتحديد الأنماط المتكررة والشذوذ داخل بيانات السلاسل الزمنية. يتميز المشروع بقدرته على توسيع نطاق الحسابات الثقيلة عبر أجهزة GPU والمجموعات الموزعة باستخدام Dask. ويدعم التحليل متعدد الأبعاد لاكتشاف الزخارف عبر تدفقات البيانات المتزامنة ويوفر حساباً تزايدياً لتحليل التدفق في الوقت الفعلي. تغطي المكتبة مجموعة واسعة من تقنيات تعدين السلاسل الزمنية، بما في ذلك اكتشاف الزخارف، واكتشاف الشذوذ، ومطابقة أنماط التسلسل. كما توفر أدوات للتجزئة الدلالية لاكتشاف تغيرات النظام واستخراج سلاسل مرتبة زمنياً من أنماط التسلسل الفرعي المتشابهة.
Distributes matrix profile computations across a cluster of machines using Dask integration.