13 مستودعات
Systems for partitioning, transforming, and processing large-scale datasets across distributed computing clusters.
Distinguishing note: Specifically targets lazy, partitioned data processing rather than general database management or storage.
Explore 13 awesome GitHub repositories matching data & databases · Distributed Data Processing Frameworks. Refine with filters or upvote what's useful.
هذا المشروع عبارة عن دليل يديره المجتمع ويعمل كفهرس شامل لأدوات البرمجيات، وأطر العمل، والمواد التعليمية. يعمل كقاعدة معرفية مفتوحة المصدر، حيث ينظم مجالات هندسية وموارد تقنية متنوعة في تصنيف هيكلي لمساعدة المطورين في اكتشاف محتوى عالي الجودة. يتميز الدليل بنموذج مراجعة الأقران اللامركزي، حيث يقوم مساهمون مستقلون بتنظيم وتدقيق وتحديث الإدخالات لضمان الدقة والملاءمة. يتم تخزين جميع المعلومات بتنسيق markdown في ملفات مسطحة (flat-file) خاضعة للتحكم في الإصدار، مما يضمن استقلالية المنصة والشفافية وقابلية التدقيق للمجموعة بأكملها. يغطي المشروع نطاقاً واسعاً من القدرات، بدءاً من اكتشاف الموارد التقنية، والتطوير المهني الوظيفي، وإدارة معرفة تطوير البرمجيات. ويوفر الوصول إلى مسارات تعليمية منظمة، وأدوات البنية التحتية والأمن، ومرافق إدارة البيانات، وموارد متخصصة لمجالات تتراوح من الرعاية الصحية إلى العلوم الإنسانية الرقمية. يتم الحفاظ على المستودع كمجموعة عامة خاضعة للتحكم في الإصدار، مما يسمح بالوصول البرمجي والتحديثات التي يقودها المجتمع لبياناته المهيكلة.
Provides frameworks for partitioning and processing large-scale datasets across distributed clusters.
Apache Spark is a unified distributed data processing engine designed for large-scale data analysis and computation graphs. It functions as a distributed machine learning framework, a graph processing system, a real-time stream processor, and a SQL analytics engine. The system enables the execution of distributed SQL querying, large-scale graph analysis, and real-time stream analytics across clusters of machines. It also provides a scalable environment for implementing machine learning algorithms and predictive model development on massive datasets. The engine incorporates relational query e
Functions as a unified engine for partitioning, transforming, and processing massive datasets across distributed clusters.
Ray is a distributed computing framework designed to scale Python and Java applications across clusters by abstracting task scheduling and resource management. It functions as a resource-aware execution engine that manages task dependencies, placement, and fault tolerance across networked compute nodes. At its core, the system provides a stateful actor model, allowing developers to define classes that run in dedicated processes to maintain and mutate internal state across remote method calls. The framework distinguishes itself through a robust cross-language interoperability layer, enabling f
A framework that represents data as partitioned blocks to support incremental transformations and parallel execution across large clusters.
Hadoop is a big data infrastructure suite and distributed data processing framework designed to store and process massive datasets across clusters of computers. It consists of a distributed storage system for managing large files across multiple nodes and a parallel computing engine for processing data across a distributed cluster. The framework implements a distributed file system to ensure fault tolerance and high throughput, paired with a programming model that processes large datasets in parallel. It manages the underlying hardware and software environment required for distributed big dat
Provides a framework for partitioning, transforming, and processing large-scale datasets across distributed clusters.
Dask هو إطار عمل للحوسبة المتوازية وجدول مهام موزع مصمم لتوسيع نطاق سير عمل علوم البيانات في Python من أجهزة فردية إلى مجموعات (clusters) كبيرة. يعمل كمدير موارد للمجموعة يقوم بتنسيق المنطق الحسابي من خلال تمثيل المهام وتبعياتها كرسوم بيانية موجهة غير دورية. تسمح هذه البنية للنظام بأتمتة توزيع أعباء العمل عبر الأجهزة المتاحة مع إدارة متطلبات التنفيذ المعقدة. يتميز المشروع بمحرك تقييم كسول يؤجل عمليات البيانات حتى يتم طلبها صراحة، مما يتيح تحسين الرسم البياني العالمي وتخصيص الموارد بكفاءة. يتضمن خاصية تسريب البيانات الواعية بالذاكرة لمنع تعطل النظام عند معالجة مجموعات البيانات التي تتجاوز الذاكرة المتاحة، ويستخدم دمج الرسم البياني للمهام لدمج تسلسلات العمليات في خطوات تنفيذ واحدة، مما يقلل من عبء الجدولة والاتصال بين العقد. توفر المنصة سطح قدرات شاملاً لتحليلات البيانات واسعة النطاق، بما في ذلك دعم التعلم الآلي الموزع، وتكامل الحوسبة عالية الأداء، ومعالجة البيانات المتوازية. توفر أدوات واسعة النطاق لإدارة دورة حياة المجموعة، وتوصيف الأداء، والمراقبة في الوقت الفعلي لتنفيذ المهام. يمكن للمستخدمين نشر هذه البيئات عبر بنية تحتية متنوعة، بما في ذلك الأجهزة المحلية، ومزودي السحابة، والأنظمة الحاوية، ومجموعات الحوسبة عالية الأداء.
Creates parallel collections from sequences, files, or URLs to enable distributed processing of unstructured data.
Modin is a distributed dataframe library and parallel data processing engine designed to handle large datasets that exceed system memory. It functions as a distributed computing framework that parallelizes data manipulation tasks across multiple CPU cores or clusters to increase throughput and avoid memory errors. The project mirrors the Pandas API, allowing for the distribution of data workflows without changing core code logic. It utilizes a pluggable backend interface, which enables users to switch between different distributed execution engines to optimize performance based on available h
Partitions, transforms, and processes large-scale Pandas dataframes across distributed computing clusters.
Apache Beam is a distributed data pipeline framework and unified data processing model designed to handle both bounded batch data and unbounded real-time streams. It provides a system for building scalable, data-parallel workflows that operate across compute clusters using a single programming model. The framework utilizes a cross-runner pipeline abstraction that decouples the data processing logic from the underlying execution backend, allowing the same pipeline to run on different distributed compute engines. It supports multi-language pipeline development by translating high-level code fro
Provides a system for partitioning, transforming, and processing large-scale datasets across distributed computing clusters.
Featuretools is a Python data science library and automated feature engineering framework designed to create predictive features from multiple related datasets. It automates the data preparation and transformation steps required for machine learning models through deep feature synthesis. The library enables the automatic generation of comprehensive feature tables by applying recursive transformations to relational data. It supports the transformation of unstructured text into structured numeric features and allows users to define custom primitives to extend the synthesis process with specific
Integrates with distributed computing frameworks to maintain performance when processing large volumes of data.
Hazelcast is a distributed data platform that combines an in-memory data grid with a stream processing engine to support real-time analytics and event-driven applications. It functions as a partitioned, distributed key-value store that replicates data across cluster nodes to provide low-latency access and high availability. The platform also serves as a distributed SQL query engine, allowing users to execute standard SQL statements against both in-memory datasets and external data sources. What distinguishes Hazelcast is its use of a distributed consensus subsystem to maintain strongly consis
Redistributes data across cluster members to prevent processing bottlenecks.
SparkInternals is a technical reference and architecture guide detailing the internal design and implementation of the Apache Spark distributed computing engine. It serves as a study of big data engine analysis, focusing on how the system manages cluster execution and the interaction between driver nodes, executors, and workers. The project provides a detailed breakdown of how logical plans are converted into physical execution stages. It specifically analyzes the mechanics of data shuffle operations, memory management, and the coordination of distributed job scheduling. The documentation co
Analyzes the systems used for partitioning, transforming, and processing large-scale datasets across clusters.
Chunjun هو إطار عمل لتكامل البيانات الموزعة وخط أنابيب ETL قائم على SQL مصمم لمزامنة البيانات بين مصادر غير متجانسة. يعمل كأداة لالتقاط بيانات التغيير (CDC) ومزامن بيانات غير متجانس، ويستخدم بيئة معالجة موزعة لنقل وتحويل البيانات عبر أنواع قواعد بيانات مختلفة. يتميز النظام ببنية موصل قائمة على الإضافات، والتي تسمح بتطوير إضافات مصدر ووجهة مخصصة لتوسيع الاتصال بأنظمة البيانات غير المدعومة. ويدعم التقاط بيانات التغيير في الوقت الفعلي من سجلات قواعد البيانات العلائقية وينفذ انتشار تطور المخطط لتطبيق التغييرات الهيكلية تلقائياً من جداول المصدر إلى الوجهة. يوفر إطار العمل قدرات لمزامنة البيانات التزايدية وحساب البيانات عبر المصادر باستخدام منطق SQL. تتم إدارة الموثوقية من خلال استرداد المهام القائم على نقاط الفحص لاستئناف عمليات النقل المقاطعة وطوابير الرسائل الميتة لإدارة البيانات المتسخة لتدقيق السجلات المشوهة. يمكن نشر مهام التكامل عبر مجموعات مستقلة، أو Yarn، أو بيئات Kubernetes، مع دعم للنشر الحاوي عبر Docker.
Provides a distributed framework for synchronizing and transforming data between heterogeneous sources using a plugin-based architecture.
This project is a learning curriculum and programming guide for Apache Spark, providing a structured set of educational resources and practical code examples for mastering distributed data processing. It serves as a course for building scalable data workflows and big data engineering pipelines. The repository provides practical source code and project layouts that demonstrate how to connect external data stores, process streaming data, and organize code for distributed environments. It includes implementation examples for scaling machine learning algorithms across clusters to handle large tra
Implements systems for partitioning, transforming, and processing large-scale datasets across compute clusters.
This project is a collection of structured study notes and conceptual breakdowns designed for the AWS Certified Cloud Practitioner exam. It serves as a technical reference and study guide, organizing cloud service details and architectural principles to assist in certification preparation. The knowledge base is built using markdown files and includes curated cheat sheets and interactive mind-map visualizations. These tools map complex certification topics into visual hierarchies to enable drill-down study paths and rapid revision. The materials cover a wide range of cloud capabilities, inclu
Explains the use of distributed frameworks for data transformation and machine learning across compute clusters.