18 مستودعات
Strategies for managing complex parallelism to maximize hardware utilization during deep learning workloads.
Distinct from Distributed Computing: The candidates focus on general distributed computing or task runners, not specifically the coordination of ML parallelism strategies.
Explore 18 awesome GitHub repositories matching artificial intelligence & ml · Distributed GPU Computing. Refine with filters or upvote what's useful.
Megatron-LM is a distributed transformer training library and large language model training framework designed to scale models across thousands of GPUs. It functions as a GPU-optimized deep learning toolkit and a scaling engine for mixture-of-experts architectures, enabling the training of models with hundreds of billions of parameters. The project implements multi-dimensional model parallelism, combining tensor, pipeline, data, expert, and context-based workload distribution. It specifically optimizes mixture-of-experts architectures through integrated memory and communication improvements t
Manages complex tensor, pipeline, and data parallelism strategies to maximize hardware utilization.
Horovod is a distributed deep learning framework designed to scale machine learning training across multiple GPUs and nodes. It functions as an orchestrator for multi-GPU scaling and a tool for distributed gradient averaging, allowing users to increase compute capacity without rewriting core model logic. The project provides a consistent communication interface that supports multi-framework model distribution across TensorFlow, PyTorch, Keras, and MXNet. It leverages an MPI distributed training library to synchronize gradients across processes using collective communication operations. The s
Expands compute capacity by distributing training scripts across multiple GPU hosts.
This project is a quantized fine-tuning framework for large language models. It implements a low-rank adaptation library and a four-bit quantizer to reduce the GPU memory requirements needed to train large models. The framework utilizes four-bit quantization and low-rank adapters to enable model training on consumer-grade hardware. It further reduces the memory footprint through double quantization and a paged optimizer that offloads states to system RAM. The system supports distributed training across multiple GPUs to handle larger parameter scales and includes utilities for custom dataset
Implements a system for managing parallelism across multiple GPUs to increase the scale of trainable parameters.
Petals is a decentralized framework and inference engine for running large language models across a peer-to-peer network. It enables the execution of models that exceed the memory of any single machine by splitting computations and model layers across a collaborative swarm of GPUs. The system functions as a collaborative compute network where participants share local GPU resources and host model weights. It supports distributed prompt-tuning to adapt massive models to specific tasks and allows for the establishment of private compute swarms to process sensitive data within restricted, trusted
Establishes a decentralized network of connected devices that collectively host model weights and execute inference.
cuDF is a GPU-accelerated dataframe library and data processing engine designed for manipulating and analyzing large tabular datasets. It provides a high-level API for executing filtering, joining, and aggregating operations directly on GPU hardware. The project integrates the Apache Arrow memory format to enable zero-copy data transfers and includes a just-in-time compiler for executing custom user-defined functions on the GPU. The library features specialized acceleration for existing workflows by redirecting standard Pandas dataframe calls and Polars query plans to a GPU backend. It also p
Integrates with Dask to scale tabular datasets across multiple GPU devices for memory-exceeding workloads.
TensorTrade is a reinforcement learning trading framework designed for training and deploying autonomous agents that optimize financial market strategies. It provides an algorithmic trading simulation environment where agents can be tested against market data using simulated broker environments. The framework features a distributed training system using RLlib to optimize decision policies across large datasets. It includes a walk-forward validation tool that evaluates trading strategies through windowed performance analysis to prevent overfitting and measure real-world viability. The project
Scales the optimization of trading policies across large datasets using RLlib for distributed training.
هذا المشروع عبارة عن تنفيذ PyTorch لمحول نص-إلى-صورة. هو نموذج ذكاء اصطناعي توليدي مصمم لتعيين رموز نصية منفصلة إلى بكسلات صور باستخدام شبكة محولات لإنشاء محتوى بصري من أوصاف نصية. يستخدم النظام مشفر صور VAE منفصل لضغط البيانات البصرية إلى رموز لمعالجة المحولات. ويدعم التوجيه الخالي من المصنف لضبط تأثير أوامر النص أثناء الاستدلال ويتضمن إمكانيات لترتيب الصور المولدة بناءً على تشابهها مع أوامر النص. تدمج البنية آليات انتباه متفرقة وشبكات متبقية قابلة للعكس لتحسين التعقيد الحسابي واستهلاك الذاكرة. تشمل إمكانيات التدريب توسيع نطاق GPU الموزع وأطر عمل لإدارة أعباء العمل واسعة النطاق عبر معالجات رسومية متعددة لربط الصور بالأوصاف النصية. يوفر التنفيذ دعماً لترميز النص المخصص من خلال دمج رموز أو نماذج لغوية مدربة مسبقاً.
Employs distributed GPU computing strategies to maximize hardware utilization during the training of large vision models.
هذا تنفيذ تعلم عميق بـ PyTorch لتدريب نماذج لغات تعتمد على المحولات (Transformers). يعمل كمدرب GPU موزع وإطار عمل مصمم لتحسين نماذج التنبؤ بالنصوص لزيادة السرعة وكفاءة العينة. يتميز المشروع باستخدامه لمحسن الوزن Newton-Schulz. تطبق هذه الطريقة عملية تكرارية للحفاظ على تحديثات المعلمات شبه المتعامدة ومصفوفات الوزن، مما يحسن كفاءة العينة ويقلل من عبء الذاكرة أثناء عملية التدريب. يغطي إطار العمل قدرات واسعة في حوسبة GPU الموزعة، بما في ذلك توازي البيانات لتوسيع نطاق أحمال العمل عبر معالجات رسومات متعددة. كما يدمج تقنيات تحسين الشبكة العصبية مثل تحسين الزخم التكراري ومعالجة الدفعات عالية الإنتاجية.
Coordinates complex parallelism across multiple GPUs to maximize hardware utilization during deep learning workloads.
cuml هي مكتبة وإطار عمل للتعلم الآلي مسرع بواسطة GPU يستخدم CUDA لتسريع معالجة البيانات الجدولية وتنفيذ النماذج. توفر مجموعة من الأدوات لتدريب ونشر نماذج التصنيف، والانحدار، والتجميع على وحدات معالجة الرسومات NVIDIA وعناقيد GPU. تم تصميم المكتبة لقابلية التوسع، حيث توفر بيئة تعلم آلي موزعة على GPU يمكنها توزيع الحساب والبيانات عبر مسرعات أجهزة وعقد متعددة للتعامل مع مجموعات البيانات التي تتجاوز ذاكرة الجهاز الواحد. تعكس واجهات المقدر القياسية للسماح باستبدال النماذج القائمة على CPU بإصدارات مسرعة بواسطة GPU داخل سير العمل الحالي. يغطي المشروع مجموعة واسعة من قدرات التعلم الآلي، بما في ذلك التعلم الخاضع للإشراف، والتجميع غير الخاضع للإشراف، والبحث عن أقرب جار، وتقليل الأبعاد عالي الأبعاد. كما يتضمن معالجة بيانات جدولية مسرعة بواسطة الأجهزة لتوسيع الميزات والترميز، واستخراج ميزات النص، وتحليل السلاسل الزمنية، وقابلية تفسير تنبؤ النموذج. تشمل الأدوات المساعدة أدوات لإنشاء مجموعات بيانات اصطناعية، وتسلسل حالة النموذج، وحساب مقاييس أداء النموذج.
Scales machine learning workloads across multiple GPUs and compute nodes to process datasets exceeding single-device memory.
TransformerLab هي منصة تنسيق MLOps وبيئة بحث مصممة لتدريب وضبط وتقييم النماذج اللغوية الكبيرة. تعمل كطائرة تحكم مركزية لإدارة وظائف التعلم الآلي وتنسيق حساب GPU الموزع عبر موفري السحابة الهجينة والمحليين. تتميز المنصة بتحسين النموذج المدفوع بالوكيل، باستخدام مساعدي الذكاء الاصطناعي لتحليل المقاييس واقتراح وتطوير تجارب المعلمات الفائقة تلقائياً. توفر بيئة تطوير عن بعد تسمح للمستخدمين بتشغيل دفاتر ملاحظات تفاعلية، ومحرري كود، وجلسات غلاف آمنة مباشرة على عقد الحوسبة البعيدة. يغطي النظام مجموعة واسعة من إمكانيات سير عمل التعلم الآلي، بما في ذلك تنسيق المهام الموزعة، ومسح المعلمات الفائقة المؤتمت، وتتبع التجارب الشامل. يتميز بسجلات متكاملة لإصدار مجموعات البيانات وأصول النموذج، بالإضافة إلى أدوات لتقييم أداء النموذج ونشر خادم الاستدلال. يتم توفير واجهة سطر أوامر للتحكم في المنصة، ومراقبة الوظائف، وإدارة تثبيت وتحديثات مثيل الخادم المحلي.
Coordinates training workloads and provisions ephemeral instances across multiple cloud and on-premise providers.
StableSwarmUI هي واجهة ويب ومنسق خلفي لتوليد الصور باستخدام Stable Diffusion. تعمل كمولد صور GPU موزع وخط أنابيب صور ذكاء اصطناعي معياري، مما يوفر وحدة تحكم مركزية لإدارة طلبات توليد الصور. يتميز النظام بالقدرة على تقسيم مهام التوليد عبر معالجات رسومات متعددة لزيادة إنتاجية الدفعات. يستخدم واجهة محايدة للخلفية للاتصال بالخوادم المحلية، والخوادم البعيدة، وواجهات برمجة التطبيقات السحابية، ويتضمن مصمم سير عمل مرئي قائم على الرسم البياني لتحديد عمليات معالجة الصور المعقدة. تتضمن المنصة نظام إضافات ديناميكي لإضافة ميزات مخصصة وأدوات مؤتمتة لتوفير التبعيات على مستوى النظام. يجمع بين أدوات التوليد المعيارية وواجهات التحرير السريعة مع القدرة على توجيه أعباء العمل عبر الأجهزة الموزعة.
Manages computational parallelism across multiple GPUs to maximize hardware utilization during image generation.
NCCL هي مكتبة اتصالات عالية الأداء وإطار عمل حوسبة GPU موزع مصمم لتنفيذ تبادلات البيانات الجماعية ومن نقطة إلى نقطة عبر وحدات GPU متعددة في أنظمة أحادية أو متعددة العقد. تعمل كطبقة نقل GPU RDMA ومنسق ذاكرة، مما يسهل مزامنة البيانات وتدرجات النماذج ذات النطاق الترددي العالي للتدريب والاستدلال الموزع على GPU. تتميز المكتبة بقدرتها على تنفيذ بدائيات الاتصال مباشرة من نواة GPU، مما يزيل وحدة المعالجة المركزية المضيفة من المسار الحرج. وتستخدم اختيار المسار الواعي بالطوبولوجيا لتحسين حركة البيانات وتوظف نقل الشبكة القائم على RDMA، بما في ذلك InfiniBand و NVLink، لتمكين الوصول إلى الذاكرة بدون نسخ (Zero-copy) بين الأجهزة عبر عقد مادية مختلفة. يغطي المشروع مجموعة واسعة من أنماط الاتصال الجماعي، بما في ذلك الاختزالات، والبث، والتجميع، وتبادلات الكل إلى الكل، إلى جانب الوصول إلى الذاكرة عن بُعد من نقطة إلى نقطة. ويوفر إدارة شاملة للمتصلين لتهيئة وتقسيم وتغيير حجم مجموعات GPU، بالإضافة إلى إدارة ذاكرة متخصصة لتسجيل المخازن المؤقتة وتنسيق ذاكرة الجهاز المشتركة. يتضمن النظام مجموعة من أدوات المراقبة والقابلية للملاحظة لتتبع الصحة، وتسجيل التشخيص، ومراقبة الأحداث في الوقت الفعلي، بالإضافة إلى واجهات تكامل لإطارات عمل تعلم الآلة، و CUDA graphs، و MPI، و Python.
A low-level communication layer that synchronizes data and manages device communicators for large-scale distributed training and inference.
Amazon DSSTNE هي مجموعة أدوات لتعلم الآلة ومكتبة شبكات الموتر المتناثرة (sparse tensor) مصممة لنماذج التعلم العميق ذات المدخلات والمخرجات المتناثرة. توفر إطار عمل للتدريب المتوازي للنماذج ومحركاً متناثراً مسرعاً بواسطة GPU لدعم الشبكات كثيفة الذاكرة. تم تصميم إطار العمل خصيصاً لتدريب أنظمة التوصية والتعلم المتناثر واسع النطاق. يتيح توزيع مصفوفات الأوزان الكبيرة وجداول التضمين (embedding tables) عبر أجهزة GPU متعددة للتعامل مع النماذج التي تتجاوز سعة ذاكرة معالج واحد. يغطي المشروع مجموعة واسعة من الإمكانيات بما في ذلك الحوسبة الموزعة على GPU، ومعالجة مجموعات البيانات المتناثرة، وبناء شبكات الموتر المتناثرة القابلة للتوسع. تسمح هذه الأدوات بتنفيذ عمليات تعلم الآلة عالية الأداء وتوسيع نطاق النماذج عبر عناقيد GPU.
Distributes training and prediction tasks across multiple GPUs to increase processing speed and memory capacity.
SLIME is a distributed reinforcement learning framework for large language model post-training that bridges Megatron training with SGLang inference servers. It orchestrates scalable RL loops across GPU clusters, decoupling training and inference into independent processes that communicate over HTTP and NCCL for independent scaling and fault tolerance. The system supports multi-agent reinforcement learning workflows with parallel agent instances, customizable rollout strategies, and personalized agent serving that improves models from prior conversations without disrupting API serving. The fra
A pipeline that decouples training and inference engines across GPU clusters to optimize throughput and memory for large-scale RL workloads.
CML هي أداة لأتمتة خطوط الأنابيب لتدريب وتقييم نماذج تعلم الآلة، وتعمل كنظام CI/CD لتعلم الآلة. تعمل كمنسق للحوسبة السحابية ومدير سير عمل يعتمد على Git يقوم بأتمتة دورات تدريب النماذج من خلال إدارة الفروع، والالتزامات (commits) المؤتمتة، والتقارير المتكاملة. يتميز المشروع بتوفير نسخ سحابية مؤقتة أو عقد Kubernetes لتوفير أجهزة متخصصة للمهام كثيفة الحوسبة. كما يدير مشغلات الحوسبة عن بُعد، مما يسمح بربط مجموعات GPU ذاتية الاستضافة أو أجهزة محلية لتنفيذ سير عمل تعلم الآلة المحاوي (containerized). يغطي النظام مجموعة واسعة من الإمكانيات بما في ذلك تتبع تجارب تعلم الآلة، حيث يتم نشر مقاييس الأداء والتصورات مباشرة في طلبات السحب (pull requests) الخاصة بالتحكم في الإصدار. يتعامل مع أتمتة خط أنابيب تعلم الآلة من استيراد البيانات الأولي وإصدارها إلى إنشاء تقارير سير العمل المنسقة وروابط التصور الخارجية. توفر الأداة فائدة إضافية لإدارة البنية التحتية من خلال تصحيح الأخطاء عن بُعد عبر SSH والقدرة على استئناف المهام التي تمت مقاطعتها.
Orchestrates the lifecycle of ephemeral compute instances across hybrid cloud and on-premise providers for ML workloads.
Acme هو إطار عمل ومحرك تنفيذ للتعلم التعزيزي (Reinforcement Learning)، مصمم لتطوير وقياس أداء خوارزميات التعلم. يوفر مكتبة من المكونات النمطية وتطبيقات مرجعية تُستخدم لبناء الوكلاء (Agents) وتحديد معايير الأداء. يُمكّن النظام من توسيع نطاق معماريات الوكلاء من التنفيذ أحادي المسار إلى بيئات موزعة واسعة النطاق. وهذا يسمح بالانتقال من مرحلة النماذج الأولية إلى التنفيذ الموزع للتدريب والتقييم. يغطي إطار العمل تطوير التعلم التعزيزي ونمذجة معماريات الوكلاء، موفراً اللبنات الأساسية اللازمة لمقارنة النماذج الجديدة مقابل وكلاء مرجعيين قياسيين.
Acts as an execution engine for scaling reinforcement learning training and rollout generation across distributed GPU nodes.
IsaacGymEnvs is a GPU-accelerated physics sandbox and robotics policy training suite designed for reinforcement learning. It serves as a vectorized robotic simulator that runs thousands of parallel environments on GPUs to accelerate the training of neural networks. The project provides a sim-to-real transfer framework that utilizes domain randomization and physics variations to ensure policies trained in simulation are robust enough for deployment on real hardware. It distinguishes itself through a high-performance architecture that uses tensor-based state management to handle observations an
Scales reinforcement learning training loops and rollout generation across multiple GPU nodes to maximize throughput.
RLinf is a distributed reinforcement learning orchestrator and embodied AI training framework. It provides the infrastructure to train vision-language-action models and robotic policies using a combination of reinforcement learning and supervised fine-tuning. The system is designed for scaling workloads across GPU clusters, managing the placement of actors, rollout workers, and environment components. It features a specialized robotics data collection pipeline for gathering teleoperated demonstrations and simulation trajectories into standardized replay buffers, alongside a hardware interface
Scales reinforcement learning workloads across GPU clusters by managing worker placement and asynchronous data exchange.