5 مستودعات
Libraries for manipulating and analyzing tabular datasets using GPU acceleration.
Distinct from GPU Acceleration Libraries: Existing candidates focus on general acceleration or plotting, not the specific dataframe API identity.
Explore 5 awesome GitHub repositories matching data & databases · GPU DataFrame Libraries. Refine with filters or upvote what's useful.
cuDF is a GPU-accelerated dataframe library and data processing engine designed for manipulating and analyzing large tabular datasets. It provides a high-level API for executing filtering, joining, and aggregating operations directly on GPU hardware. The project integrates the Apache Arrow memory format to enable zero-copy data transfers and includes a just-in-time compiler for executing custom user-defined functions on the GPU. The library features specialized acceleration for existing workflows by redirecting standard Pandas dataframe calls and Polars query plans to a GPU backend. It also p
Provides a GPU-accelerated library for manipulating and analyzing large tabular datasets.
Accelerates pandas, Polars, and Apache Spark DataFrame operations on NVIDIA GPUs with no code changes.
AliSQL is a fork of MySQL by Alibaba that extends the relational database management system with enhancements for high performance, scalability, and enterprise-grade availability. It retains the core MySQL identity as a SQL-based database for storing, organizing, and retrieving structured data, while adding optimizations for large-scale transactional and analytical workloads. The project differentiates itself through a set of Alibaba-specific improvements, including a columnar engine for accelerating analytical queries directly on MySQL tables, and a distributed, shared-nothing NDB Cluster en
Offloads analytical queries to a columnar engine for faster execution than the standard row-based engine.
Pigsty is a full-stack orchestration suite for deploying, monitoring, and managing high-availability PostgreSQL clusters and their supporting infrastructure. It functions as a cluster management platform and high-availability suite that automates failover, manages virtual IPs, and ensures data consistency through distributed consensus. The project distinguishes itself by providing a comprehensive database infrastructure-as-code framework and a dedicated observability stack. It incorporates a backup and recovery manager supporting point-in-time recovery via S3-compatible object storage, alongs
Accelerates OLAP queries through columnar storage, distributed processing, and GPU acceleration.
Jetson Containers هو نظام إدارة حاويات يقوم ببناء وتشغيل صور Docker المسرعة بـ GPU لأحمال عمل التعلم الآلي على أجهزة ARM64 الطرفية. يعمل كمنسق حاويات CUDA، حيث يكتشف تلقائياً إصدار مجموعة أدوات CUDA للمضيف وقدرات GPU لضمان توافق الحاوية في وقت التشغيل، مع اختيار صورة الحاوية الصحيحة من خلال مطابقة إصدار JetPack أو L4T للمضيف عند الإطلاق. يقدم المشروع حاويات مهيأة مسبقاً لتنفيذ نماذج لغوية كبيرة مكممة وخطوط أنابيب توليد معززة بالاسترجاع (RAG) محسنة للأجهزة الطرفية، إلى جانب حاويات ROS وإطارات عمل الذكاء الاصطناعي المتكاملة لنشر الوكلاء المستقلين والمعالجة متعددة الوسائط. يقوم نظام البناء الطبقي المعياري الخاص به بتجميع صور Docker من طبقات قابلة لإعادة الاستخدام ومبنية مسبقاً، وتجميع إطارات عمل AI/ML من المصدر لتحسينها لمعماريات GPU الطرفية المحددة وإصدارات CUDA، مع تخزين مؤقت محلي للعجلات (wheel caching) لتسريع عمليات البناء اللاحقة. توفر المنصة حاويات Docker مبنية مسبقاً مع إصدارات مسرعة بـ GPU من PyTorch و TensorFlow و JAX و ONNX Runtime لمنصات Jetson، مما يدعم قدرات مثل تشغيل LLMs، ونماذج الكلام، ونماذج الرؤية واللغة، والترجمة الآلية العصبية على الأجهزة الطرفية. كما يتيح بناء حاويات مخصصة مع حزم ذكاء اصطناعي مسرعة بـ GPU، وتشغيل حاويات Triton Inference Server و Transformer Engine، وتسريع سير عمل علوم البيانات باستخدام مكتبات RAPIDS.
Use a cuDF-based DataFrame library that runs on NVIDIA GPUs for accelerated data manipulation and analysis.