5 Repos
Libraries for manipulating and analyzing tabular datasets using GPU acceleration.
Distinct from GPU Acceleration Libraries: Existing candidates focus on general acceleration or plotting, not the specific dataframe API identity.
Explore 5 awesome GitHub repositories matching data & databases · GPU DataFrame Libraries. Refine with filters or upvote what's useful.
cuDF is a GPU-accelerated dataframe library and data processing engine designed for manipulating and analyzing large tabular datasets. It provides a high-level API for executing filtering, joining, and aggregating operations directly on GPU hardware. The project integrates the Apache Arrow memory format to enable zero-copy data transfers and includes a just-in-time compiler for executing custom user-defined functions on the GPU. The library features specialized acceleration for existing workflows by redirecting standard Pandas dataframe calls and Polars query plans to a GPU backend. It also p
Provides a GPU-accelerated library for manipulating and analyzing large tabular datasets.
Accelerates pandas, Polars, and Apache Spark DataFrame operations on NVIDIA GPUs with no code changes.
AliSQL is a fork of MySQL by Alibaba that extends the relational database management system with enhancements for high performance, scalability, and enterprise-grade availability. It retains the core MySQL identity as a SQL-based database for storing, organizing, and retrieving structured data, while adding optimizations for large-scale transactional and analytical workloads. The project differentiates itself through a set of Alibaba-specific improvements, including a columnar engine for accelerating analytical queries directly on MySQL tables, and a distributed, shared-nothing NDB Cluster en
Offloads analytical queries to a columnar engine for faster execution than the standard row-based engine.
Pigsty is a full-stack orchestration suite for deploying, monitoring, and managing high-availability PostgreSQL clusters and their supporting infrastructure. It functions as a cluster management platform and high-availability suite that automates failover, manages virtual IPs, and ensures data consistency through distributed consensus. The project distinguishes itself by providing a comprehensive database infrastructure-as-code framework and a dedicated observability stack. It incorporates a backup and recovery manager supporting point-in-time recovery via S3-compatible object storage, alongs
Accelerates OLAP queries through columnar storage, distributed processing, and GPU acceleration.
Jetson Containers ist ein Container-Managementsystem, das GPU-beschleunigte Docker-Images für Machine-Learning-Workloads auf ARM64-Edge-Hardware erstellt und ausführt. Es fungiert als CUDA-Container-Orchestrator, der automatisch die CUDA-Toolkit-Version und die GPU-Fähigkeiten des Hosts erkennt, um die Container-Kompatibilität zur Laufzeit sicherzustellen, während beim Start das korrekte Container-Image durch Abgleich mit der JetPack- oder L4T-Version des Hosts ausgewählt wird. Das Projekt liefert vorkonfigurierte Container zur Ausführung quantisierter Large Language Models und Retrieval-Augmented-Generation-Pipelines, die für Edge-Geräte optimiert sind, sowie integrierte ROS- und KI-Framework-Container für den Einsatz autonomer Agenten und multimodaler Verarbeitung. Sein modulares, geschichtetes Build-System stellt Docker-Images aus wiederverwendbaren, vorgefertigten Schichten zusammen und kompiliert KI/ML-Frameworks aus dem Quellcode, um sie für spezifische Edge-GPU-Architekturen und CUDA-Versionen zu optimieren, wobei lokales Wheel-Caching nachfolgende Builds beschleunigt. Die Plattform bietet vorgefertigte Docker-Container mit GPU-beschleunigten Versionen von PyTorch, TensorFlow, JAX und ONNX Runtime für Jetson-Plattformen und unterstützt Funktionen wie das Ausführen von LLMs, Sprachmodellen, Vision-Language-Modellen und neuronaler maschineller Übersetzung auf Edge-Hardware. Es ermöglicht zudem das Erstellen benutzerdefinierter Container mit GPU-beschleunigten KI-Paketen, das Ausführen von Triton Inference Server- und Transformer Engine-Containern sowie die Beschleunigung von Data-Science-Workflows mit RAPIDS-Bibliotheken.
Use a cuDF-based DataFrame library that runs on NVIDIA GPUs for accelerated data manipulation and analysis.