10 مستودعات
Processing and evaluating complex datasets using optimized low-level algorithmic toolkits.
Distinct from High-Performance Data Infrastructures: Focuses on the algorithmic analysis layer rather than the storage infrastructure or visualization.
Explore 10 awesome GitHub repositories matching data & databases · High-Performance Data Analysis. Refine with filters or upvote what's useful.
dlib is a C++ machine learning toolkit and data analysis framework. It provides a collection of algorithms and utilities for building predictive modeling applications and performing statistical analysis on large datasets within native C++ environments. The project functions as a binding library that wraps low-level C++ machine learning algorithms into high-level Python scripting interfaces. This allows for the integration of high-performance native implementations with Python for machine learning development. The framework covers the implementation of predictive models, the execution of mach
Implements optimized low-level toolkits for the high-performance processing of large, complex datasets.
Apache Druid is a real-time OLAP database and distributed analytics engine. It functions as a columnar time-series database designed for high-performance analytical queries and the real-time ingestion of streaming and batch datasets. The system provides a framework for high-concurrency analytics, allowing multiple simultaneous users to execute SQL and native queries across large-scale data. It supports mixed data ingestion, combining real-time streaming and batch loading into a single system for unified analysis. The platform includes capabilities for distributed cluster management, enabling
Serves a large number of simultaneous users performing complex data analysis and reporting.
Apache Druid is a real-time analytics database and distributed columnar time-series store designed for sub-second analytical queries. It functions as a data platform featuring a distributed SQL query engine and a real-time data ingestion system for moving historical and streaming data from external sources. The system is distinguished by its ability to provide low-latency analytics under high concurrency to power operational dashboards. It implements a Kerberos-secured environment for user authentication and employs a shared-nothing cluster architecture to enable horizontal scaling. The plat
Enables the serving of complex analytical queries to many simultaneous users across distributed clusters without performance loss.
cuDF is a GPU-accelerated dataframe library and data processing engine designed for manipulating and analyzing large tabular datasets. It provides a high-level API for executing filtering, joining, and aggregating operations directly on GPU hardware. The project integrates the Apache Arrow memory format to enable zero-copy data transfers and includes a just-in-time compiler for executing custom user-defined functions on the GPU. The library features specialized acceleration for existing workflows by redirecting standard Pandas dataframe calls and Polars query plans to a GPU backend. It also p
Reads and writes Parquet, ORC, and CSV files directly to GPU memory to eliminate CPU processing bottlenecks.
RisingWave is a cloud-native streaming database and real-time analytics engine that uses standard SQL to process continuous data streams. It functions as a streaming data lakehouse, combining the capabilities of a streaming SQL database with a platform that integrates streaming ingestion with open table formats. The system is distinguished by its use of the PostgreSQL wire protocol, allowing it to integrate with existing SQL tools and drivers. It employs a decoupled compute and storage architecture, persisting streaming state and materialized views in cloud object storage to enable independen
Runs concurrent SQL queries against streaming data using a dedicated serving layer.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Calculates summary statistics using deferred execution to maintain high performance when processing billions of rows.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Serves complex analytical queries to many simultaneous users with strict latency requirements for interactive applications.
Highway هي مكتبة C++ محمولة وطبقة تجريد للأجهزة مصممة لكتابة كود تعليمات واحدة لبيانات متعددة (SIMD). توفر واجهة موحدة تعين منطق البيانات المتوازية إلى مجموعات تعليمات CPU مختلفة، مما يتيح تطوير برامج عالية الأداء تعمل عبر بنيات معالجات مختلفة دون الحاجة إلى تجميع خاص بالبنية. يتميز المشروع بموزع تعليمات ديناميكي يختار مجموعة تعليمات CPU الأكثر كفاءة في وقت التشغيل بناءً على الأجهزة المكتشفة. كما يدعم تخصص الهدف الثابت وآليات قابلة للتوسيع لإضافة أهداف أجهزة جديدة أو عمليات SIMD مخصصة. تغطي المكتبة مجموعة واسعة من عمليات المتجهات، بما في ذلك الحساب العنصري، وتقليل المسارات، والتبديل، والتنفيذ الشرطي المقنع. وتتضمن مكتبة رياضية متجهة، ومديراً للذاكرة للتخصيص المحاذي وعمليات التحميل والتخزين المقنعة، وبدائيات للتشفير المسرع بالأجهزة. يتم توفير أدوات للتجميع والتحقق المؤتمت من التعليمات المسرعة بالأجهزة عبر بنيات معالجات متعددة.
Accelerates mathematical operations, sorting, and hashing using optimized low-level vector algorithmic toolkits.
هذا المشروع هو إطار عمل لمعالجة البيانات الجدولية عالي الأداء لـ R، مصمم للتعامل مع مجموعات البيانات الضخمة بكفاءة في الذاكرة وسرعة. يوفر هيكل بيانات محسناً يستخدم دلالات المرجع والتعديل في المكان لإجراء تحويلات معقدة دون عبء نسخ الكائنات غير الضروري. تتميز المكتبة بتحسيناتها المعمارية منخفضة المستوى، بما في ذلك المعالجة المتوازية متعددة الخيوط، والفرز القائم على الجذر، وتحليل الملفات المعينة في الذاكرة. من خلال تفريغ إجراءات معالجة البيانات والتجميع الحرجة إلى كود C مجمع، فإنه يتيح التنفيذ السريع للمهام التي قد تكون مكلفة حسابياً. يدعم محركها الأساسي عمليات علائقية متقدمة، مثل الانضمامات غير المتساوية، والمتدحرجة، والمتداخلة، إلى جانب الفهرسة الثانوية التلقائية لتسريع الوصول المتكرر للبيانات. إلى جانب إمكانات المعالجة الأساسية، يقدم المشروع مجموعة شاملة من الأدوات لإدارة دورة حياة البيانات. يتضمن ذلك أدوات استيعاب وتسلسل عالية السرعة مع الكشف التلقائي عن النوع، بالإضافة إلى دعم متخصص لتحليل السلاسل الزمنية والتجميع متعدد الأبعاد. تم بناء إطار العمل ليتوسع، مما يسمح للمستخدمين بإجراء عمليات تجميع وتصفية وإعادة تشكيل معقدة على مجموعات بيانات تحتوي على مليارات الصفوف مع الحفاظ على استقرار النظام وأدائه.
Orders rows using high-performance sorting algorithms to accelerate data processing tasks.
This project is a community-driven standard library for the Fortran programming language, providing a comprehensive collection of algorithms, data structures, and system utilities. It is designed to extend the language's native capabilities, offering a unified toolkit for scientific computing, numerical analysis, and general-purpose programming. The library distinguishes itself through a modular architecture that utilizes generic interface dispatch and compile-time specialization to ensure high performance across various data types. It provides standardized abstractions for external numerical
Implements efficient algorithms for sorting, searching, and managing large datasets to maintain speed and reliability in computational workflows.