9 रिपॉजिटरी
Techniques for processing data in batches to improve computational efficiency.
Distinguishing note: Focuses on batch-oriented processing rather than row-level iteration.
Explore 9 awesome GitHub repositories matching data & databases · Vectorized Data Processing. Refine with filters or upvote what's useful.
Ray is a distributed computing framework designed to scale Python and Java applications across clusters by abstracting task scheduling and resource management. It functions as a resource-aware execution engine that manages task dependencies, placement, and fault tolerance across networked compute nodes. At its core, the system provides a stateful actor model, allowing developers to define classes that run in dedicated processes to maintain and mutate internal state across remote method calls. The framework distinguishes itself through a robust cross-language interoperability layer, enabling f
Processes datasets in vectorized batches to achieve higher performance compared to row-by-row operations.
This project is an educational platform and research toolkit designed to teach deep learning through a combination of mathematical theory, visual diagrams, and executable code. It provides a comprehensive environment for building, training, and evaluating neural networks, grounding complex concepts in interactive computational notebooks that allow for hands-on experimentation. The framework distinguishes itself by interleaving theoretical foundations—including linear algebra, calculus, and probability—with practical implementations across multiple industry-standard libraries. It supports flex
Groups processed features and labels into minibatches to facilitate efficient training and testing loops.
This project is a linear algebra tutorial and educational resource focused on the mathematical foundations of machine learning. It serves as a technical guide and instructional material for understanding how matrix calculations and linear operations power predictive algorithms. The resource emphasizes the transition from basic arithmetic to the implementation of predictive models. It focuses on linear algebra visualization to demonstrate how matrix operations translate into the geometric transformations used in data science. The material covers the implementation of machine learning logic th
Demonstrates processing multiple data samples simultaneously using vectorized matrix operations to increase throughput.
This repository provides a complete framework for training generative adversarial networks (GANs) that produce high-resolution photorealistic images, up to 1024 by 1024 pixels. The core technique is progressive layer growth, where both the generator and discriminator networks start training at low resolution and gradually add new layers to model finer details, enabling stable synthesis of large images. The framework includes a high-resolution image generator, an image quality metric evaluator, a latent space interpolation tool for creating smooth transition videos, and a multi-resolution datas
Implements minibatch standard deviation to help the discriminator detect mode collapse during training.
dplyr एक R डेटा मैनिपुलेशन लाइब्रेरी है जो टैबुलर डेटा फ़्रेम को बदलने के लिए एक ग्रामर प्रदान करती है। यह इन-मेमोरी डेटा फ़्रेम प्रोसेसर और रिलेशनल डेटा अलजेब्रा टूल के रूप में कार्य करती है, जो डेटा को फ़िल्टर, सिलेक्ट और समराइज़ करने के लिए वर्ब्स के एक सुसंगत सेट का उपयोग करती है। इस प्रोजेक्ट में एक SQL ट्रांसलेशन इंजन शामिल है जो उच्च-स्तरीय डेटा मैनिपुलेशन एक्सप्रेशंस को ऑप्टिमाइज़्ड क्वेरीज़ में बदलता है। यह यूज़र्स को डेटा को स्थानीय रूप से पुल किए बिना सीधे रिमोट रिलेशनल डेटाबेस और क्लाउड स्टोरेज पर ट्रांसफ़ॉर्मेशन करने की अनुमति देता है। यह लाइब्रेरी कॉलम म्यूटेशन, रो सबसेटिंग और रिलेशनल डेटा जॉइनिंग सहित टैबुलर ऑपरेशंस की एक विस्तृत श्रृंखला को कवर करती है। यह ग्रुप किए गए डेटा विश्लेषण के लिए क्षमताएं भी प्रदान करती है, जिससे डेटासेट को स्वतंत्र एग्रीगेशन और सारांश के लिए विभाजित किया जा सकता है।
Applies functions across entire columns simultaneously to maximize computational efficiency within the R memory model.
ArrayFire एक हार्डवेयर-अज्ञेयवादी (hardware-agnostic) कंप्यूट फ्रेमवर्क और JIT-कंपाइल किया गया टेंसर इंजन है जिसे उच्च-प्रदर्शन संख्यात्मक कंप्यूटिंग के लिए डिज़ाइन किया गया है। यह एक GPU न्यूमेरिकल कंप्यूटिंग लाइब्रेरी और पैरेलल सिग्नल प्रोसेसिंग टूलकिट के रूप में कार्य करता है जो हार्डवेयर बैकएंड को एब्स्ट्रैक्ट करता है, जिससे एक ही कोडबेस विभिन्न GPU आर्किटेक्चर और CPUs पर निष्पादित हो सकता है। यह प्रोजेक्ट एक JIT इंजन के माध्यम से खुद को अलग करता है जो ऑपरेशन्स को फ्यूज करने और मेमोरी ओवरहेड को कम करने के लिए एक्सप्रेशन कंपाइलेशन का उपयोग करता है। यह कंप्यूटेशन चेन को ऑप्टिमाइज़ करने के लिए एक डिफर्ड एक्जीक्यूशन ग्राफ का उपयोग करता है और CUDA तथा OpenCL जैसे बाहरी कंप्यूट प्लेटफॉर्म के साथ डेटा और निष्पादन संदर्भ साझा करने के लिए इंटरऑपरेबिलिटी प्रिमिटिव्स प्रदान करता है। यह लाइब्रेरी पैरेलल लीनियर अलजेब्रा, डिजिटल सिग्नल प्रोसेसिंग, और त्वरित कंप्यूटर विज़न सहित क्षमताओं की एक विस्तृत श्रृंखला को कवर करती है। यह मशीन लर्निंग इम्प्लीमेंटेशन, वित्तीय मॉडलिंग सिमुलेशन, और भौतिक प्रणाली सिमुलेशन के लिए आंशिक अंतर समीकरणों (partial differential equations) को हल करने के लिए उपकरण प्रदान करती है। इसका टेंसर मैनेजमेंट सिस्टम मल्टी-डायमेंशनल ऐरे एलोकेशन, स्लाइसिंग, और होस्ट-डिवाइस डेटा ट्रांसफर को संभालता है।
Executes operations across N-dimensional arrays by tiling data and parallelizing loop iterations on hardware.
ZLinq is a zero-allocation LINQ library and memory-efficient collection toolkit for C#. It provides a high-performance replacement for standard query operations by using value-type enumerators and pooled memory to eliminate heap allocations and reduce garbage collection overhead. The library features a C# source generator that automatically routes standard query method calls to these zero-allocation implementations. It further accelerates data processing through a SIMD accelerated data library, using hardware vectorization for numeric aggregations and bulk operations on primitive arrays and s
Processes array and span elements using hardware vector widths via lambda expressions for high-performance iteration.
USearch is a high-performance vector similarity search engine and approximate nearest neighbor index designed for dense embeddings. It functions as a low-level vector database core and high-dimensional vector indexer, providing the primitives necessary to store and retrieve vectors across massive datasets. The engine distinguishes itself through hardware-level SIMD acceleration for distance kernels and a proximity-graph indexing system that enables fast retrieval across billions of vectors. It supports multi-precision vector quantization to balance memory usage and accuracy, and utilizes memo
Processes multiple query vectors simultaneously using flattened arrays to maximize throughput for bulk similarity searches.
This project is a multi-purpose toolkit comprising a static site generator, a predictive modeling tool, and a sports analytics dashboard. It functions as a content syndication engine that converts source files into static HTML and machine-readable XML streams for blogs and professional portfolios. The system features a data processing engine designed for sports performance analytics, using linear and logistic regression to estimate season win totals and calculate win probabilities. It includes a time-series visualization framework that renders these performance trends using high-contrast them
Processes large datasets using vectorization and row-by-row application to increase computation speed.