10 repository-uri
In-memory structured grids used for manipulating tabular data and performing matrix operations.
Distinct from Data Structure Implementations: Existing candidates focus on general data structures or network framing rather than ML-centric tabular data frames
Explore 10 awesome GitHub repositories matching data & databases · Tabular Data Frames. Refine with filters or upvote what's useful.
GoLearn is a machine learning library for the Go programming language. It provides a supervised learning framework and a toolkit for building, training, and evaluating predictive models through a standardized interface. The project implements a data frame system that loads CSV files into structured grids for matrix operations. It includes a preprocessing library for discretizing continuous variables and a model evaluation toolkit that utilizes confusion matrices and cross-validation to measure precision and recall. The library covers data engineering and management, including the ability to
Implements a structured data grid system to load CSVs and perform matrix operations for training datasets.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a high-performance tabular data frame implementation for ordering and manipulating billion-row datasets.
This project is a Python education repository and programming tutorial designed to teach language fundamentals, from basic syntax and variables to advanced concepts. It serves as a data science starter kit and a guide for REST API integration. The repository provides instructional scripts and sample code covering object-oriented programming patterns and asynchronous programming. It includes practical demonstrations for fetching and processing JSON data from external web services using HTTP requests. The materials cover a broad capability surface including data analysis workflows with interac
Utilizes in-memory structured grids to organize and manipulate tabular data for analysis.
This project is a Python data science curriculum and programming tutorial collection. It provides a structured set of educational notebooks and scripts designed to teach data analysis, machine learning, and deep learning. The repository serves as a learning path for building and tuning predictive models, including regression, decision trees, and neural networks. It includes a data visualization guide for creating financial time-series plots and a multiprocessing reference for implementing parallel task execution and shared memory synchronization. The curriculum covers broader capability area
Teaches data cleaning and transformation using structured data frames for analysis.
This project is a collection of educational notes and tutorials focused on Python programming, scientific computing, and data analysis. It serves as a reference for learning language basics, advanced techniques, and object-oriented design. The materials include implementation guides for building linear, logistic, and convolutional neural networks using symbolic graph frameworks. It also provides instruction on manipulating and visualizing structured data frames and performing complex mathematical operations through numerical libraries. The repository includes a system for converting interact
Instructional guides on using tabular data frames for efficient dataset slicing and statistical analysis.
Shiny is a framework for building interactive web applications using R code, eliminating the need for HTML, CSS, or JavaScript. At its core, it provides a reactive programming model that automatically tracks data dependencies and re-executes only the parts of an application that depend on changed inputs. The framework handles server-side UI rendering and maintains persistent WebSocket connections between the browser and server for real-time updates without page reloads. The framework distinguishes itself through deep integration with the R ecosystem, including the ability to embed interactive
Renders tabular data from pandas, Polars, PyArrow, and other libraries without manual conversion.
r4ds este un curriculum de știința datelor și o resursă educațională concepută pentru stăpânirea limbajului de programare R. Oferă o cale de învățare structurată pentru procesul end-to-end de importare, curățare, transformare și vizualizare a datelor. Proiectul pune accent pe un ghid de știința datelor reproductibil și un curriculum cuprinzător pentru manipularea datelor (data wrangling). Include tutoriale specializate despre gramatica graficelor pentru vizualizarea stratificată a datelor și publicații tehnice create cu Quarto care îmbină codul executabil cu proza narativă. Materialul acoperă o gamă largă de capabilități analitice, inclusiv ingestia de date din surse diverse, unirea datelor relaționale și gestionarea variabilelor categorice. De asemenea, abordează curățarea datelor, modelarea matematică și generarea de rapoarte și prezentări profesionale în formate multiple. Curriculum-ul se concentrează pe aplicarea practică a programării funcționale și a principiilor „tidy data” pentru a crea analize transparente și repetabile.
Constructs structured in-memory tables by hand-crafting columns and rows within the environment.
Velox este un motor de execuție a interogărilor C++ de înaltă performanță și o bibliotecă de procesare a datelor coloanare. Servește drept framework compozabil pentru implementarea motoarelor de interogare analitică, oferind un evaluator de expresii vectorizat și un toolkit pentru sistemele de gestionare a datelor. Proiectul se distinge prin utilizarea execuției coloanare vectorizate și a alocării memoriei bazate pe arene pentru a procesa seturi de date la scară largă. Dispune de optimizări specializate, cum ar fi caching-ul tabelelor de broadcast join, push-down dinamic al filtrelor și codificare prin dicționar pentru a reduce overhead-ul de memorie și a accelera citirile analitice. Motorul acoperă o gamă largă de capabilități analitice, inclusiv implementarea de hash, merge și semi joins, precum și agregarea paralelă în mai multe etape și calculul funcțiilor de fereastră. Oferă primitive pentru stocarea coloanară în memorie, decodarea datelor Parquet și integrarea cu stocarea în cloud. Extensibilitatea este oferită printr-un sistem de înregistrare a funcțiilor pentru funcții scalare și agregate personalizate, cu binding-uri de nivel înalt disponibile pentru a conecta logica C++ la Python.
Filters rows from one dataset based on the existence of matching rows in another dataset via semi-joins.
Acest proiect este un framework de procesare a datelor tabelare de înaltă performanță pentru R, conceput pentru a gestiona seturi de date masive cu eficiență a memoriei și viteză. Oferă o structură de date îmbunătățită care utilizează semantica de referință și modificarea in-place pentru a efectua transformări complexe fără overhead-ul copierii inutile a obiectelor. Biblioteca se distinge prin optimizările sale arhitecturale de nivel scăzut, inclusiv procesarea paralelă multi-threaded, sortarea bazată pe radix și parsarea fișierelor mapate în memorie. Prin descărcarea rutinelor critice de manipulare și agregare a datelor către cod C compilat, permite execuția rapidă a sarcinilor care altfel ar fi costisitoare din punct de vedere computațional. Motorul său de bază suportă operațiuni relaționale avansate, cum ar fi join-uri non-equi, rolling și intervale suprapuse, alături de indexarea secundară automată pentru a accelera accesul repetat la date. Dincolo de capabilitățile sale primare de procesare, proiectul oferă o suită cuprinzătoare de instrumente pentru gestionarea ciclului de viață al datelor. Aceasta include utilitare de ingestie și serializare de mare viteză cu detectare automată a tipului, precum și suport specializat pentru analiza seriilor temporale și agregarea multidimensională. Framework-ul este construit pentru a scala, permițând utilizatorilor să efectueze operațiuni complexe de grupare, filtrare și remodelare pe seturi de date care conțin miliarde de rânduri, menținând în același timp stabilitatea și performanța sistemului.
Implements an enhanced, memory-efficient tabular data structure that supports in-place modification and accelerated binary search subsetting.
DataFrame is a C++ tabular data library and manipulation engine designed for managing heterogeneous data in contiguous memory. It functions as a statistical analysis framework and time series analysis toolkit, providing the means to store, index, and transform multidimensional datasets. The project distinguishes itself through a high-performance execution model that utilizes column-major storage, SIMD-aligned memory allocation, and a thread-pool for parallel computations. It employs a visitor-based algorithm dispatch system and policy-driven transformations to decouple data processing logic f
Implements high-performance in-memory structured grids for manipulating tabular data and performing matrix operations.