3 repository-uri
High-performance engines for aggregating and rearranging datasets stored in system memory.
Distinct from In-Memory Data Stores: Distinct from In-Memory Data Stores, which focuses on storage and retrieval, whereas this focuses on the processing and transformation of the data.
Explore 3 awesome GitHub repositories matching data & databases · In-Memory Data Processors. Refine with filters or upvote what's useful.
dplyr este o bibliotecă R pentru manipularea datelor care oferă o gramatică pentru transformarea cadrelor de date (data frames) tabelare. Funcționează ca un procesor de data frames în memorie și un instrument de algebră relațională, folosind un set consistent de verbe pentru a filtra, selecta și sumariza datele. Proiectul include un motor de traducere SQL care convertește expresiile de manipulare a datelor de nivel înalt în interogări optimizate. Acest lucru permite utilizatorilor să efectueze transformări direct pe baze de date relaționale la distanță și în stocarea cloud, fără a descărca datele local. Biblioteca acoperă o gamă largă de operațiuni tabelare, inclusiv mutarea coloanelor, subsetarea rândurilor și join-uri de date relaționale. De asemenea, oferă capabilități pentru analiza datelor grupate, permițând partiționarea seturilor de date pentru agregări și rezumate independente.
Implements a high-performance engine for aggregating and rearranging tabular datasets stored in system memory.
Mapshaper este un instrument pentru procesarea, simplificarea și convertirea datelor vectoriale geografice, disponibil ca interfață de linie de comandă, instrument de browser web și bibliotecă Node.js. Funcționează ca un proiector de coordonate, convertor de date vectoriale și optimizator de active pentru hărți web, conceput pentru a transforma seturile de date spațiale între diferite sisteme de referință de coordonate și formate de fișiere. Proiectul se distinge prin simplificarea geometriei care păstrează topologia, ceea ce reduce numărul de noduri (vertex) menținând în același timp limitele partajate pentru a preveni golurile și suprapunerile. Optimizează în continuare activele pentru web prin cuantificarea coordonatelor și filtrarea atributelor pentru a reduce dimensiunile fișierelor. Sistemul acoperă o gamă largă de capabilități, inclusiv reproiectarea coordonatelor folosind șiruri PROJ și coduri EPSG, și conversia datelor între formate precum Shapefile, GeoJSON, TopoJSON, GeoPackage și KML. Oferă instrumente extinse de procesare a geometriei pentru buffering, clipping, dizolvare și repararea topologiilor, precum și utilitare de gestionare a datelor pentru unirea atributelor, filtrare și transformare. În plus, include funcții de vizualizare pentru generarea de exporturi SVG stilizate, graticule și hărți cu simboluri proporționale. Capabilitățile de procesare spațială pot fi integrate direct în aplicațiile JavaScript și în pipeline-urile de build prin biblioteca sa Node.js.
Processes and transforms spatial datasets directly in system memory to avoid expensive disk I/O.
Acest proiect este un framework de procesare a datelor tabelare de înaltă performanță pentru R, conceput pentru a gestiona seturi de date masive cu eficiență a memoriei și viteză. Oferă o structură de date îmbunătățită care utilizează semantica de referință și modificarea in-place pentru a efectua transformări complexe fără overhead-ul copierii inutile a obiectelor. Biblioteca se distinge prin optimizările sale arhitecturale de nivel scăzut, inclusiv procesarea paralelă multi-threaded, sortarea bazată pe radix și parsarea fișierelor mapate în memorie. Prin descărcarea rutinelor critice de manipulare și agregare a datelor către cod C compilat, permite execuția rapidă a sarcinilor care altfel ar fi costisitoare din punct de vedere computațional. Motorul său de bază suportă operațiuni relaționale avansate, cum ar fi join-uri non-equi, rolling și intervale suprapuse, alături de indexarea secundară automată pentru a accelera accesul repetat la date. Dincolo de capabilitățile sale primare de procesare, proiectul oferă o suită cuprinzătoare de instrumente pentru gestionarea ciclului de viață al datelor. Aceasta include utilitare de ingestie și serializare de mare viteză cu detectare automată a tipului, precum și suport specializat pentru analiza seriilor temporale și agregarea multidimensională. Framework-ul este construit pentru a scala, permițând utilizatorilor să efectueze operațiuni complexe de grupare, filtrare și remodelare pe seturi de date care conțin miliarde de rânduri, menținând în același timp stabilitatea și performanța sistemului.
Provides a high-speed in-memory engine for filtering, grouping, and reshaping large-scale datasets.