14 Repos
High-performance data processing utilizing the Apache Arrow columnar memory format.
Distinguishing note: Existing candidates were for ECharts or Thrift; no specific Apache Arrow processing tag existed in the shortlist.
Explore 14 awesome GitHub repositories matching data & databases · Apache Arrow Processing. Refine with filters or upvote what's useful.
Perspective is a columnar data analytics engine and high-performance visualization component powered by WebAssembly. It provides a system for analyzing and visualizing large or streaming datasets through interactive data grids and charts, utilizing a compiled binary to achieve near-native performance within the browser. The project distinguishes itself through a WebSocket-based data streaming interface and deep Apache Arrow integration, which minimize memory overhead when synchronizing tables between servers and clients. It acts as a remote query proxy capable of translating visualization con
Uses the high-performance Apache Arrow columnar memory format to transfer large datasets between servers and clients.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Implements chart annotations including arrows, brackets, callouts, and text labels to highlight specific data points.
Apache DataFusion is an extensible, columnar SQL query engine that runs embedded within a host application without requiring a separate server process. It processes data in columnar batches using Apache Arrow for memory-efficient analytics, and can scale analytic workloads across multiple nodes for parallel execution. The engine supports both SQL and DataFrame queries through a modular, streaming architecture that allows custom operators, data sources, functions, and optimizer rules. The engine distinguishes itself through its modular extension framework, which enables building custom query e
Stores and processes data in Apache Arrow's columnar format for zero-copy sharing and vectorized operations.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a high-performance DataFrame library based on the Apache Arrow columnar memory layout.
Fireworks Tech Graph is a tool that generates SVG and PNG technical diagrams from natural language descriptions, supporting both English and Chinese input. It produces publication-quality diagrams for AI architectures, UML types, and other technical domains without requiring manual drawing or diagramming syntax. The tool distinguishes itself through a semantic shape vocabulary and arrow-based flow encoding that conveys component roles and data flow types through consistent geometric shapes, stroke widths, dash patterns, and colors rather than relying on textual labels. It renders the same dia
Encodes flow types with line width, dash pattern, and color for clear communication in diagrams.
Feast is an open-source feature store for machine learning that provides a central platform for defining, storing, and serving features across both training and inference workflows. It operates as a declarative system where feature definitions are written as code in Python files, synchronized to a central registry, and made available for low-latency online retrieval or point-in-time correct historical joins for training datasets. The project abstracts storage behind a pluggable architecture, allowing offline and online backends to be swapped without changing retrieval logic, and coordinates ma
Converts retrieval job results into Apache Arrow tables for efficient columnar access.
ScottPlot is a cross-platform, high-performance charting library for .NET that renders interactive plots across desktop and web GUI frameworks including Windows Forms, WPF, MAUI, Avalonia, Blazor, and WinUI. It provides an optimized rendering engine capable of displaying millions of data points with interactive pan, zoom, and live data streaming, while also supporting image export to formats like PNG and SVG for file output, cloud applications, and notebooks. The library distinguishes itself through a comprehensive set of chart types including scatter, line, bar, pie, heatmap, financial, rada
Place an arrow pointing to a specific location in coordinate space, with extensive customization options.
GreptimeDB is a distributed, open-source time-series database built for unified observability. It stores and queries metrics, logs, and traces together in a single columnar engine, supporting both SQL and PromQL for analysis. The database is designed as a Kubernetes-native operator with a decoupled compute and storage architecture, enabling horizontal scaling and multi-region deployment. What distinguishes GreptimeDB is its role as a multi-protocol ingestion gateway, accepting data through OpenTelemetry, Prometheus Remote Write, InfluxDB, Loki, Elasticsearch, Kafka, and MQTT protocols without
Aggregates multiple tables and sends them in a single gRPC request using Arrow IPC.
Dies ist eine Visualisierungsbibliothek basierend auf der Grammar of Graphics, die verwendet wird, um Diagramme durch die Abbildung tabellarischer Daten auf visuelle Markierungen zu erstellen. Sie fungiert als SVG-Datenvisualisierungstool und API für explorative Datenanalyse, mit der Benutzer komplexe Visualisierungen und geografische Karten rendern können. Die Bibliothek verfügt über einen GeoJSON-Karten-Renderer, der sphärische Koordinaten in einen zweidimensionalen Pixelraum projiziert, sowie ein Apache-Arrow-Visualisierungsinterface für hocheffiziente Datenverarbeitung. Der Funktionsumfang umfasst Datentransformation durch Binning und Gruppierung, visuelle Kodierung durch automatische Skaleninferenz und Anwendung von Farbschemata sowie die Generierung von Small Multiples. Sie unterstützt das Rendern geometrischer Formen in geschichteten Ansichten und den Export statischer Bilder in serverseitigen Umgebungen.
Processes diverse input structures, including high-efficiency Apache Arrow tables, for optimized data visualization.
GluonTS ist ein Framework für probabilistische Zeitreihenprognosen, das darauf ausgelegt ist, zukünftige Werte als Wahrscheinlichkeitsverteilungen mit Konfidenzintervallen vorherzusagen. Es unterstützt sowohl das traditionelle Modelltraining als auch Zero-Shot-Forecasting, bei dem vortrainierte Modelle Vorhersagen für neue Serien ohne zusätzliches Training generieren. Das Projekt zeichnet sich durch die Integration einer Vielzahl von Prognoseansätzen in einen einheitlichen Workflow aus. Dies umfasst Deep-Learning-Architekturen wie rekurrente neuronale Netze und kausale Konvolutionen sowie die Integration externer statistischer Modelle, der Prophet-Bibliothek und R-Paketen. Das Toolkit bietet eine umfassende Oberfläche für das Zeitreihen-Data-Engineering, die Datensatzskalierung, -aufteilung und die Transformation roher Zeitdaten in Tensoren abdeckt. Es enthält zudem eine Suite von Evaluierungstools zur Messung von Prognosegenauigkeit und Unsicherheitsintervallen sowie Hilfsmittel zur Datensatzpersistenz unter Verwendung von Formaten wie Arrow und Parquet. Das Framework unterstützt die Bereitstellung von Prognosemodellen innerhalb der Cloud-Infrastruktur.
Transforms serialized Apache Arrow data back into time series formats with optional column reshaping.
GluonTS ist eine probabilistische Zeitreihenbibliothek und ein Deep-Learning-Prognose-Framework. Es bietet ein Toolkit zum Aufbau, Training und zur Evaluierung neuronaler Netzwerkarchitekturen, die zukünftige Werte als Wahrscheinlichkeitsverteilungen vorhersagen, um Unsicherheit zu quantifizieren. Das Projekt zeichnet sich durch die Unterstützung von Zero-Shot-Forecasting und die Integration diverser Modellierungsansätze aus, einschließlich tiefer probabilistischer neuronaler Netze und Wrapper für externe statistische Bibliotheken wie Prophet und R forecast. Es implementiert spezialisierte architektonische Primitiven wie kausale Konvolutionen und invertierbare Residual-Netzwerke, um Informationslecks zu verhindern und latente Repräsentationen in gültige Wahrscheinlichkeitsverteilungen abzubilden. Das Framework deckt eine umfassende Data-Engineering-Oberfläche ab, einschließlich Zeitreihenskalierung, bijektiver Transformationen und hierarchischer Modellierung. Es nutzt Apache Arrow und Parquet für hochperformantes Datensatz-Streaming und Random-Access-Management. Zur Modellbewertung enthält es eine Evaluierungssuite zur Messung von Prognosegenauigkeit und probabilistischer Abdeckung unter Verwendung von Metriken wie Quantile Loss und Continuous Rank Probability Scores. Die Bibliothek unterstützt die Modellbereitstellung durch Integration mit Amazon SageMaker.
Utilizes the Apache Arrow columnar memory format for high-performance data processing and streaming.
Diese C++-Datenvisualisierungsbibliothek ist ein wissenschaftliches Plotting-Framework, das zum Erstellen von 2D- und 3D-Diagrammen, Netzwerk-Graphen und geografischen Karten verwendet wird. Sie arbeitet als Multi-Backend-Grafikbibliothek, die High-Level-Plotting-Logik von Low-Level-Rendering-Engines entkoppelt, um verschiedene Ausgabe-Backends zu unterstützen. Das Projekt zeichnet sich durch eine Dual-Interface-API aus, die sowohl ein globales funktionales Interface für schnelles Prototyping als auch ein objektorientiertes Interface für präzise Kontrolle bietet. Es verfügt über eine Komponenten-basierte Layout-Engine zur Verwaltung gekachelter Grids und Subplots, neben einem Layered-Plot-State, der es ermöglicht, mehrere Datenserien zu überlagern, ohne Achsen zu löschen. Die Bibliothek deckt ein breites Spektrum an Visualisierungsfunktionen ab, einschließlich mathematischem Funktionsplotten, Vektorfeldern und multidimensionaler Datenanalyse durch Heatmaps und parallele Koordinaten. Sie enthält spezialisierte Tools für die Visualisierung geografischer Daten, wie Geobubble- und Geodensity-Plots, sowie Tools zum Rendern gerichteter und ungerichteter Graphennetzwerke. Zu den allgemeinen Funktionen gehören Achsenverwaltung, ästhetisches Styling mit Colormaps und der Export hochwertiger Grafiken. Das Projekt nutzt CMake für Build-Automatisierung und Dependency-Retrieval, um die Installation über verschiedene Betriebssysteme hinweg zu erleichtern.
Implements visual annotations such as directed arrows and text labels to highlight specific data points.
Fury ist ein sprachübergreifendes Framework für binäre Serialisierung, das für die Kodierung von Domänenobjekten und komplexen Graphen entwickelt wurde, um den Datenaustausch zwischen verschiedenen Sprachen zu erleichtern. Es enthält einen Compiler für eine Interface Definition Language (IDL), der Schemadefinitionen in idiomatische native Typen und Serialisierungs-Boilerplate über mehrere Sprachen hinweg übersetzt. Das Projekt zeichnet sich durch einen Zero-Copy-Binär-Reader aus, der den Zugriff auf spezifische Felder ermöglicht, ohne das gesamte Objekt zu deserialisieren, sowie durch einen Objekt-Graph-Serializer, der zirkuläre Referenzen und referenzielle Integrität bewahrt. Es enthält zudem einen Datenkonverter, der zeilenbasierte Binärdaten für analytische Workloads in spaltenbasierte Apache-Arrow-Formate transformiert. Das Framework deckt breite Funktionsbereiche ab, einschließlich metadatengesteuerter Schema-Evolution für Vorwärts- und Rückwärtskompatibilität, einen AOT-Kompilierungsprozess zur Eliminierung von Laufzeit-Reflektion und sichere Deserialisierung durch Whitelist-basierte Typvalidierung. Es bietet zudem Integration für hochperformante Remote Procedure Calls via gRPC.
Converts serialized row-based data into Apache Arrow columnar formats to enable high-performance analytical workloads.
Uptrace is an OpenTelemetry-based observability platform designed to collect, store, and analyze distributed traces, metrics, and logs. It functions as a centralized logging backend, a distributed tracing system, and a metrics engine to monitor application performance and system health. The platform is distinguished by AI-powered operational capabilities, allowing users to query telemetry data and manage monitoring dashboards using natural language. It specifically includes specialized monitoring for generative AI pipelines, tracking token usage and response quality for LLM interactions and r
Transports tracing, metrics, and logs using the OTel Arrow columnar format to reduce bandwidth consumption.