14 مستودعات
High-performance data processing utilizing the Apache Arrow columnar memory format.
Distinguishing note: Existing candidates were for ECharts or Thrift; no specific Apache Arrow processing tag existed in the shortlist.
Explore 14 awesome GitHub repositories matching data & databases · Apache Arrow Processing. Refine with filters or upvote what's useful.
Perspective is a columnar data analytics engine and high-performance visualization component powered by WebAssembly. It provides a system for analyzing and visualizing large or streaming datasets through interactive data grids and charts, utilizing a compiled binary to achieve near-native performance within the browser. The project distinguishes itself through a WebSocket-based data streaming interface and deep Apache Arrow integration, which minimize memory overhead when synchronizing tables between servers and clients. It acts as a remote query proxy capable of translating visualization con
Uses the high-performance Apache Arrow columnar memory format to transfer large datasets between servers and clients.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Implements chart annotations including arrows, brackets, callouts, and text labels to highlight specific data points.
Apache DataFusion is an extensible, columnar SQL query engine that runs embedded within a host application without requiring a separate server process. It processes data in columnar batches using Apache Arrow for memory-efficient analytics, and can scale analytic workloads across multiple nodes for parallel execution. The engine supports both SQL and DataFrame queries through a modular, streaming architecture that allows custom operators, data sources, functions, and optimizer rules. The engine distinguishes itself through its modular extension framework, which enables building custom query e
Stores and processes data in Apache Arrow's columnar format for zero-copy sharing and vectorized operations.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a high-performance DataFrame library based on the Apache Arrow columnar memory layout.
Fireworks Tech Graph is a tool that generates SVG and PNG technical diagrams from natural language descriptions, supporting both English and Chinese input. It produces publication-quality diagrams for AI architectures, UML types, and other technical domains without requiring manual drawing or diagramming syntax. The tool distinguishes itself through a semantic shape vocabulary and arrow-based flow encoding that conveys component roles and data flow types through consistent geometric shapes, stroke widths, dash patterns, and colors rather than relying on textual labels. It renders the same dia
Encodes flow types with line width, dash pattern, and color for clear communication in diagrams.
Feast is an open-source feature store for machine learning that provides a central platform for defining, storing, and serving features across both training and inference workflows. It operates as a declarative system where feature definitions are written as code in Python files, synchronized to a central registry, and made available for low-latency online retrieval or point-in-time correct historical joins for training datasets. The project abstracts storage behind a pluggable architecture, allowing offline and online backends to be swapped without changing retrieval logic, and coordinates ma
Converts retrieval job results into Apache Arrow tables for efficient columnar access.
ScottPlot is a cross-platform, high-performance charting library for .NET that renders interactive plots across desktop and web GUI frameworks including Windows Forms, WPF, MAUI, Avalonia, Blazor, and WinUI. It provides an optimized rendering engine capable of displaying millions of data points with interactive pan, zoom, and live data streaming, while also supporting image export to formats like PNG and SVG for file output, cloud applications, and notebooks. The library distinguishes itself through a comprehensive set of chart types including scatter, line, bar, pie, heatmap, financial, rada
Place an arrow pointing to a specific location in coordinate space, with extensive customization options.
GreptimeDB is a distributed, open-source time-series database built for unified observability. It stores and queries metrics, logs, and traces together in a single columnar engine, supporting both SQL and PromQL for analysis. The database is designed as a Kubernetes-native operator with a decoupled compute and storage architecture, enabling horizontal scaling and multi-region deployment. What distinguishes GreptimeDB is its role as a multi-protocol ingestion gateway, accepting data through OpenTelemetry, Prometheus Remote Write, InfluxDB, Loki, Elasticsearch, Kafka, and MQTT protocols without
Aggregates multiple tables and sends them in a single gRPC request using Arrow IPC.
هذه مكتبة تصور لقواعد الرسومات تُستخدم لبناء المخططات عن طريق تعيين البيانات الجدولية إلى علامات مرئية. تعمل كأداة تصور بيانات SVG وواجهة برمجة تطبيقات لتحليل البيانات الاستكشافية، مما يسمح للمستخدمين بتقديم تصورات معقدة وخرائط جغرافية. تتميز المكتبة بمُصيّر خرائط GeoJSON الذي يسقط الإحداثيات الكروية في مساحة بكسل ثنائية الأبعاد وواجهة تصور Apache Arrow لمعالجة البيانات بكفاءة عالية. تغطي قدراتها تحويل البيانات من خلال التجميع (binning) والتصنيف، والترميز المرئي عبر استنتاج المقياس التلقائي وتطبيق نظام الألوان، وتوليد مضاعفات صغيرة. تدعم تقديم الأشكال الهندسية في طرق عرض ذات طبقات وتصدير الصور الثابتة في بيئات جانب الخادم.
Processes diverse input structures, including high-efficiency Apache Arrow tables, for optimized data visualization.
GluonTS هو إطار عمل للتنبؤ بالسلاسل الزمنية الاحتمالية، مصمم للتنبؤ بالقيم المستقبلية كتوزيعات احتمالية مع فترات ثقة. يدعم كلاً من تدريب النموذج التقليدي والتنبؤ بدون تدريب مسبق (zero-shot)، حيث تولد النماذج المدربة مسبقاً تنبؤات لسلاسل جديدة دون تدريب إضافي. يتميز المشروع بدمج مجموعة واسعة من نهج التنبؤ في سير عمل موحد. يتضمن ذلك بنى التعلم العميق مثل الشبكات العصبية المتكررة والالتفافات السببية، بالإضافة إلى دمج النماذج الإحصائية الخارجية، ومكتبة Prophet، وحزم R. توفر مجموعة الأدوات سطحاً شاملاً لهندسة بيانات السلاسل الزمنية، وتغطي توسيع مجموعة البيانات، والتقسيم، وتحويل البيانات الزمنية الخام إلى موترات (tensors). كما تتضمن مجموعة من أدوات التقييم لقياس دقة التنبؤ وفترات عدم اليقين، بالإضافة إلى أدوات لاستمرارية مجموعة البيانات باستخدام تنسيقات مثل Arrow و Parquet. يدعم إطار العمل نشر نماذج التنبؤ داخل البنية التحتية السحابية.
Transforms serialized Apache Arrow data back into time series formats with optional column reshaping.
GluonTS هي مكتبة سلاسل زمنية احتمالية وإطار عمل للتنبؤ بالتعلم العميق. توفر مجموعة أدوات لبناء وتدريب وتقييم بنى الشبكات العصبية التي تتنبأ بالقيم المستقبلية كتوزيعات احتمالية لتحديد عدم اليقين. يتميز المشروع بدعم التنبؤ بدون تدريب مسبق (zero-shot) ودمج نهج نمذجة متنوعة، بما في ذلك الشبكات العصبية الاحتمالية العميقة وأغلفة للمكتبات الإحصائية الخارجية مثل Prophet و R forecast. ينفذ بدائيات معمارية متخصصة مثل الالتفافات السببية والشبكات المتبقية القابلة للعكس لمنع تسرب المعلومات وتعيين التمثيلات الكامنة في توزيعات احتمالية صالحة. يغطي إطار العمل سطح هندسة بيانات شاملاً، بما في ذلك توسيع السلاسل الزمنية، والتحويلات التقابلية، والنمذجة الهرمية. يستخدم Apache Arrow و Parquet لبث مجموعة البيانات عالي الأداء وإدارة الوصول العشوائي. لتقييم النموذج، يتضمن جناح تقييم لقياس دقة التنبؤ والتغطية الاحتمالية باستخدام مقاييس مثل خسارة الكمية ودرجات رتبة الاحتمال المستمرة. تدعم المكتبة نشر النموذج من خلال التكامل مع Amazon SageMaker.
Utilizes the Apache Arrow columnar memory format for high-performance data processing and streaming.
This C++ data visualization library is a scientific plotting framework used to create 2D and 3D charts, network graphs, and geographic maps. It operates as a multi-backend graphics library, decoupling high-level plotting logic from low-level rendering engines to support various output backends. The project distinguishes itself with a dual-interface API, providing both a global functional interface for rapid prototyping and an object-oriented interface for precise control. It features a component-based layout engine for managing tiled grids and subplots, alongside a layered plot state that all
Implements visual annotations such as directed arrows and text labels to highlight specific data points.
Fury هو إطار عمل تسلسلي ثنائي متعدد اللغات مصمم لتشفير كائنات المجال والرسوم البيانية المعقدة لتسهيل تبادل البيانات عبر اللغات. يتضمن مترجم لغة تعريف الواجهة (IDL) الذي يترجم تعريفات المخطط إلى أنواع أصلية اصطلاحية ونصوص تسلسلية عبر لغات متعددة. يتميز المشروع بقارئ ثنائي بدون نسخ (zero-copy) يسمح بالوصول إلى حقول محددة دون إلغاء تسلسل الكائن بالكامل، بالإضافة إلى مسلسل رسوم بيانية للكائنات يحافظ على المراجع الدائرية وسلامة المراجع. كما يتميز بمحول بيانات يحول البيانات الثنائية القائمة على الصفوف إلى تنسيقات Apache Arrow القائمة على الأعمدة لأحمال العمل التحليلية. يغطي إطار العمل مجالات قدرة واسعة بما في ذلك تطور المخطط القائم على البيانات الوصفية للتوافق للأمام وللخلف، وعملية تجميع AOT في وقت البناء للقضاء على الانعكاس في وقت التشغيل، وإلغاء التسلسل الآمن عبر التحقق من النوع القائم على القائمة البيضاء. كما يوفر تكاملاً لاستدعاءات الإجراءات عن بُعد عالية الأداء من خلال gRPC.
Converts serialized row-based data into Apache Arrow columnar formats to enable high-performance analytical workloads.
Uptrace is an OpenTelemetry-based observability platform designed to collect, store, and analyze distributed traces, metrics, and logs. It functions as a centralized logging backend, a distributed tracing system, and a metrics engine to monitor application performance and system health. The platform is distinguished by AI-powered operational capabilities, allowing users to query telemetry data and manage monitoring dashboards using natural language. It specifically includes specialized monitoring for generative AI pipelines, tracking token usage and response quality for LLM interactions and r
Transports tracing, metrics, and logs using the OTel Arrow columnar format to reduce bandwidth consumption.