16 مستودعات
Support for non-scalar data structures like maps and unions.
Distinguishing note: Focuses on schema flexibility rather than general data ingestion.
Explore 16 awesome GitHub repositories matching data & databases · Complex Data Types. Refine with filters or upvote what's useful.
DuckDB is an in-process analytical database engine designed to run directly within an application process. As a zero-dependency, embedded system, it provides enterprise-grade SQL data processing capabilities without the overhead of managing a dedicated database server. It is built to handle complex analytical and aggregation tasks by storing and retrieving information in columns, allowing for high-performance relational data manipulation. The engine distinguishes itself through a columnar vectorized execution model that maximizes CPU cache efficiency during query operations. It employs adapti
Supports intricate data structures using specialized types for nested or heterogeneous information.
This project is a cross-platform development framework and managed runtime environment designed for building high-performance applications. It provides a comprehensive toolkit for constructing web services, cloud-native microservices, and desktop applications, utilizing a unified runtime that handles memory management and execution across diverse operating systems. The framework distinguishes itself through a native ahead-of-time compilation toolchain that transforms source code into optimized, self-contained machine code binaries. This capability enables fast startup times and reduced memory
Supports complex data structures like union types and collection expressions to simplify data modeling.
TOML is a configuration file format designed for human readability and unambiguous mapping to hash tables. It serves as a standardized language for structured data, enabling consistent parsing and data exchange across diverse programming environments. The format distinguishes itself through a strict type-system specification that ensures data is interpreted identically regardless of the implementation. It utilizes a line-oriented lexical structure that supports both hierarchical organization through bracketed sections and compact inline embedding for nested objects. This approach allows for t
Encodes diverse data types including multi-line strings, scientific numbers, and temporal values.
Presto is a distributed SQL query engine designed for high-performance analytical processing across heterogeneous data sources. It functions as a data federation platform and massively parallel processing engine, allowing users to execute interactive queries against diverse storage systems without requiring data migration. By mapping remote metadata and structures to a unified relational namespace, it enables seamless cross-platform analysis through a standard SQL interface. The engine distinguishes itself through a pluggable connector architecture and a shared-nothing distributed processing
Organizes information into arrays, maps, and nested structures to support complex data models within SQL queries.
RisingWave is a cloud-native streaming database and real-time analytics engine that uses standard SQL to process continuous data streams. It functions as a streaming data lakehouse, combining the capabilities of a streaming SQL database with a platform that integrates streaming ingestion with open table formats. The system is distinguished by its use of the PostgreSQL wire protocol, allowing it to integrate with existing SQL tools and drivers. It employs a decoupled compute and storage architecture, persisting streaming state and materialized views in cloud object storage to enable independen
Supports a wide range of standard SQL types, including arbitrary precision decimals and large integers.
RedisInsight is a graphical user interface and management tool for browsing, analyzing, and administering Redis databases. It provides a visual environment for exploring key-value data structures, managing database instances, and performing data analysis across different operating systems and deployments. The tool distinguishes itself by providing dedicated visual managers for complex operations, including a vector database manager for configuring embeddings and similarity searches, a query workbench for executing raw commands and Lua scripts, and a performance monitoring dashboard for tracki
Manages diverse and complex data formats including JSON documents, time series, and probabilistic types.
asyncpg is an asynchronous database driver and binary protocol client for PostgreSQL. It provides a non-blocking interface for executing SQL statements, streaming result sets, and managing data transfer between an application and a PostgreSQL database. The driver implements the PostgreSQL binary protocol directly to facilitate efficient data transfer and type conversion. It includes a connection pool to maintain and reuse open database connections, reducing the latency associated with repeated handshakes. The project covers a broad range of database integration capabilities, including atomic
Encodes and decodes composite types, arrays, and custom formats between the database and application.
MessagePack is a binary object serialization library and a cross-platform data exchange format. It serves as a binary alternative to JSON, converting structured data into a space-efficient binary representation for network transmission and storage. The system provides a standardized format for swapping complex data types across different programming languages and architectures. It allows for the definition of custom data type encoding by pairing application-specific information with specialized serialization markers. The library handles the encoding and decoding of diverse data types, includ
Defines specialized binary formats for application-specific data structures using extendable serialization markers.
jOOQ is a type-safe SQL query builder for Java that generates code from live database schemas, enabling compile-time validation of SQL syntax and data types. Its core identity is built around a fluent DSL that mirrors SQL structure, a code generator that maps tables, views, and routines to Java objects, and a multi-dialect engine that translates the same DSL into vendor-specific SQL for over 30 databases. The project also includes a SQL parser and transformer for refactoring or dialect conversion, reactive stream integration for non-blocking query execution, and a JDBC proxy diagnostics tool f
Wraps multiple database columns into a single client-side value object for type-safe composite data handling.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Processes and flattens nested JSON or stream document fields to make complex data structures queryable.
Octosql هو محرك استعلامات SQL موزع، ومحول بيانات، ومعالج SQL للبث المباشر. يتيح للمستخدمين تنفيذ استعلامات SQL واحدة عبر مصادر بيانات متعددة ومتباينة، بما في ذلك أنواع قواعد البيانات المختلفة وتنسيقات الملفات، لدمج النتائج وتحويلها إلى مجموعة بيانات موحدة. يتميز النظام بمعاملة ملفات CSV وJSONLines وParquet كجداول افتراضية، ويستخدم بنية تعتمد على الإضافات (plugins) لتوسيع الاتصال بمحركات التخزين الخارجية. يعمل كمعالج للبث المباشر لتدفقات البيانات غير المحدودة، مستخدماً العلامات المائية (watermarks) وعمليات التراجع (retractions) والنوافذ الزمنية (tumbling windows) للحفاظ على الاتساق في الأحداث غير المرتبة. بالإضافة إلى ذلك، يعمل كمولد بيانات SQL قادر على إنتاج مجموعات بيانات اصطناعية وتدفقات سجلات عبر دوال ذات قيم جدولية. يتضمن المحرك قدرات لربط البيانات عبر مصادر متعددة والتحليل متعدد المصادر، مع تحسين الأداء عبر دفع التنبؤات (predicate push-down) إلى جانب المصدر لتقليل نقل البيانات. يدير النظام البيانات المعقدة من خلال نظام أنواع ثابت (static type system) مع أنواع اتحادية (union types) ويوفر إمكانية المراقبة عبر تصور خطط تنفيذ الاستعلامات.
Utilizes a static type system to manage complex data structures like union types within columns.
هذا المشروع عبارة عن برنامج تعليمي شامل لتحليل بيانات pandas ودليل تعليمي مصمم لتعلم معالجة البيانات وتحليلها. يعمل كدليل لمعالجة البيانات الجدولية ودليل لتحليل السلاسل الزمنية، مما يوفر نهجاً منظماً لتنظيف ودمج وتحويل مجموعات البيانات. يعمل المستودع كدورة هندسة ميزات البيانات، حيث يوفر برامج تعليمية حول بناء واختيار ميزات مجموعة البيانات لتحسين أداء نموذج التعلم الآلي. كما يتضمن دليل عمليات البيانات المتجهة لإجراء حسابات رياضية على مستوى العناصر ومعالجات المصفوفة. تغطي المادة مجموعة واسعة من القدرات بما في ذلك سير عمل تنظيف البيانات، ومهام تكامل البيانات، وتحليل البيانات الجدولية. يوفر توجيهاً حول معالجة المعلومات النصية، والتعامل مع البيانات الفئوية، وتحسين سرعة التنفيذ لمجموعات البيانات الكبيرة. يتم تسليم المشروع كسلسلة من Jupyter Notebooks التي تحتوي على تمارين عملية ومشاكل ممارسة مستهدفة.
Provides specialized techniques for managing timestamps, date offsets, and categorical variables.
هذا المشروع عبارة عن دليل شامل ومورد تعليمي للغة TypeScript. يغطي المبادئ الأساسية للغة، بما في ذلك نظام الأنواع الهيكلي، وتحليل الأنواع الساكن، وعملية تحويل ملفات المصدر المكتوبة بأنواع إلى JavaScript. تفصل المادة كيفية نمذجة البيانات المعقدة ومنطق الأنواع القابل لإعادة الاستخدام باستخدام الأنواع العامة (generics)، والأنواع الشرطية، والأنواع المعينة. كما يشرح استخدام ملفات الإعلان لتوفير سلامة الأنواع لمكتبات JavaScript الخارجية ودمج فحص الأنواع في مشاريع JavaScript الحالية عبر تعليقات JSDoc. يمتد نطاق المحتوى إلى أنماط البرمجة كائنية التوجه، ومعالجة DOM، وتكوين سلوكيات المترجم. يتضمن توجيهاً حول إدارة قابلية التشغيل البيني للوحدات، وإعداد خطوط أنابيب البناء، واستخدام ذكاء المحرر لتحسين إنتاجية المطور.
Provides techniques for creating reusable structures and shorthand aliases to model complex data shapes.
H2 is a JDBC-compliant relational database management system written in Java. It functions as an embeddable SQL database that can run directly within an application process to remove network latency, or as an in-memory database for high-performance volatile storage. It also includes a web-based console for executing SQL commands and administering schemas. The system is characterized by its flexible deployment modes, including a standalone server mode for remote TCP/IP access and a mixed mode for simultaneous local and remote connectivity. It features a dialect emulation layer and compatibilit
Supports non-scalar data structures including JSON, UUIDs, and enumerated types.
Hive هي قاعدة بيانات NoSQL خفيفة الوزن للمفاتيح والقيم مكتوبة بلغة Dart الخالصة لاستمرارية البيانات المحلية. تعمل كمخزن مستندات آمن للأنواع يسمح بحفظ واسترجاع هياكل البيانات المعقدة والكائنات المخصصة. يتميز النظام باستخدام محولات مخصصة لتسلسل الكائنات وتشفير المفتاح المتماثل لتأمين البيانات في حالة السكون. بالنسبة لبيئات الويب، يوفر طبقة استمرارية تغلف IndexedDB وتستخدم عمال الويب (web workers). يغطي المشروع مجالات إمكانيات واسعة بما في ذلك إدارة الحاويات، وعمليات الكتابة الذرية للمعاملات، واسترجاع البيانات المفهرسة. يدعم تفريغ عمليات قاعدة البيانات إلى عزلات (isolates) خلفية للحفاظ على استجابة واجهة المستخدم ويسمح بتهيئة حاويات التخزين عبر أصول ثنائية مملوءة مسبقاً.
Supports storing non-scalar data structures such as lists and maps while maintaining data integrity.
TypeGPU is a tool for type-safe WebGPU development that enables writing shaders in TypeScript. It translates high-level TypeScript function definitions and structures into WebGPU Shading Language source code to automate shader generation and validate logic using a type system. The project provides a mechanism for cross-library GPU interoperability by sharing typed buffers without copying data to system memory. It also integrates the Model Context Protocol to allow AI agents to inspect generated shader code and diagnose runtime errors. The system manages WebGPU resource mapping through typed
Translates complex data structures into typed binary formats to ensure correct memory alignment during CPU-to-GPU transfer.