14 مستودعات
High-performance utilities designed for importing massive datasets into database clusters.
Distinguishing note: Focuses on high-volume, large-scale ingestion performance, distinct from general-purpose data import.
Explore 14 awesome GitHub repositories matching data & databases · Bulk Data Loading. Refine with filters or upvote what's useful.
TiDB is a horizontally scalable, distributed SQL database designed to provide consistent transactional storage and high-performance analytical processing within a single unified architecture. It utilizes a decoupled compute-storage design and a distributed key-value storage layer to ensure horizontal scalability and efficient range-based queries. By employing a consensus-based replication algorithm, the system maintains high availability and automatic failover across multiple nodes and geographical regions. The platform distinguishes itself through its hybrid transactional and analytical proc
TiDB loads high volumes of data into database clusters from various file formats to support rapid data ingestion and large-scale migration projects.
This project is a feature-rich Go client library designed for interacting with Redis. It serves as a comprehensive interface for managing remote data stores, enabling developers to execute standard database commands, handle complex data structures, and perform asynchronous operations within Go applications. The library distinguishes itself through its support for advanced Redis capabilities, including connection pooling, pipelining, and transactional integrity. It provides specialized primitives for managing distributed clusters, including automated topology updates and request routing to sha
Executes bulk command sequences to efficiently populate or update database entries.
Prefect is a workflow orchestration platform designed to define, schedule, and monitor complex data pipelines as Python code. It functions as a container-native engine that wraps individual tasks in isolated environments, ensuring consistent dependencies and resource allocation across diverse infrastructure. By utilizing a state-machine-based orchestration model, the system tracks execution progress through discrete transitions and persistent event logs to maintain reliable and observable task processing. The platform distinguishes itself through a decoupled worker-API architecture, which sep
Imports data from local files or cloud storage into database tables with schema validation.
Cayley is a graph database engine designed for storing and querying interconnected data using a quad-based data model. It functions as an RDF quad store, managing information through subjects, predicates, objects, and labels. The system features a modular graph store architecture with pluggable backends, allowing it to swap between in-memory storage and various external persistent databases. It includes a GraphQL-inspired API and a dedicated data visualizer for the interactive exploration of nodes and edges. Query capabilities cover bidirectional path traversal and multi-syntax execution usi
Provides high-performance utilities for batch importing massive datasets into the graph store.
YugabyteDB is a distributed SQL database and relational data store designed for horizontal scalability and high availability across multiple nodes or regions. It functions as a cloud-native system that ensures continuous availability and supports PostgreSQL compatible query languages and drivers. The system includes specialized capabilities as a vector database for AI, utilizing high-dimensional indexing to perform similarity searches. It is engineered as a multi-region cloud database that synchronizes data across different geographic locations to maintain global availability. The project co
Includes high-performance utilities for bulk loading massive datasets into the database cluster.
Redis is a high-performance in-memory key-value store that functions as a distributed cache, message broker, and NoSQL database. It provides sub-millisecond read and write access to data stored in RAM and can operate as a vector database for indexing high-dimensional embeddings. The system supports a wide range of data storage and synchronization primitives, including the management of strings, hashes, lists, sets, and JSON documents. It enables real-time data operations through atomic transactions, hybrid persistence using snapshots and append-only logs, and high-availability configurations
Uses specialized serialization protocols to stream massive datasets into the store with minimal latency.
pq is a PostgreSQL driver for Go that implements the standard database/sql interface. It serves as a connection library and protocol implementation that translates application data types into the binary and text formats required by PostgreSQL. The project provides specialized utilities for high-performance data ingestion using bulk data loading and a dedicated bulk data importer. It also features an implementation for listening to asynchronous server notifications and provides tools for connection load balancing across multiple hosts and ports. The driver covers a broad surface of database i
Ships high-performance bulk loading capabilities to stream multiple rows into tables with minimal overhead.
RisingWave is a cloud-native streaming database and real-time analytics engine that uses standard SQL to process continuous data streams. It functions as a streaming data lakehouse, combining the capabilities of a streaming SQL database with a platform that integrates streaming ingestion with open table formats. The system is distinguished by its use of the PostgreSQL wire protocol, allowing it to integrate with existing SQL tools and drivers. It employs a decoupled compute and storage architecture, persisting streaming state and materialized views in cloud object storage to enable independen
Provides high-performance utilities for importing massive historical datasets and static files from cloud storage.
Pentaho Kettle هو منصة مؤسسية لدمج البيانات (ETL) مصممة لاستخراج وتحويل وتحميل البيانات بين المصادر المتباينة وقواعد البيانات المستهدفة. يعمل كمنظم قائم على البيانات الوصفية يستخدم مصمماً مرئياً لسير العمل لإنشاء وإدارة تسلسلات معقدة من مهام البيانات وخطوط أنابيب التحويل. يتميز النظام بمحرك معالجة بيانات موزع، يقوم بتنفيذ أعباء العمل عبر مجموعات من عقد الخادم لزيادة الإنتاجية. يستخدم بنية قائمة على الإضافات، مما يسمح بتوسيع المنصة عبر ملفات JAR خارجية لتوفير الاتصال بقواعد بيانات وخدمات سحابية متنوعة. تغطي المنصة مجموعة واسعة من قدرات دمج البيانات، بما في ذلك التحميل بالجملة، وإدارة الملفات عن بُعد، وتحويل هيكل البيانات. توفر أدوات للتحقق من جودة البيانات، وأتمتة خطوط الأنابيب، وإدارة دورة حياة الوظائف، إلى جانب أدوات مراقبة لتتبع صحة الخادم وحالة التنفيذ في الوقت الفعلي.
Provides high-performance utilities for efficiently transferring large volumes of records into target databases.
pgloader is a command-line tool that automates the migration of data and schema from various source databases and file formats into PostgreSQL. It combines schema discovery, parallel data pipelines, and type casting into a single, declarative workflow, using PostgreSQL's COPY protocol for high-throughput bulk loading. The tool distinguishes itself by compiling a dedicated command language into concurrent reader-writer pipelines that handle schema introspection, data transformation, and error-resilient batch processing. It supports migrating entire databases from MySQL, MS SQL, SQLite, and Pos
Migrates data from various database and file formats into PostgreSQL using the COPY command.
GraphQL-Ruby هو مكتبة Ruby لبناء واجهات برمجة تطبيقات GraphQL بمخطط مكتوب بقوة ومحرك تنفيذ استعلام مخصص. يوفر إطار عمل شاملاً لربط كائنات التطبيق بنظام أنواع رسمي، مما يتيح جلب البيانات المهيكلة من خلال أدوات حل (Resolvers) محددة. يتميز المشروع بآليات متقدمة للأداء والتسليم، بما في ذلك محمل بيانات (Data Loader) للتجميع والتخزين المؤقت لمنع أنماط استعلام N+1. يدعم تسليم البيانات عالي الأداء من خلال بث الاستجابة التزايدي، واستجابات الاستعلام المؤجلة، وجلب البيانات المتوازي باستخدام الألياف (Fibers). بالإضافة إلى ذلك، يوفر دعماً أصلياً لاتفاقيات Relay، بما في ذلك مساعدين متخصصين للاتصالات وتحديد الكائنات. تغطي المكتبة مساحة واسعة من إدارة واجهة برمجة التطبيقات، وتتميز بالتحكم الدقيق في الوصول، وإصدار المخطط للحفاظ على التوافق مع الإصدارات السابقة، والتحديثات في الوقت الفعلي عبر الاشتراكات. كما تتضمن أدوات إدارة حركة المرور لحماية موارد الخادم، مثل تحديد تعقيد الاستعلام وتحديد معدل الطلب. يتم دعم التطوير وقابلية المراقبة من خلال أدوات تحليل AST، وتتبع التنفيذ، وأدوات اختبار متخصصة للتحقق من التحميل المجمع.
Collects multiple data requirements across the execution tree to fetch them in bulk and eliminate redundant requests.
Ignite هي منصة موزعة للبيانات والحوسبة في الذاكرة. تعمل كقاعدة بيانات SQL موزعة ومحرك تخزين مصمم لتخزين ومعالجة مجموعات البيانات الكبيرة في RAM لتقليل التأخير وزيادة سرعة الحساب. يتميز النظام بمحرك تخزين متعدد المستويات يدير وضع البيانات عبر الذاكرة والقرص لموازنة الوصول عالي السرعة مع السعة الكبيرة. يتميز بشبكة حوسبة موزعة تنفذ منطقاً مخصصاً مباشرة على العقد التي توجد فيها البيانات لتقليل حركة مرور الشبكة. توفر المنصة مجموعة واسعة من القدرات بما في ذلك إدارة معاملات ACID، واستعلام SQL القياسي، وعمليات القيمة المفتاحية. تدعم استيعاب البيانات بكميات كبيرة عبر التدفقات التفاعلية وتوفر دمجاً عبر لغات برمجة متعددة، وبرامج تشغيل قواعد بيانات قياسية، وواجهة برمجة تطبيقات REST. يمكن نشر النظام كمجموعة موزعة باستخدام حاويات أو تنسيقه عبر Kubernetes. تمت كتابة المشروع بلغة Java ويمكن تثبيته عبر أرشيفات ثنائية.
Implements high-performance utilities for importing massive datasets using reactive streams and backpressure.
هذا المشروع عبارة عن طبقة وصول إلى بيانات SQL ومولد مخطط يسمح بقراءة وكتابة السجلات في قواعد البيانات العلائقية من خلال التعامل مع الجداول كهياكل بيانات بسيطة. يعمل كمولد مخطط تلقائي ينشئ جداول وأعمدة قاعدة البيانات أثناء التنقل بناءً على هيكل البيانات الواردة. توفر الأداة محملاً مجمعاً عالي الأداء يستورد مجموعات بيانات كبيرة باستخدام معاملات ذرية مجمعة لضمان اتساق البيانات. كما تتضمن آلية upsert للسجلات تحدد ما إذا كان سيتم تحديث صف موجود أو إدراج صف جديد بناءً على معرفات فريدة. يغطي النظام إدارة المخطط الديناميكي، بما في ذلك حل الأعمدة الضمني وتوفير الجداول. كما يوفر واجهة استعلام قائمة على المجموعة لاسترجاع السجلات أو استخراج قيم فريدة دون كتابة استعلامات يدوية.
Efficiently importing large sets of records into a database using bulk loading and transaction support.
linq2db is a type-safe object-relational mapper that translates LINQ expressions into optimized SQL queries for multiple database providers. It functions as a database mapper that links classes to tables and includes a SQL query builder and a command-line schema tool for generating data classes from existing databases. The project provides high-performance bulk data processing for inserting and loading large volumes of records via batch or binary copy methods. It also supports advanced SQL operations, including window functions, common table expressions for recursive hierarchical querying, an
Provides high-performance utilities for importing massive datasets from external sources into database tables.