18 مستودعات
Logic for modifying the structure and values of specific data columns within a dataset.
Distinct from Field Manipulation APIs: Closet candidates are either UI-focused or narrow API methods; this is a general data processing capability.
Explore 18 awesome GitHub repositories matching data & databases · Field Transformations. Refine with filters or upvote what's useful.
Keystone Classic is a Node.js headless content management system and web application framework. It provides a database schema framework for defining structured data models and validation rules to organize information. The system automatically generates a responsive administrative dashboard based on predefined data models and database fields, allowing for content management and record editing without custom administration code. The framework covers identity and security through session state management and password encryption. It includes capabilities for request routing, form submission proc
Allows modifying or formatting data using specialized methods before it is saved to or retrieved from the database.
Miller is a command-line data processor used for filtering, transforming, and aggregating name-indexed tabular data. It functions as a tool for querying and reshaping records across multiple file formats, serving as a converter between CSV, JSON, and YAML. The tool distinguishes itself by using a name-indexed data model, allowing users to manipulate fields by name rather than numeric position. It utilizes single-pass streaming algorithms to compute statistics and summaries on large datasets that exceed available system memory. Its capabilities cover data transformation and analysis, includin
Modifies datasets by removing unwanted columns or calculating new fields using logical expressions.
SeaTunnel is a distributed data integration engine designed to synchronize structured and unstructured data across diverse sources and sinks. It functions as a multi-engine execution framework that can run data integration tasks across different distributed computing backends to optimize workload performance. The project is distinguished by a visual data pipeline designer for configuring workflows without manual code and a specialized change data capture tool for streaming incremental database updates. It also includes an enrichment pipeline that integrates large language models and embedding
Supports renaming or replacing specific fields within a record to align source schemas with destination requirements.
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Applies user-defined mapping functions to modify, enrich, or clean individual dataset fields.
csvkit is a composable Unix-style command-line toolkit for converting, filtering, and analyzing CSV files directly from the terminal. It provides a suite of focused single-purpose commands that can be combined via pipes to build complex data processing workflows, with a modular architecture that includes a column-type inference engine for automatically detecting data types and a streaming-pipeline design for efficient handling of tabular data. The toolkit distinguishes itself through its SQL-engine abstraction layer, which allows users to run SQL queries directly against CSV files without req
Displays column names, data types, and sample values to help understand a CSV file's structure.
pgloader is a command-line tool that automates the migration of data and schema from various source databases and file formats into PostgreSQL. It combines schema discovery, parallel data pipelines, and type casting into a single, declarative workflow, using PostgreSQL's COPY protocol for high-throughput bulk loading. The tool distinguishes itself by compiling a dedicated command language into concurrent reader-writer pipelines that handle schema introspection, data transformation, and error-resilient batch processing. It supports migrating entire databases from MySQL, MS SQL, SQLite, and Pos
Applies per-column options such as date format parsing, null-value substitution, and whitespace trimming during CSV loading.
RediSearch is a Redis module that adds secondary indexing, full-text search, aggregation, and vector similarity search directly into the in-memory data store. It operates as an in-process search engine, extending the core key-value store with capabilities for indexing hash and JSON documents, enabling fast field-level lookups beyond primary key access. The module provides a full-text search engine built on inverted indexes, supporting stemming, fuzzy matching, and relevance scoring via tf-idf. It also includes a vector similarity search engine using a Hierarchical Navigable Small World graph
Computes new field values from existing ones using arithmetic expressions and built-in functions in the aggregation pipeline.
attrs is a Python library that automatically generates initialization, representation, equality, hashing, and ordering methods from declarative class attribute definitions. At its core, it provides a class decorator metaprogramming framework that intercepts class creation to rewrite the class body, producing dunder methods without manual boilerplate. The library includes a comprehensive attribute validation toolkit with built-in validators for type checks, range constraints, regex matching, length limits, and logical composition of validation rules. The library distinguishes itself through it
Supports generator functions as field transformers during class creation.
GluonTS هو إطار عمل للتنبؤ بالسلاسل الزمنية الاحتمالية، مصمم للتنبؤ بالقيم المستقبلية كتوزيعات احتمالية مع فترات ثقة. يدعم كلاً من تدريب النموذج التقليدي والتنبؤ بدون تدريب مسبق (zero-shot)، حيث تولد النماذج المدربة مسبقاً تنبؤات لسلاسل جديدة دون تدريب إضافي. يتميز المشروع بدمج مجموعة واسعة من نهج التنبؤ في سير عمل موحد. يتضمن ذلك بنى التعلم العميق مثل الشبكات العصبية المتكررة والالتفافات السببية، بالإضافة إلى دمج النماذج الإحصائية الخارجية، ومكتبة Prophet، وحزم R. توفر مجموعة الأدوات سطحاً شاملاً لهندسة بيانات السلاسل الزمنية، وتغطي توسيع مجموعة البيانات، والتقسيم، وتحويل البيانات الزمنية الخام إلى موترات (tensors). كما تتضمن مجموعة من أدوات التقييم لقياس دقة التنبؤ وفترات عدم اليقين، بالإضافة إلى أدوات لاستمرارية مجموعة البيانات باستخدام تنسيقات مثل Arrow و Parquet. يدعم إطار العمل نشر نماذج التنبؤ داخل البنية التحتية السحابية.
Converts date-based start fields into standardized periods using specific observation frequencies.
GluonTS هي مكتبة سلاسل زمنية احتمالية وإطار عمل للتنبؤ بالتعلم العميق. توفر مجموعة أدوات لبناء وتدريب وتقييم بنى الشبكات العصبية التي تتنبأ بالقيم المستقبلية كتوزيعات احتمالية لتحديد عدم اليقين. يتميز المشروع بدعم التنبؤ بدون تدريب مسبق (zero-shot) ودمج نهج نمذجة متنوعة، بما في ذلك الشبكات العصبية الاحتمالية العميقة وأغلفة للمكتبات الإحصائية الخارجية مثل Prophet و R forecast. ينفذ بدائيات معمارية متخصصة مثل الالتفافات السببية والشبكات المتبقية القابلة للعكس لمنع تسرب المعلومات وتعيين التمثيلات الكامنة في توزيعات احتمالية صالحة. يغطي إطار العمل سطح هندسة بيانات شاملاً، بما في ذلك توسيع السلاسل الزمنية، والتحويلات التقابلية، والنمذجة الهرمية. يستخدم Apache Arrow و Parquet لبث مجموعة البيانات عالي الأداء وإدارة الوصول العشوائي. لتقييم النموذج، يتضمن جناح تقييم لقياس دقة التنبؤ والتغطية الاحتمالية باستخدام مقاييس مثل خسارة الكمية ودرجات رتبة الاحتمال المستمرة. تدعم المكتبة نشر النموذج من خلال التكامل مع Amazon SageMaker.
Implements logic for modifying the structure and values of specific data columns within a dataset.
Vega-Lite is a high-level declarative language for specifying interactive, multi-view visualizations. It compiles a concise JSON specification into a full Vega visualization, automatically inferring scales, axes, and legends from encoding declarations. The grammar-of-graphics encoding maps data fields to visual channels such as position, color, size, and shape, while a multi-view composition grammar enables layered, faceted, concatenated, and repeated layouts. Reactive parameter binding links named parameters to input widgets, selections, and expressions for dynamic updates. The project suppo
Vega-Lite creates a new field in each data record by evaluating a formula expression against existing fields.
Mimesis هو مولد بيانات اصطناعية بلغة Python يستخدم لإنشاء مجموعات بيانات وهمية واقعية وبيانات تجريبية لاختبار البرمجيات وتطويرها. يعمل كمولد مجموعات بيانات قائم على المخطط (Schema) قادر على إنتاج سجلات منظمة ومجموعات بيانات علائقية، بينما يعمل أيضاً كمخفي بيانات للإنتاج لاستبدال المعلومات الحساسة بقيم اصطناعية. تتميز المكتبة بدعم شامل متعدد اللغات، مما يسمح بإنشاء معلومات خاصة بالموقع لمحاكاة ملفات تعريف المستخدمين الإقليمية. وتضمن إمكانية التكرار من خلال توليد البيانات الحتمية باستخدام البذور (Seeds)، مما يتيح إنشاء مجموعات بيانات متسقة عبر عمليات تشغيل مختلفة. تغطي الأداة مجموعة واسعة من المحتوى الاصطناعي، بما في ذلك الهوية الشخصية، والبيانات المالية، والعناوين الجغرافية، وبيانات الشبكة الوصفية، والتسلسلات العلمية. وتمتد قدراتها إلى تحويل البيانات من خلال المنطق الشرطي والأنابيب (Piping)، بالإضافة إلى التكامل مع إطارات البيانات (Dataframes) وأنماط المصنع (Factory patterns). كما تدعم إنشاء رموز النظام الموحدة، ورموز التشفير، ومحاكاة الملفات الثنائية. إطار العمل قابل للتوسيع عبر مزودي بيانات مخصصين ومعالجات حقول، مما يسمح للمستخدمين بدمج منطق خاص بالمجال وملفات JSON خارجية لتوليد بيانات متخصصة.
Modifies synthetic data values using functions for case conversion, padding, truncation, and encoding.
Visual Insights is an automated exploratory data analysis platform and causal inference tool designed to discover patterns and cause-and-effect relationships within datasets. It functions as an interactive data visualization library using a grammar-of-graphics approach to generate multi-dimensional charts and dashboards. The project distinguishes itself through a natural language interface that translates plain-text questions into data answers and visualizations via a language model. It provides a specialized framework for causal discovery and inference, allowing users to identify variable li
Applies transformations to fields, including encoding categorical variables and grouping time units.
هذا المشروع عبارة عن نظام لالتقاط بيانات التغيير (CDC) وطبقة مزامنة تنقل البيانات من قواعد بيانات MySQL إلى فهارس Elasticsearch. يعمل كأداة تعيين من علائقية إلى مستند، حيث يحول جداول قاعدة البيانات إلى مستندات قابلة للبحث لتمكين تكامل البيانات في الوقت الفعلي والبحث بالنص الكامل. يتميز المزامِن بدعم إلغاء تطبيع البيانات العلائقية، والذي يحول عمليات الربط (joins) من واحد إلى متعدد في قاعدة البيانات إلى هياكل مستندات أب-ابن. كما يسمح بتجميع الجداول المقسمة، باستخدام أنماط التعبير النمطي لتجميع جداول قاعدة بيانات متعددة في فهرس بحث واحد. يغطي النظام تعيين وتحويل البيانات بشكل شامل، بما في ذلك تحويل نوع الحقل، وتعيين المخطط، وتصفية الحقول المتزامنة. يوظف نموذج معالجة قائماً على خط الأنابيب لفك تشفير ودمج الحقول، مستخدماً كلاً من التحميل الأولي القائم على اللقطات (snapshots) للأساسيات وبث سجلات النظام الثنائية للتحديثات في الوقت الفعلي.
Renames columns and converts data types to transform strings into arrays or integers into dates during synchronization.
NeoSync هي أداة لمزامنة قواعد البيانات ومنسق لخطوط أنابيب البيانات مصممة لنقل وتحويل مجموعات البيانات عبر بيئات مختلفة. تعمل كمنصة لأمن بيانات PII ومولد بيانات اصطناعية، مما يسمح بمزامنة بيانات الإنتاج مع ضمان الامتثال للخصوصية. يستخدم النظام منسقاً قائماً على مصادر الأحداث لإدارة حركات البيانات غير المتزامنة، مما يوفر إعادة محاولة تلقائية ومعالجة للفشل. يتميز بدمج إخفاء هوية PII القائم على القواعد والكشف عنها مع توليد البيانات الاصطناعية القائم على المخطط لإنشاء مجموعات بيانات اصطناعية تحاكي خصائص الإنتاج دون كشف معلومات خاصة. يغطي المشروع مجالات قدرات واسعة بما في ذلك تقسيم قواعد البيانات لتقليل حجم البيانات للاختبار، وتحويلات الحقول القائمة على القوالب لإعادة تشكيل المعلومات، وتنسيق خطوط أنابيب البيانات للحفاظ على السلامة العلائقية أثناء المزامنة.
Modifies specific data columns during synchronization using predefined scripts or models to reshape information.
Baserow is a self-hosted, no-code relational database platform built on PostgreSQL. It provides a spreadsheet-like interface for structuring and managing data without writing code, while exposing all database resources via a REST API to support headless architectures. The platform distinguishes itself by integrating large language models and embedding servers to power AI assistants and automated data generation. It further extends its utility as a no-code application builder, allowing users to create custom internal portals, dashboards, and business tools using visual logic and managed data.
Creates new fields by evaluating formulas that reference and depend on other existing fields in the record.
dcat-admin هو إطار عمل لوحة تحكم Laravel يُستخدم لبناء واجهات إدارية تعتمد على البيانات بسرعة. يعمل كمولد CRUD وأداة سقالات خلفية تنتج تلقائياً واجهات الإنشاء والقراءة والتحديث والحذف بناءً على مخططات جداول قاعدة البيانات. يتميز النظام ببنية امتداد قائمة على المكونات الإضافية والقدرة على تشغيل مثيلات إدارية مستقلة متعددة داخل تثبيت واحد. ويوفر أدوات متخصصة لربط واجهات برمجة التطبيقات الخارجية بالنماذج والجداول، بالإضافة إلى دورة حياة نموذج قائمة على الأحداث لتنفيذ منطق مخصص أثناء الحل والإرسال. يغطي إطار العمل مجموعة واسعة من مجالات الإمكانيات، بما في ذلك التحكم في الوصول القائم على الأدوار لإدارة الأذونات الهرمية، ومجموعة شاملة من شبكات إدارة البيانات مع التحرير المضمن، وسير عمل النماذج متعددة الخطوات. كما يتضمن أدوات تصور البيانات للوحات التحكم التشغيلية ومجموعة متنوعة من أدوات معالجة المحتوى لتحميل الملفات الكبيرة المجزأة وتحرير النصوص الغنية. يتم توفير أدوات سطر الأوامر لأتمتة إنشاء المكونات الإدارية وفئات الإجراءات.
Transforms raw database values into visual elements like badges, hyperlinks, and images to improve data readability.
هذا المشروع عبارة عن مكتبة لإدارة الحالة التفاعلية مصممة للتعامل مع بيانات النماذج المعقدة ومنطق التحقق. تستخدم أنماطاً قائمة على الملاحظة (observable) لمزامنة مكونات واجهة المستخدم مع نماذج البيانات الأساسية، مما يضمن بقاء حالات النماذج متسقة طوال فترة التطبيق. توفر المكتبة نهجاً منظماً لإدارة تهيئة النماذج، وتتبع الحقول، وأحداث دورة الحياة. تتميز المكتبة بدعمها لهياكل البيانات المتداخلة بعمق والتركيب الهرمي، مما يسمح بالتحقق العودي والتحديثات الديناميكية داخل أشجار الكائنات المعقدة. تتميز بمحرك تحقق قائم على المخطط (schema) يدعم كلاً من القواعد المتزامنة وغير المتزامنة، إلى جانب اعتراض على غرار البرمجيات الوسيطة (middleware) يتيح للمنطق المخصص مراقبة أو تحويل البيانات أثناء تحديثات الحقول. يمكن للمطورين الوصول إلى حقول محددة ومعالجتها ديناميكياً باستخدام العنونة القائمة على المسار، مما يوفر المرونة عند العمل مع نماذج نماذج كبيرة أو متطورة. بالإضافة إلى إدارة الحالة الأساسية، تتضمن المكتبة أدوات لتحويل البيانات، مثل تنسيق قيم الإدخال وحساب قيم الحقول بناءً على بيانات النماذج الأخرى. توفر قدرات تنسيق نماذج متعددة لتنسيق التحقق والتقديم عبر مثيلات متعددة، وتظل منفصلة عن طبقات العرض المحددة للسماح بالتكامل مع أي مكتبة مكونات واجهة مستخدم. يوفر إطار العمل أيضاً أدوات مدمجة لمراقبة أحداث دورة حياة الحقول وتصحيح انتقالات الحالة الداخلية.
Cleans or transforms input values automatically, such as trimming whitespace or parsing numeric strings, before they are processed or stored.