Why is pentaho/pentaho-kettle a recommended Data Format Transformations GitHub Repositories repository?

Converts information between different file formats to ensure compatibility when moving data across disparate systems.

Why is alasql/alasql a recommended Data Format Transformations GitHub Repositories repository?

Transforms data between formats, such as reading CSV or XLSX and writing the results as JSON.

Why is bookshelf/bookshelf a recommended Data Format Transformations GitHub Repositories repository?

Parses and formats attribute values when reading from or writing to the database for data normalization.

Why is apache/pinot a recommended Data Format Transformations GitHub Repositories repository?

Applies mathematical, string, and date transformations to incoming data streams for normalization.

Why is cube2222/octosql a recommended Data Format Transformations GitHub Repositories repository?

Treats CSV, JSONLines, and Parquet files as virtual tables for analysis and transformation via SQL.

Why is turboway/bigdata_analyse a recommended Data Format Transformations GitHub Repositories repository?

Transforms raw JSON formatted source data into cleaned CSV files for downstream analytical processing.

Why is kiln-ai/kiln a recommended Data Format Transformations GitHub Repositories repository?

Converts raw input data into structured formats using templates for cleaning and reshaping.

Why is chriskacerguis/codeigniter-restserver a recommended Data Format Transformations GitHub Repositories repository?

Transforms server output into specific formats to meet the requirements of different third-party API consumers.

Why is hashicorp/consul-template a recommended Data Format Transformations GitHub Repositories repository?

Converts data structures into JSON, YAML, TOML, or base64 strings with pretty-printing.

Why is stleary/json-java a recommended Data Format Transformations GitHub Repositories repository?

Transforms data between JSON and web-specific formats such as browser cookies and comma-delimited lists.

18 مستودعات

Awesome GitHub RepositoriesData Format Transformations

Tools for converting data from one structured format to another, such as CSV to JSON, using a processing engine.

Distinct from Data Formats and Parsers: Candidates are either for animation formats or generic parsers; this is about the act of transformation.

Explore 18 awesome GitHub repositories matching data & databases · Data Format Transformations. Refine with filters or upvote what's useful.

اعثر على أفضل المستودعات باستخدام الذكاء الاصطناعي.سنبحث عن أفضل المستودعات المطابقة باستخدام الذكاء الاصطناعي.

pentaho/pentaho-kettle
pentaho/pentaho-kettle
8,353عرض على GitHub
Pentaho Kettle هو منصة مؤسسية لدمج البيانات (ETL) مصممة لاستخراج وتحويل وتحميل البيانات بين المصادر المتباينة وقواعد البيانات المستهدفة. يعمل كمنظم قائم على البيانات الوصفية يستخدم مصمماً مرئياً لسير العمل لإنشاء وإدارة تسلسلات معقدة من مهام البيانات وخطوط أنابيب التحويل. يتميز النظام بمحرك معالجة بيانات موزع، يقوم بتنفيذ أعباء العمل عبر مجموعات من عقد الخادم لزيادة الإنتاجية. يستخدم بنية قائمة على الإضافات، مما يسمح بتوسيع المنصة عبر ملفات JAR خارجية لتوفير الاتصال بقواعد بيانات وخدمات سحابية متنوعة. تغطي المنصة مجموعة واسعة من قدرات دمج البيانات، بما في ذلك التحميل بالجملة، وإدارة الملفات عن بُعد، وتحويل هيكل البيانات. توفر أدوات للتحقق من جودة البيانات، وأتمتة خطوط الأنابيب، وإدارة دورة حياة الوظائف، إلى جانب أدوات مراقبة لتتبع صحة الخادم وحالة التنفيذ في الوقت الفعلي.
Converts information between different file formats to ensure compatibility when moving data across disparate systems.
Java
عرض على GitHub8,353
alasql/alasql
AlaSQL/alasql
7,278عرض على GitHub
AlaSQL is a JavaScript SQL database engine that allows for the filtering, grouping, and joining of in-memory object arrays and JSON data. It functions as an in-memory SQL database and client-side data processor, enabling the execution of SQL statements against JavaScript arrays and external data sources in both browser and server environments. The project serves as a universal data query tool capable of performing relational joins across diverse sources, such as merging Google Spreadsheets, SQLite files, and remote APIs into a single result set. It also acts as an IndexedDB SQL wrapper, allow
Transforms data between formats, such as reading CSV or XLSX and writing the results as JSON.
JavaScript
عرض على GitHub7,278
bookshelf/bookshelf
bookshelf/bookshelf
6,352عرض على GitHub
Bookshelf is a JavaScript ORM for Node.js that provides a structured way to define and interact with database models. It centers on a model-driven approach where developers register models, define their relations, and manage data persistence through a consistent interface. The library distinguishes itself through its comprehensive handling of model relationships and data transformations. It supports defining one-to-one, one-to-many, many-to-many, and polymorphic associations, with the ability to eager load related models in a single query to avoid performance pitfalls. Bookshelf also automate
Parses and formats attribute values when reading from or writing to the database for data normalization.
JavaScript
عرض على GitHub6,352
apache/pinot
apache/pinot
6,098عرض على GitHub
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Applies mathematical, string, and date transformations to incoming data streams for normalization.
Java
عرض على GitHub6,098
cube2222/octosql
cube2222/octosql
5,258عرض على GitHub
Octosql هو محرك استعلامات SQL موزع، ومحول بيانات، ومعالج SQL للبث المباشر. يتيح للمستخدمين تنفيذ استعلامات SQL واحدة عبر مصادر بيانات متعددة ومتباينة، بما في ذلك أنواع قواعد البيانات المختلفة وتنسيقات الملفات، لدمج النتائج وتحويلها إلى مجموعة بيانات موحدة. يتميز النظام بمعاملة ملفات CSV وJSONLines وParquet كجداول افتراضية، ويستخدم بنية تعتمد على الإضافات (plugins) لتوسيع الاتصال بمحركات التخزين الخارجية. يعمل كمعالج للبث المباشر لتدفقات البيانات غير المحدودة، مستخدماً العلامات المائية (watermarks) وعمليات التراجع (retractions) والنوافذ الزمنية (tumbling windows) للحفاظ على الاتساق في الأحداث غير المرتبة. بالإضافة إلى ذلك، يعمل كمولد بيانات SQL قادر على إنتاج مجموعات بيانات اصطناعية وتدفقات سجلات عبر دوال ذات قيم جدولية. يتضمن المحرك قدرات لربط البيانات عبر مصادر متعددة والتحليل متعدد المصادر، مع تحسين الأداء عبر دفع التنبؤات (predicate push-down) إلى جانب المصدر لتقليل نقل البيانات. يدير النظام البيانات المعقدة من خلال نظام أنواع ثابت (static type system) مع أنواع اتحادية (union types) ويوفر إمكانية المراقبة عبر تصور خطط تنفيذ الاستعلامات.
Treats CSV, JSONLines, and Parquet files as virtual tables for analysis and transformation via SQL.
Go
عرض على GitHub5,258
turboway/bigdata_analyse
TurboWay/bigdata_analyse
5,238عرض على GitHub
هذا المشروع عبارة عن مجموعة من أطر عمل وخطوط أنابيب البيانات الضخمة، بما في ذلك إطار عمل تحليل Apache Hive، ومنصة تحليلات سلوكية، ومحرك تحليلات تنبؤية، وخطوط أنابيب بيانات في الوقت الفعلي. يوفر البنية التحتية لبناء سير عمل الاستخراج والتحويل والتحميل (ETL) لمعالجة مجموعات البيانات الكبيرة للتخزين الموزع والتحليل القائم على SQL. يدعم النظام تطبيقات تحليلية متنوعة، مثل محرك تنبؤي يستخدم الانحدار الخطي لتوقع القيم، وبنية في الوقت الفعلي تنقل البيانات عبر وسطاء الرسائل للتقارير الفورية. يتضمن قدرات متخصصة لتحليلات سلوك المستخدم، وقياس أداء التجارة الإلكترونية، وتحليل بيانات النقل الحضري. يغطي الكود المصدري نطاقاً واسعاً من هندسة وتحليل البيانات، بما في ذلك تنظيف البيانات وتحويلها، واستيعاب البيانات الموزع، ومعالجة التدفق القائم على النوافذ، وتصور النتائج من خلال أدوات ذكاء الأعمال. كما يتيح حساب مقاييس أعمال محددة مثل معدلات التحويل، وأداء تحقيق الدخل، ومستويات تفاعل المستخدم.
Transforms raw JSON formatted source data into cleaned CSV files for downstream analytical processing.
Pythonhqlpythonsql
عرض على GitHub5,238
kiln-ai/kiln
kiln-ai/kiln
4,910عرض على GitHub
Kiln is an LLM development workbench and evaluation framework designed for designing, testing, and optimizing prompts and AI agents. It functions as a multi-agent orchestrator and a RAG optimization tool, providing a visual interface for the iterative development of AI systems. The project distinguishes itself through a comprehensive fine-tuning pipeline that supports zero-code model training and reasoning distillation. It enables the creation of hierarchical multi-agent systems where specialized actors coordinate via tool calling, and it implements a Model Context Protocol server to expose t
Converts raw input data into structured formats using templates for cleaning and reshaping.
Python
عرض على GitHub4,910
chriskacerguis/codeigniter-restserver
chriskacerguis/codeigniter-restserver
4,876عرض على GitHub
codeigniter-restserver هو إطار عمل REST API ومكتبة تحكم لبناء خوادم RESTful داخل بيئة CodeIgniter PHP. يعمل كتنفيذ خلفي (backend) يتعامل مع طرق HTTP القياسية لعرض البيانات والوظائف من خلال نقاط نهاية منظمة. يتضمن المشروع محرك استجابة قابلاً للتخصيص يسمح بتحويل بيانات المخرجات إلى تنسيقات محددة مختلفة من خلال طرق تنسيق مخصصة. توفر المكتبة أدوات لتعيين طلبات HTTP الواردة إلى طرق التحكم، وإدارة استجابات الموارد، وتنفيذ التحكم في الوصول القائم على التكوين.
Transforms server output into specific formats to meet the requirements of different third-party API consumers.
PHP
عرض على GitHub4,876
hashicorp/consul-template
hashicorp/consul-template
4,830عرض على GitHub
Consul Template هو عارض إعدادات ومدير إعدادات ديناميكي يقوم بإنشاء ملفات عن طريق ملء القوالب ببيانات من Consul وVault. يعمل كمحرك قوالب لاكتشاف الخدمة ومكامل لإدارة الأسرار، محولاً بيانات كتالوج المجموعة والصحة إلى ملفات إعدادات منسقة. تتميز الأداة بكونها تعمل كمشرف عمليات ومُخطر، قادرة على تنفيذ أوامر shell أو إعادة تشغيل التطبيقات تلقائياً بعد تحديث القوالب. تتميز بمراقب استطلاع طويل لمراقبة مخازن مفتاح-قيمة البعيدة وتستخدم آلية قفل مشتركة لتنسيق التحديثات عبر مثيلات متعددة ومنع عمليات إعادة تشغيل الخدمة المتزامنة. يغطي النظام مجموعة واسعة من الإمكانيات، بما في ذلك تدوير الأسرار الآلي لشهادات PKI وبيانات اعتماد vault، وتحويل تنسيق البيانات لـ JSON وYAML، وتنفيذ إضافات ثنائية خارجية لمعالجة البيانات المخصصة. كما يوفر تمهيد البنية التحتية ومزامنة العرض الموزعة لتقليل حمل API من خلال إلغاء تكرار الاستعلام القائم على القائد.
Converts data structures into JSON, YAML, TOML, or base64 strings with pretty-printing.
Goconsulgolangvault
عرض على GitHub4,830
stleary/json-java
stleary/JSON-java
4,717عرض على GitHub
JSON-java is a Java library for parsing and generating JSON text and mapping it to Java objects and collections. It functions as a serialization framework for converting class instances and data structures into standardized JSON strings. The project includes a JSON pointer implementation for retrieving specific values from documents using string or URI fragment representations. It also provides a converter for translating data structures between JSON and XML, as well as a translator for transforming data between JSON and web formats such as HTTP headers, cookies, and comma-delimited lists. T
Transforms data between JSON and web-specific formats such as browser cookies and comma-delimited lists.
Javahackoberfest2023hacktoberfestjava
عرض على GitHub4,717
rudderlabs/rudder-server
rudderlabs/rudder-server
4,437عرض على GitHub
Rudder Server عبارة عن منصة بيانات عملاء وخط أنابيب توجيه أحداث مصمم لجمع وتحويل وتوجيه بيانات أحداث العملاء من مصادر مختلفة إلى مستودعات البيانات وأدوات الأعمال. يعمل كمحلل هوية عملاء، يربط المعرفات من مصادر متعددة لبناء رسم بياني موحد للهوية وملفات تعريف سلوكية شاملة للعملاء. يتميز النظام بقدرات ETL العكسية، التي تدفع شرائح العملاء والجماهير المعالجة من مستودعات البيانات مرة أخرى إلى تطبيقات الطرف الثالث التشغيلية. كما يوفر مستوى بيانات حاوية لنشر Kubernetes، مما يتيح إدارة البنية التحتية للبيانات ككود. تغطي المنصة مجموعة واسعة من قدرات إدارة البيانات، بما في ذلك تحويل الأحداث في الوقت الفعلي، والتحقق من المخطط عبر كتالوجات البيانات، وحوكمة الخصوصية. تشمل هذه أدوات لإدارة موافقة المستخدم، وفرض إقامة البيانات داخل مناطق جغرافية محددة، وإخفاء معلومات التعريف الشخصية أثناء النقل. تتم إدارة تثبيت ونشر مكونات مستوى البيانات باستخدام مخططات Helm.
Converts event data into destination-specific formats using a pipeline of enrichment, filtering, and anonymization functions.
Gobigquerycdpcustomer-data
عرض على GitHub4,437
mosaicml/llm-foundry
mosaicml/llm-foundry
4,415عرض على GitHub
llm-foundry هو إطار عمل تدريبي للنماذج اللغوية الكبيرة، يوفر نظاماً للتدريب المسبق للنماذج الأساسية والضبط الدقيق الخاضع للإشراف. يتضمن مدرباً موزعاً لتوسيع نطاق أحمال العمل عبر عقد ووحدات معالجة رسومات متعددة، وخط أنابيب لبث البيانات من التخزين السحابي، وتنفيذاً للضبط الدقيق الفعال للمعلمات. يتميز إطار العمل باستخدامه لتقسيم المعلمات (parameter sharding) وبث البيانات عالي الإنتاجية للحفاظ على الاستقرار أثناء التدريب واسع النطاق. كما يدمج التكيف منخفض الرتبة (low-rank adaptation) لتقليل التكاليف الحسابية ويستخدم دقة الفاصلة العائمة بثماني بتات لزيادة سرعة الحوسبة على الأجهزة المتوافقة. تغطي قاعدة الكود مجموعة واسعة من القدرات، بما في ذلك هندسة البيانات لتحويل البيانات الخام إلى تنسيقات مضغوطة، وقياس أداء النموذج من خلال مجموعة تقييم، والقدرة على تصدير أوزان النموذج إلى تنسيقات صناعية قياسية. كما يدعم تسجيل المكونات المخصصة عبر المزخرفات (decorators) ويوفر تحكماً في طرق تضمين الموضع (positional embedding).
Transforms raw data into compressed, streaming-compatible formats to improve training efficiency and throughput.
Pythondeep-learningllmneural-networks
عرض على GitHub4,415
assemble/assemble
assemble/assemble
4,258عرض على GitHub
Assemble is a static site generator and build pipeline system that compiles markdown, templates, and data into static HTML files. It functions as a markdown-to-HTML converter and a data format transformer capable of moving content between JSON, YAML, XML, PLIST, and CSV formats. The project features a pipeline-based build process where users can define ordered sequences of data transformations and file processing steps. It includes project scaffolding tools to bootstrap directory structures and configuration files from predefined boilerplates. The system manages content through collection-ba
Converts files between JSON, YAML, XML, PLIST, and CSV formats using a transformation engine.
CSSassembleblog-enginebuild
عرض على GitHub4,258
andersao/l5-repository
andersao/l5-repository
4,205عرض على GitHub
هذا المشروع عبارة عن طبقة تجريد لقاعدة البيانات لـ Laravel تنفذ نمط المستودع لفصل منطق الأعمال عن استعلامات قاعدة بيانات Eloquent. يوفر واجهة موحدة لاسترجاع البيانات، والترقيم، والتصفية. يتضمن النظام آلية معايير استعلام لتطبيق شروط بحث قابلة لإعادة الاستخدام بناءً على معلمات الطلب وغلاف تخزين مؤقت يمسح النتائج المخزنة تلقائياً أثناء إنشاء السجلات أو تحديثها أو حذفها. كما يتميز بطبقة عرض لتحويل سمات نموذج قاعدة البيانات الخام إلى مخرجات منسقة لواجهات المستخدم. تشمل الإمكانيات الإضافية أداة سطر أوامر لسقالات النماذج والمستودعات ووحدات التحكم وموفري الخدمات، بالإضافة إلى أدوات للتحقق من بيانات المستودع وتحويل سمات النموذج.
Formats data objects using presenters to decouple internal database structures from the final output.
PHP
عرض على GitHub4,205
sylphai-inc/adalflow
SylphAI-Inc/AdalFlow
4,167عرض على GitHub
AdalFlow هو إطار عمل لوكلاء الذكاء الاصطناعي المستقلين ومكتبة تطبيقات للنماذج اللغوية الكبيرة (LLM) مصممة لبناء سير عمل معياري. يعمل كواجهة محايدة للنموذج ومنسق لخط أنابيب RAG، مما يسمح للمستخدمين بتطوير وكلاء ReAct يستخدمون التفكير التكراري وتنفيذ الأدوات الخارجية لحل المهام المعقدة. يتميز المشروع بنظام تحسين المطالبة (prompt optimization) الذي يستخدم الانحدار المتدرج النصي لتحسين قوالب المطالبة وأمثلة التعلم القليل (few-shot) تلقائياً. يعامل ملاحظات النموذج كإشارة قابلة للاشتقاق، مما يتيح شكلاً من أشكال الانتشار العكسي للنماذج اللغوية الكبيرة لتحسين جودة المخرجات تكرارياً بناءً على مقاييس التقييم. يغطي إطار العمل سطح قدرات واسعاً، بما في ذلك التوليد المعزز بالاسترجاع (RAG) مع البحث الدلالي المتجه وإعادة الترتيب، وتتبع التنفيذ القائم على النطاق للمراقبة، والتحليل الهيكلي القائم على المخطط. يوفر طبقة اتصال موحدة للعديد من مزودي النماذج المملوكة والمفتوحة المصدر ويدعم تحويل وظائف Python إلى واجهات أدوات قياسية. تم تنفيذ النظام بلغة Python ويتكامل مع MLflow لتتبع وتحليل سير العمل.
Converts data between dictionaries, JSON, YAML, and dataclass objects to facilitate internal data movement.
Python
عرض على GitHub4,167
kashav/fsql
kashav/fsql
3,986عرض على GitHub
fsql هي أداة واجهة سطر أوامر توفر لغة استعلام تشبه SQL للعثور على الملفات والأدلة على القرص المحلي. تعمل كمحرك استعلام عن نظام الملفات، مما يسمح للمستخدمين بعزل الملفات عن طريق تنفيذ عبارات منظمة مقابل البيانات الوصفية بدلاً من استخدام أعلام سطر الأوامر القياسية. تتميز الأداة بحلقة قراءة-تقييم-طباعة تفاعلية تدعم الاستعلامات متعددة الأسطر والاستعلامات الفرعية المتداخلة، حيث تعمل نتائج عمليات البحث المتداخلة كمعايير للاستعلامات الخارجية. نطاقات البحث قابلة للتكوين من خلال حل المسارات المطلقة، والمسارات النسبية، ومتغيرات البيئة، وأنماط Glob. يطبق النظام عوامل جبرية، وتعبيرات نمطية، ومرشحات منطقية على سمات الملف مثل الهاش، والحجم، ووقت التعديل. ويتضمن أدوات تحويل البيانات لتنسيق هذه السمات في طوابع زمنية مقروءة ووحدات حجم قياسية.
Converts file attribute values into specific display formats, including size unit conversion and timestamp styling.
Gofindgolang
عرض على GitHub3,986
rdatatable/data.table
Rdatatable/data.table
3,894عرض على GitHub
هذا المشروع هو إطار عمل لمعالجة البيانات الجدولية عالي الأداء لـ R، مصمم للتعامل مع مجموعات البيانات الضخمة بكفاءة في الذاكرة وسرعة. يوفر هيكل بيانات محسناً يستخدم دلالات المرجع والتعديل في المكان لإجراء تحويلات معقدة دون عبء نسخ الكائنات غير الضروري. تتميز المكتبة بتحسيناتها المعمارية منخفضة المستوى، بما في ذلك المعالجة المتوازية متعددة الخيوط، والفرز القائم على الجذر، وتحليل الملفات المعينة في الذاكرة. من خلال تفريغ إجراءات معالجة البيانات والتجميع الحرجة إلى كود C مجمع، فإنه يتيح التنفيذ السريع للمهام التي قد تكون مكلفة حسابياً. يدعم محركها الأساسي عمليات علائقية متقدمة، مثل الانضمامات غير المتساوية، والمتدحرجة، والمتداخلة، إلى جانب الفهرسة الثانوية التلقائية لتسريع الوصول المتكرر للبيانات. إلى جانب إمكانات المعالجة الأساسية، يقدم المشروع مجموعة شاملة من الأدوات لإدارة دورة حياة البيانات. يتضمن ذلك أدوات استيعاب وتسلسل عالية السرعة مع الكشف التلقائي عن النوع، بالإضافة إلى دعم متخصص لتحليل السلاسل الزمنية والتجميع متعدد الأبعاد. تم بناء إطار العمل ليتوسع، مما يسمح للمستخدمين بإجراء عمليات تجميع وتصفية وإعادة تشكيل معقدة على مجموعات بيانات تحتوي على مليارات الصفوف مع الحفاظ على استقرار النظام وأدائه.
Converts tabular data between wide and long formats using optimized casting and melting operations.
R
عرض على GitHub3,894
feross/buffer
feross/buffer
1,883عرض على GitHub
Buffer هي مكتبة لمعالجة البيانات الثنائية توفر تنفيذاً متوافقاً مع المتصفح لواجهة برمجة تطبيقات البيانات الثنائية لـ Node.js. تتيح للمطورين إنشاء، وتعديل، ومعالجة هياكل البيانات الثنائية الخام داخل بيئات الويب باستخدام واجهة متسقة تعكس معايير جانب الخادم. تتميز المكتبة بتوفير نهج موحد لتطوير JavaScript عبر المنصات، مما يسمح بكود مشترك بين بيئات الخادم والمتصفح. تحقق ذلك عن طريق ملء (polyfilling) الطرق الثنائية القياسية وتوسيع نموذج مصفوفة البايت الأصلية، مما يضمن قدرة المطورين على إدارة الذاكرة وهياكل البيانات دون الاعتماد على تنفيذات خاصة بالبيئة. تتضمن مجموعة الأدوات أدوات للتعامل مع الوصول إلى البيانات الواعي بترتيب البايت (endianness) وإجراء تقطيع بدون نسخ (zero-copy) لمعالجة قطاعات الذاكرة دون تكرار الحمولات. كما تدعم توافق البيانات الواسع من خلال تسهيل التحويلات بين المخازن المؤقتة (buffers)، والمصفوفات المكتوبة، والكائنات الثنائية الكبيرة (blobs)، مما يضمن إمكانية تبادل البيانات الثنائية عبر واجهات ويب وتنسيقات تخزين متنوعة.
Ensures seamless data exchange between different web interfaces and storage formats by converting between buffers, typed arrays, and blobs.
JavaScriptbrowserbrowserifybuffer
عرض على GitHub1,883

Awesome Data Format Transformations GitHub Repositories

pentaho/pentaho-kettle

AlaSQL/alasql

bookshelf/bookshelf

apache/pinot

cube2222/octosql

TurboWay/bigdata_analyse

kiln-ai/kiln

chriskacerguis/codeigniter-restserver

hashicorp/consul-template

stleary/JSON-java

rudderlabs/rudder-server

mosaicml/llm-foundry

assemble/assemble

andersao/l5-repository

SylphAI-Inc/AdalFlow

kashav/fsql

Rdatatable/data.table

feross/buffer

استكشف الوسوم الفرعية