20 रिपॉजिटरी
Tools for converting data from one structured format to another, such as CSV to JSON, using a processing engine.
Distinct from Data Formats and Parsers: Candidates are either for animation formats or generic parsers; this is about the act of transformation.
Explore 20 awesome GitHub repositories matching data & databases · Data Format Transformations. Refine with filters or upvote what's useful.
Pentaho Kettle एक एंटरप्राइज़ ETL डेटा इंटीग्रेशन प्लेटफ़ॉर्म है जिसे अलग-अलग स्रोतों और टारगेट डेटाबेस के बीच डेटा को एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड करने के लिए डिज़ाइन किया गया है। यह एक मेटाडेटा-संचालित ऑर्केस्ट्रेटर के रूप में कार्य करता है जो डेटा कार्यों और ट्रांसफ़ॉर्मेशन पाइपलाइन्स के जटिल अनुक्रमों को बनाने और प्रबंधित करने के लिए एक विज़ुअल वर्कफ़्लो डिज़ाइनर का उपयोग करता है। यह सिस्टम अपने वितरित डेटा प्रोसेसिंग इंजन द्वारा विशिष्ट है, जो थ्रूपुट बढ़ाने के लिए सर्वर नोड्स के क्लस्टर्स पर वर्कलोड निष्पादित करता है। यह प्लगइन-आधारित आर्किटेक्चर का उपयोग करता है, जिससे प्लेटफ़ॉर्म को विविध डेटाबेस और क्लाउड सर्विसेज से कनेक्टिविटी प्रदान करने के लिए बाहरी JAR फाइलों के माध्यम से विस्तारित किया जा सकता है। यह प्लेटफ़ॉर्म बल्क लोडिंग, रिमोट फाइल मैनेजमेंट और डेटा स्ट्रक्चर ट्रांसफ़ॉर्मेशन सहित डेटा इंटीग्रेशन क्षमताओं की एक विस्तृत श्रृंखला को कवर करता है। यह सर्वर हेल्थ और रीयल-टाइम निष्पादन स्थिति को ट्रैक करने के लिए मॉनिटरिंग यूटिलिटीज़ के साथ-साथ डेटा क्वालिटी वैलिडेशन, पाइपलाइन ऑटोमेशन और जॉब लाइफसाइकिल मैनेजमेंट के लिए टूल्स प्रदान करता है।
Converts information between different file formats to ensure compatibility when moving data across disparate systems.
AlaSQL is a JavaScript SQL database engine that allows for the filtering, grouping, and joining of in-memory object arrays and JSON data. It functions as an in-memory SQL database and client-side data processor, enabling the execution of SQL statements against JavaScript arrays and external data sources in both browser and server environments. The project serves as a universal data query tool capable of performing relational joins across diverse sources, such as merging Google Spreadsheets, SQLite files, and remote APIs into a single result set. It also acts as an IndexedDB SQL wrapper, allow
Transforms data between formats, such as reading CSV or XLSX and writing the results as JSON.
Bookshelf is a JavaScript ORM for Node.js that provides a structured way to define and interact with database models. It centers on a model-driven approach where developers register models, define their relations, and manage data persistence through a consistent interface. The library distinguishes itself through its comprehensive handling of model relationships and data transformations. It supports defining one-to-one, one-to-many, many-to-many, and polymorphic associations, with the ability to eager load related models in a single query to avoid performance pitfalls. Bookshelf also automate
Parses and formats attribute values when reading from or writing to the database for data normalization.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Applies mathematical, string, and date transformations to incoming data streams for normalization.
Octosql is a federated SQL query engine, data transformer, and streaming SQL processor. It allows users to execute single SQL statements across multiple disparate data sources, including different database types and file formats, to merge and transform results into a unified set. The system distinguishes itself by treating CSV, JSONLines, and Parquet files as virtual tables and utilizing a plugin-based architecture to extend connectivity to external storage engines. It functions as a streaming processor for infinite data streams, using watermarks, retractions, and tumbling windows to maintain
Treats CSV, JSONLines, and Parquet files as virtual tables for analysis and transformation via SQL.
यह प्रोजेक्ट बिग डेटा फ्रेमवर्क और पाइपलाइनों का एक संग्रह है, जिसमें Apache Hive विश्लेषण फ्रेमवर्क, व्यवहार डेटा एनालिटिक्स प्लेटफ़ॉर्म, प्रेडिक्टिव एनालिटिक्स इंजन और रीयल-टाइम डेटा पाइपलाइन शामिल हैं। यह वितरित भंडारण और SQL-आधारित विश्लेषण के लिए बड़े डेटासेट को संसाधित करने के लिए Extract, Transform, Load (ETL) वर्कफ़्लो बनाने के लिए बुनियादी ढांचा प्रदान करता है। सिस्टम विविध विश्लेषणात्मक कार्यान्वयन का समर्थन करता है, जैसे कि मूल्य पूर्वानुमान के लिए लीनियर रिग्रेशन का उपयोग करने वाला प्रेडिक्टिव इंजन और एक रीयल-टाइम आर्किटेक्चर जो तत्काल रिपोर्टिंग के लिए संदेश दलालों के माध्यम से डेटा ले जाता है। इसमें उपयोगकर्ता व्यवहार एनालिटिक्स, ई-कॉमर्स प्रदर्शन माप और शहरी पारगमन डेटा विश्लेषण के लिए विशेष क्षमताएं शामिल हैं। कोडबेस डेटा इंजीनियरिंग और विश्लेषण की एक विस्तृत श्रृंखला को कवर करता है, जिसमें डेटा सफ़ाई और परिवर्तन, वितरित डेटा इंजेक्शन, विंडो-आधारित स्ट्रीम प्रोसेसिंग और व्यावसायिक खुफिया उपकरणों के माध्यम से परिणामों का विज़ुअलाइज़ेशन शामिल है। यह रूपांतरण दर, मुद्रीकरण प्रदर्शन और उपयोगकर्ता जुड़ाव स्तर जैसे विशिष्ट व्यावसायिक मेट्रिक्स की गणना को भी सक्षम बनाता है।
Transforms raw JSON formatted source data into cleaned CSV files for downstream analytical processing.
Kiln एक LLM डेवलपमेंट वर्कबेंच और इवैल्यूएशन फ्रेमवर्क है जिसे प्रॉम्प्ट्स और AI एजेंट्स को डिज़ाइन, टेस्ट और ऑप्टिमाइज़ करने के लिए बनाया गया है। यह एक मल्टी-एजेंट ऑर्केस्ट्रेटर और RAG ऑप्टिमाइज़ेशन टूल के रूप में कार्य करता है, जो AI सिस्टम के पुनरावृत्ति विकास के लिए एक विज़ुअल इंटरफ़ेस प्रदान करता है। यह प्रोजेक्ट एक व्यापक फाइन-ट्यूनिंग पाइपलाइन के माध्यम से खुद को अलग करता है जो ज़ीरो-कोड मॉडल ट्रेनिंग और रीज़निंग डिस्टिलेशन का समर्थन करता है। यह पदानुक्रमित मल्टी-एजेंट सिस्टम बनाने में सक्षम बनाता है जहाँ विशेष एक्टर्स टूल कॉलिंग के माध्यम से समन्वय करते हैं। यह प्लेटफॉर्म AI जज स्कोरिंग, सिंथेटिक डेटा जनरेशन और हाइब्रिड वेक्टर-कीवर्ड रिट्रीवल जैसी व्यापक क्षमताएं प्रदान करता है।
Converts raw input data into structured formats using templates for cleaning and reshaping.
codeigniter-restserver एक REST API फ्रेमवर्क और कंट्रोलर लाइब्रेरी है जिसका उपयोग CodeIgniter PHP एनवायरनमेंट के भीतर RESTful सर्वर बनाने के लिए किया जाता है। यह एक बैकएंड इम्प्लीमेंटेशन के रूप में कार्य करता है जो संरचित एंडपॉइंट्स के माध्यम से डेटा और कार्यक्षमता को उजागर करने के लिए मानक HTTP मेथड्स को हैंडल करता है। इस प्रोजेक्ट में एक कस्टमाइज़ेबल रिस्पॉन्स इंजन शामिल है जो कस्टम फॉर्मेटिंग मेथड्स के माध्यम से आउटपुट डेटा को विभिन्न विशिष्ट फॉर्मेट्स में बदलने की अनुमति देता है। यह लाइब्रेरी आने वाले HTTP रिक्वेस्ट्स को कंट्रोलर मेथड्स से मैप करने, रिसोर्स रिस्पॉन्स को मैनेज करने और कॉन्फ़िगरेशन-आधारित एक्सेस कंट्रोल को लागू करने के लिए टूल्स प्रदान करती है।
Transforms server output into specific formats to meet the requirements of different third-party API consumers.
Consul Template is a configuration renderer and dynamic configuration manager that generates files by populating templates with data from Consul and Vault. It functions as a service discovery template engine and secrets management integrator, transforming cluster catalog and health data into formatted configuration files. The tool distinguishes itself by acting as a process supervisor and notifier, capable of executing shell commands or restarting applications automatically after templates are updated. It features a long-polling watcher to monitor remote key-value stores and employs a shared
Converts data structures into JSON, YAML, TOML, or base64 strings with pretty-printing.
JSON-java, JSON टेक्स्ट को पार्स और जनरेट करने और उसे Java ऑब्जेक्ट्स और कलेक्शंस में मैप करने के लिए एक Java लाइब्रेरी है। यह क्लास इंस्टेंस और डेटा स्ट्रक्चर्स को स्टैंडर्ड JSON स्ट्रिंग्स में बदलने के लिए एक सीरियलाइज़ेशन फ्रेमवर्क के रूप में कार्य करती है। इस प्रोजेक्ट में स्ट्रिंग या URI फ्रैगमेंट रिप्रेजेंटेशन का उपयोग करके डॉक्यूमेंट्स से विशिष्ट वैल्यूज प्राप्त करने के लिए एक JSON पॉइंटर इम्प्लीमेंटेशन शामिल है। यह JSON और XML के बीच डेटा स्ट्रक्चर्स को ट्रांसलेट करने के लिए एक कन्वर्टर, और JSON और HTTP हेडर, कुकीज़, और कॉमा-डिलिमिटेड लिस्ट जैसे वेब फॉर्मेट्स के बीच डेटा ट्रांसफॉर्म करने के लिए एक ट्रांसलेटर भी प्रदान करता है। यह लाइब्रेरी JSON प्रोसेसिंग के लिए व्यापक क्षमताएं कवर करती है, जिसमें ऑब्जेक्ट सीरियलाइज़ेशन और डीसीरियलाइज़ेशन शामिल है। यह JSON टेक्स्ट को ऑब्जेक्ट्स में पार्स करने और स्टैंडर्ड JSON डॉक्यूमेंट्स जनरेट करने के लिए लचीला सपोर्ट प्रदान करती है।
Transforms data between JSON and web-specific formats such as browser cookies and comma-delimited lists.
Rudder Server is a customer data platform and event routing pipeline designed to collect, transform, and route customer event data from various sources to data warehouses and business tools. It functions as a customer identity resolver, linking identifiers from multiple sources to build a unified identity graph and comprehensive behavioral customer profiles. The system differentiates itself through reverse ETL capabilities, which push processed customer segments and audiences from data warehouses back into operational third-party applications. It also provides a containerized data plane for K
Converts event data into destination-specific formats using a pipeline of enrichment, filtering, and anonymization functions.
llm-foundry बड़े भाषा मॉडल के लिए एक प्रशिक्षण फ्रेमवर्क है, जो फाउंडेशन मॉडल प्री-ट्रेनिंग और सुपरवाइज्ड फाइन-ट्यूनिंग के लिए एक सिस्टम प्रदान करता है। इसमें कई नोड्स और GPUs पर वर्कलोड को स्केल करने के लिए एक वितरित ट्रेनर, क्लाउड स्टोरेज से डेटा लोड करने के लिए एक डेटासेट स्ट्रीमिंग पाइपलाइन और पैरामीटर-कुशल फाइन-ट्यूनिंग कार्यान्वयन शामिल है। यह फ्रेमवर्क बड़े पैमाने पर प्रशिक्षण के दौरान स्थिरता बनाए रखने के लिए पैरामीटर शार्डिंग और हाई-थ्रूपुट डेटा स्ट्रीमिंग के उपयोग के माध्यम से खुद को अलग करता है। यह कम्प्यूटेशनल लागत को कम करने के लिए लो-रैंक एडेप्टेशन को शामिल करता है और संगत हार्डवेयर पर कंप्यूट गति बढ़ाने के लिए आठ-बिट फ्लोटिंग पॉइंट प्रिसिजन का उपयोग करता है। कोडबेस क्षमताओं की एक विस्तृत श्रृंखला को कवर करता है, जिसमें कच्चे डेटा को कंप्रेस्ड फॉर्मेट में बदलने के लिए डेटासेट इंजीनियरिंग, मूल्यांकन सूट के माध्यम से मॉडल प्रदर्शन बेंचमार्किंग और मॉडल वेट्स को मानकीकृत उद्योग फॉर्मेट में निर्यात करने की क्षमता शामिल है। यह डेकोरेटर्स के माध्यम से कस्टम घटक पंजीकरण का भी समर्थन करता है और पोजीशनल एम्बेडिंग विधियों पर नियंत्रण प्रदान करता है।
Transforms raw data into compressed, streaming-compatible formats to improve training efficiency and throughput.
Assemble is a static site generator and build pipeline system that compiles markdown, templates, and data into static HTML files. It functions as a markdown-to-HTML converter and a data format transformer capable of moving content between JSON, YAML, XML, PLIST, and CSV formats. The project features a pipeline-based build process where users can define ordered sequences of data transformations and file processing steps. It includes project scaffolding tools to bootstrap directory structures and configuration files from predefined boilerplates. The system manages content through collection-ba
Converts files between JSON, YAML, XML, PLIST, and CSV formats using a transformation engine.
This project is a database abstraction layer for Laravel that implements the repository pattern to decouple business logic from Eloquent database queries. It provides a standardized interface for data retrieval, pagination, and filtering. The system includes a query criteria mechanism for applying reusable search conditions based on request parameters and a caching wrapper that automatically clears stored results during record creation, updates, or deletions. It also features a presentation layer to transform raw database model attributes into formatted output for user interfaces. Additional
Formats data objects using presenters to decouple internal database structures from the final output.
AdalFlow एक ऑटोनॉमस AI एजेंट फ्रेमवर्क और LLM एप्लिकेशन लाइब्रेरी है जिसे मॉड्यूलर वर्कफ़्लो बनाने के लिए डिज़ाइन किया गया है। यह एक मॉडल-अग्नोस्टिक इंटरफ़ेस और RAG पाइपलाइन ऑर्केस्ट्रेटर के रूप में कार्य करता है, जो उपयोगकर्ताओं को ReAct एजेंट विकसित करने की अनुमति देता है जो जटिल कार्यों को हल करने के लिए पुनरावृत्ति तर्क (iterative reasoning) और बाहरी टूल निष्पादन का उपयोग करते हैं। यह प्रोजेक्ट एक प्रॉम्प्ट ऑप्टिमाइज़ेशन सिस्टम के माध्यम से खुद को अलग करता है जो प्रॉम्प्ट टेम्पलेट्स और फ्यू-शॉट उदाहरणों को स्वचालित रूप से रिफाइन करने के लिए टेक्स्टुअल ग्रेडिएंट डिसेंट का उपयोग करता है। यह मॉडल फीडबैक को एक डिफरेंशिएबल सिग्नल के रूप में मानता है, जो इवैल्यूएशन मेट्रिक्स के आधार पर आउटपुट गुणवत्ता को पुनरावृत्ति रूप से सुधारने के लिए LLM बैकप्रोपैगेशन के एक रूप को सक्षम बनाता है। यह फ्रेमवर्क एक व्यापक क्षमता सतह को कवर करता है, जिसमें सिमेंटिक वेक्टर सर्च और री-रैंकिंग के साथ रिट्रीवल-ऑगमेंटेड जनरेशन, ऑब्जर्वेबिलिटी के लिए स्पैन-आधारित निष्पादन ट्रेसिंग और स्कीमा-संचालित स्ट्रक्चर्ड पार्सिंग शामिल है। यह कई प्रोप्राइटरी और ओपन-सोर्स मॉडल प्रदाताओं के लिए एक एकीकृत संचार परत प्रदान करता है और Python फंक्शन्स को मानकीकृत टूल इंटरफेस में बदलने का समर्थन करता है। यह सिस्टम Python में लागू किया गया है और वर्कफ़्लो ट्रैकिंग और विश्लेषण के लिए MLflow के साथ एकीकृत होता है।
Converts data between dictionaries, JSON, YAML, and dataclass objects to facilitate internal data movement.
fsql is a command line interface tool that provides a SQL-like query language for finding files and directories on a local disk. It functions as a filesystem query engine, allowing users to isolate files by executing structured statements against metadata instead of using standard command line flags. The tool features an interactive read-eval-print loop that supports multi-line queries and recursive subqueries, where the results of nested search operations serve as criteria for outer queries. Search scopes are configurable through the resolution of absolute paths, relative paths, environment
Converts file attribute values into specific display formats, including size unit conversion and timestamp styling.
यह प्रोजेक्ट R के लिए एक उच्च-प्रदर्शन सारणीबद्ध डेटा प्रोसेसिंग फ्रेमवर्क है, जिसे मेमोरी दक्षता और गति के साथ बड़े डेटासेट को संभालने के लिए डिज़ाइन किया गया है। यह एक उन्नत डेटा संरचना प्रदान करता है जो अनावश्यक ऑब्जेक्ट कॉपी करने के ओवरहेड के बिना जटिल परिवर्तन करने के लिए संदर्भ शब्दार्थ (reference semantics) और इन-प्लेस संशोधन का उपयोग करता है। यह लाइब्रेरी अपने निम्न-स्तरीय आर्किटेक्चरल ऑप्टिमाइज़ेशन के माध्यम से खुद को अलग करती है, जिसमें मल्टी-थ्रेडेड समानांतर प्रोसेसिंग, रेडिक्स-आधारित सॉर्टिंग और मेमोरी-मैप्ड फ़ाइल पार्सिंग शामिल है। महत्वपूर्ण डेटा हेरफेर और एकत्रीकरण दिनचर्या को संकलित C कोड में ऑफलोड करके, यह उन कार्यों के तेजी से निष्पादन को सक्षम बनाता है जो अन्यथा गणनात्मक रूप से महंगे होंगे। इसका मुख्य इंजन उन्नत रिलेशनल ऑपरेशंस का समर्थन करता है, जैसे कि नॉन-इक्वी, रोलिंग और ओवरलैपिंग इंटरवल जॉइन्स, साथ ही बार-बार डेटा एक्सेस में तेजी लाने के लिए स्वचालित सेकेंडरी इंडेक्सिंग। अपनी प्राथमिक प्रोसेसिंग क्षमताओं के अलावा, यह प्रोजेक्ट डेटा लाइफसाइकिल प्रबंधन के लिए टूल का एक व्यापक सूट प्रदान करता है। इसमें स्वचालित प्रकार पहचान के साथ उच्च-गति अंतर्ग्रहण और सीरियलाइज़ेशन यूटिलिटीज, साथ ही समय-श्रृंखला विश्लेषण और बहु-आयामी एकत्रीकरण के लिए विशेष समर्थन शामिल है। फ्रेमवर्क को स्केल करने के लिए बनाया गया है, जो उपयोगकर्ताओं को सिस्टम स्थिरता और परफॉरमेंस बनाए रखते हुए अरबों पंक्तियों वाले डेटासेट पर जटिल समूहीकरण, फ़िल्टरिंग और रीशेपिंग ऑपरेशन करने की अनुमति देता है।
Converts tabular data between wide and long formats using optimized casting and melting operations.
dsq is a command-line utility that enables SQL-based analysis of local files by treating them as relational database tables. It allows users to execute standard SQL queries against heterogeneous data formats, including JSON, CSV, Excel, and Parquet, without requiring a formal database import process. The tool distinguishes itself by providing a persistent interactive shell for iterative data exploration and schema inspection. It supports complex operations such as joining data across multiple disparate files and converting between structured formats by applying SQL transformations to the inpu
Transforms input files into structured JSON output by applying SQL queries to the input data without requiring manual schema definitions.
Buffer बाइनरी डेटा हेरफेर के लिए एक लाइब्रेरी है जो Node.js बाइनरी डेटा एप्लिकेशन प्रोग्रामिंग इंटरफेस का ब्राउज़र-संगत कार्यान्वयन प्रदान करती है। यह डेवलपर्स को एक सुसंगत इंटरफेस का उपयोग करके वेब वातावरण के भीतर कच्चे बाइनरी डेटा संरचनाओं को बनाने, संशोधित करने और संसाधित करने में सक्षम बनाती है जो सर्वर-साइड मानकों को दर्शाती है। लाइब्रेरी क्रॉस-प्लेटफॉर्म JavaScript डेवलपमेंट के लिए एक एकीकृत दृष्टिकोण प्रदान करके खुद को अलग करती है, जो सर्वर और ब्राउज़र वातावरण के बीच साझा कोड की अनुमति देती है। यह मानक बाइनरी विधियों को पॉलीफिलिंग करके और नेटिव बाइट ऐरे प्रोटोटाइप का विस्तार करके इसे प्राप्त करती है, यह सुनिश्चित करते हुए कि डेवलपर्स पर्यावरण-विशिष्ट कार्यान्वयन पर भरोसा किए बिना मेमोरी और डेटा संरचनाओं का प्रबंधन कर सकें। टूलकिट में एंडियननेस-जागरूक डेटा एक्सेस को संभालने और पेलोड को डुप्लिकेट किए बिना मेमोरी सेगमेंट में हेरफेर करने के लिए ज़ीरो-कॉपी स्लाइसिंग करने के लिए उपयोगिताएं शामिल हैं। यह बफ़र्स, टाइप्ड ऐरे और ब्लब्स के बीच रूपांतरण की सुविधा देकर व्यापक डेटा संगतता का भी समर्थन करती है, यह सुनिश्चित करते हुए कि बाइनरी डेटा का आदान-प्रदान विविध वेब इंटरफेस और भंडारण प्रारूपों में किया जा सके।
Ensures seamless data exchange between different web interfaces and storage formats by converting between buffers, typed arrays, and blobs.
My-budget is a cross-platform desktop application designed for personal finance management. It functions as a local-first budgeting tool that allows users to track income and expenses while maintaining complete control over their financial data without relying on cloud services. The application distinguishes itself by integrating automated transaction ingestion, which retrieves and parses financial records directly from banking websites. To ensure privacy, all stored transaction history and budget records are protected by local encryption using user-defined passphrases, keeping sensitive info
Converts raw scraped financial information into standardized internal formats for consistent tracking and reporting.