18 repository-uri
Logic for modifying the structure and values of specific data columns within a dataset.
Distinct from Field Manipulation APIs: Closet candidates are either UI-focused or narrow API methods; this is a general data processing capability.
Explore 18 awesome GitHub repositories matching data & databases · Field Transformations. Refine with filters or upvote what's useful.
Keystone Classic is a Node.js headless content management system and web application framework. It provides a database schema framework for defining structured data models and validation rules to organize information. The system automatically generates a responsive administrative dashboard based on predefined data models and database fields, allowing for content management and record editing without custom administration code. The framework covers identity and security through session state management and password encryption. It includes capabilities for request routing, form submission proc
Allows modifying or formatting data using specialized methods before it is saved to or retrieved from the database.
Miller is a command-line data processor used for filtering, transforming, and aggregating name-indexed tabular data. It functions as a tool for querying and reshaping records across multiple file formats, serving as a converter between CSV, JSON, and YAML. The tool distinguishes itself by using a name-indexed data model, allowing users to manipulate fields by name rather than numeric position. It utilizes single-pass streaming algorithms to compute statistics and summaries on large datasets that exceed available system memory. Its capabilities cover data transformation and analysis, includin
Modifies datasets by removing unwanted columns or calculating new fields using logical expressions.
SeaTunnel is a distributed data integration engine designed to synchronize structured and unstructured data across diverse sources and sinks. It functions as a multi-engine execution framework that can run data integration tasks across different distributed computing backends to optimize workload performance. The project is distinguished by a visual data pipeline designer for configuring workflows without manual code and a specialized change data capture tool for streaming incremental database updates. It also includes an enrichment pipeline that integrates large language models and embedding
Supports renaming or replacing specific fields within a record to align source schemas with destination requirements.
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Applies user-defined mapping functions to modify, enrich, or clean individual dataset fields.
csvkit is a composable Unix-style command-line toolkit for converting, filtering, and analyzing CSV files directly from the terminal. It provides a suite of focused single-purpose commands that can be combined via pipes to build complex data processing workflows, with a modular architecture that includes a column-type inference engine for automatically detecting data types and a streaming-pipeline design for efficient handling of tabular data. The toolkit distinguishes itself through its SQL-engine abstraction layer, which allows users to run SQL queries directly against CSV files without req
Displays column names, data types, and sample values to help understand a CSV file's structure.
pgloader is a command-line tool that automates the migration of data and schema from various source databases and file formats into PostgreSQL. It combines schema discovery, parallel data pipelines, and type casting into a single, declarative workflow, using PostgreSQL's COPY protocol for high-throughput bulk loading. The tool distinguishes itself by compiling a dedicated command language into concurrent reader-writer pipelines that handle schema introspection, data transformation, and error-resilient batch processing. It supports migrating entire databases from MySQL, MS SQL, SQLite, and Pos
Applies per-column options such as date format parsing, null-value substitution, and whitespace trimming during CSV loading.
RediSearch is a Redis module that adds secondary indexing, full-text search, aggregation, and vector similarity search directly into the in-memory data store. It operates as an in-process search engine, extending the core key-value store with capabilities for indexing hash and JSON documents, enabling fast field-level lookups beyond primary key access. The module provides a full-text search engine built on inverted indexes, supporting stemming, fuzzy matching, and relevance scoring via tf-idf. It also includes a vector similarity search engine using a Hierarchical Navigable Small World graph
Computes new field values from existing ones using arithmetic expressions and built-in functions in the aggregation pipeline.
attrs is a Python library that automatically generates initialization, representation, equality, hashing, and ordering methods from declarative class attribute definitions. At its core, it provides a class decorator metaprogramming framework that intercepts class creation to rewrite the class body, producing dunder methods without manual boilerplate. The library includes a comprehensive attribute validation toolkit with built-in validators for type checks, range constraints, regex matching, length limits, and logical composition of validation rules. The library distinguishes itself through it
Supports generator functions as field transformers during class creation.
GluonTS este o bibliotecă de serii temporale probabilistice și un framework de prognoză prin deep learning. Oferă un toolkit pentru construirea, antrenarea și evaluarea arhitecturilor de rețele neuronale care prezic valori viitoare ca distribuții de probabilitate pentru a cuantifica incertitudinea. Proiectul se distinge prin suportul pentru prognoza zero-shot și integrarea unor abordări de modelare diverse, incluzând rețele neuronale probabilistice profunde și wrapper-e pentru biblioteci statistice externe precum Prophet și R forecast. Implementează primitive arhitecturale specializate precum convoluțiile cauzale și rețelele reziduale inversabile pentru a preveni scurgerea informațiilor și a mapa reprezentările latente în distribuții de probabilitate valide. Framework-ul acoperă o suprafață cuprinzătoare de inginerie a datelor, incluzând scalarea seriilor temporale, transformări bijective și modelare ierarhică. Utilizează Apache Arrow și Parquet pentru streaming-ul seturilor de date de înaltă performanță și gestionarea accesului aleatoriu. Pentru evaluarea modelului, include o suită de evaluare pentru măsurarea acurateței prognozei și a acoperirii probabilistice folosind metrici precum quantile loss și continuous rank probability scores. Biblioteca suportă implementarea modelului prin integrarea cu Amazon SageMaker.
Implements logic for modifying the structure and values of specific data columns within a dataset.
GluonTS este un framework pentru prognoza probabilistică a seriilor temporale, conceput pentru a prezice valori viitoare ca distribuții de probabilitate cu intervale de încredere. Suportă atât antrenarea modelelor tradiționale, cât și prognoza zero-shot, unde modelele preantrenate generează predicții pentru serii noi fără antrenare suplimentară. Proiectul se distinge prin integrarea unei mari varietăți de abordări de prognoză într-un flux de lucru unificat. Aceasta include arhitecturi de deep learning precum rețelele neuronale recurente și convoluțiile cauzale, precum și integrarea modelelor statistice externe, a bibliotecii Prophet și a pachetelor R. Toolkit-ul oferă o suprafață cuprinzătoare pentru ingineria datelor de serii temporale, acoperind scalarea seturilor de date, divizarea și transformarea datelor temporale brute în tensori. Include, de asemenea, o suită de instrumente de evaluare pentru măsurarea acurateței prognozei și a intervalelor de incertitudine, precum și utilitare pentru persistența seturilor de date folosind formate precum Arrow și Parquet. Framework-ul suportă implementarea modelelor de prognoză în cadrul infrastructurii cloud.
Converts date-based start fields into standardized periods using specific observation frequencies.
Vega-Lite is a high-level declarative language for specifying interactive, multi-view visualizations. It compiles a concise JSON specification into a full Vega visualization, automatically inferring scales, axes, and legends from encoding declarations. The grammar-of-graphics encoding maps data fields to visual channels such as position, color, size, and shape, while a multi-view composition grammar enables layered, faceted, concatenated, and repeated layouts. Reactive parameter binding links named parameters to input widgets, selections, and expressions for dynamic updates. The project suppo
Vega-Lite creates a new field in each data record by evaluating a formula expression against existing fields.
Mimesis este un generator de date sintetice pentru Python, utilizat pentru a crea seturi de date false realiste și date mock pentru testarea și dezvoltarea software-ului. Funcționează ca un generator de seturi de date bazat pe scheme, capabil să producă înregistrări structurate și seturi de date relaționale, servind totodată ca un anonimizator de date de producție pentru a înlocui informațiile sensibile cu valori sintetice. Biblioteca se distinge prin suportul multilingv cuprinzător, permițând generarea de informații specifice localității pentru a simula profiluri de utilizatori regionali. Asigură reproductibilitatea prin generarea deterministă de date folosind seed-uri, permițând crearea de seturi de date consistente între diferite rulări. Instrumentul acoperă o gamă largă de conținut sintetic, inclusiv identitate personală, date financiare, adrese geografice, metadate de rețea și secvențe științifice. Capabilitățile sale se extind la transformarea datelor prin logică condițională și piping, precum și la integrarea cu dataframe-uri și pattern-uri de tip factory. De asemenea, suportă generarea de coduri de sistem standardizate, token-uri criptografice și mock-uri de fișiere binare. Framework-ul este extensibil prin furnizori de date personalizați și field handlere, permițând utilizatorilor să integreze logică specifică domeniului și fișiere JSON externe pentru generarea specializată de date.
Modifies synthetic data values using functions for case conversion, padding, truncation, and encoding.
Visual Insights este o platformă automatizată de analiză exploratorie a datelor și un instrument de inferență cauzală conceput pentru a descoperi tipare și relații cauză-efect în seturi de date. Funcționează ca o bibliotecă interactivă de vizualizare a datelor folosind o abordare de tip grammar-of-graphics pentru a genera grafice și dashboard-uri multidimensionale. Proiectul se distinge printr-o interfață în limbaj natural care traduce întrebările în text simplu în răspunsuri și vizualizări de date prin intermediul unui model de limbaj. Oferă un framework specializat pentru descoperirea și inferența cauzală, permițând utilizatorilor să identifice legăturile dintre variabile prin grafuri cauzale interactive și să efectueze analize de tip what-if pentru a valida ipotezele. Platforma acoperă o gamă largă de capabilități, inclusiv curățarea vizuală a datelor, profilarea statistică și transformarea automatizată a seturilor de date. Suportă integrarea diverselor date din fișiere locale și baze de date la distanță și dispune de un motor de procesare de înaltă performanță pentru gestionarea locală a seturilor mari de date. În plus, sistemul permite încorporarea componentelor de analiză interactivă în aplicații web și notebook-uri.
Applies transformations to fields, including encoding categorical variables and grouping time units.
Acest proiect este un sistem de captură a datelor modificate (CDC) și un strat de sincronizare care mută datele din bazele de date MySQL în indecși Elasticsearch. Funcționează ca un mapper relațional-la-document, transformând tabelele bazei de date în documente căutabile pentru a permite integrarea datelor în timp real și căutarea full-text. Sincronizatorul se diferențiază prin suportul pentru denormalizarea datelor relaționale, care transformă join-urile de tip unu-la-mai-mulți din baza de date în structuri de documente părinte-copil. De asemenea, permite agregarea tabelelor partiționate, utilizând modele de expresii regulate pentru a grupa mai multe tabele de bază de date într-un singur index de căutare. Sistemul acoperă maparea și transformarea cuprinzătoare a datelor, inclusiv conversia tipurilor de câmpuri, maparea schemei și filtrarea câmpurilor sincronizate. Utilizează un model de procesare bazat pe pipeline pentru a decoda și îmbina câmpurile, folosind atât încărcarea inițială bazată pe snapshot-uri pentru linii de bază, cât și streaming-ul jurnalului binar pentru actualizări în timp real.
Renames columns and converts data types to transform strings into arrays or integers into dates during synchronization.
NeoSync este un instrument de sincronizare a bazelor de date și orchestrator de pipeline de date conceput pentru a muta și transforma seturi de date între diferite medii. Funcționează ca o platformă de securitate a datelor PII și un generator de date sintetice, permițând sincronizarea datelor de producție asigurând în același timp conformitatea cu confidențialitatea. Sistemul utilizează un coordonator bazat pe evenimente pentru a gestiona mișcările asincrone de date, oferind reîncercare automată și gestionarea eșecurilor. Se diferențiază prin combinarea anonimizării și detectării PII bazate pe reguli cu generarea de date sintetice bazată pe schemă pentru a crea seturi de date artificiale care mimează proprietățile de producție fără a expune informații private. Proiectul acoperă domenii largi de capabilități, inclusiv subsetarea bazelor de date pentru a reduce volumul de date pentru testare, transformări de câmpuri bazate pe șabloane pentru a remodela informațiile și orchestrarea pipeline-urilor de date pentru a menține integritatea relațională în timpul sincronizării.
Modifies specific data columns during synchronization using predefined scripts or models to reshape information.
Baserow is a self-hosted, no-code relational database platform built on PostgreSQL. It provides a spreadsheet-like interface for structuring and managing data without writing code, while exposing all database resources via a REST API to support headless architectures. The platform distinguishes itself by integrating large language models and embedding servers to power AI assistants and automated data generation. It further extends its utility as a no-code application builder, allowing users to create custom internal portals, dashboards, and business tools using visual logic and managed data.
Creates new fields by evaluating formulas that reference and depend on other existing fields in the record.
dcat-admin este un framework de panou de administrare Laravel utilizat pentru a construi rapid interfețe administrative bazate pe date. Funcționează ca un generator CRUD și instrument de scaffolding backend care produce automat interfețe de creare, citire, actualizare și ștergere bazate pe schemele tabelelor din baza de date. Sistemul se distinge printr-o arhitectură de extensii bazată pe plugin-uri și capacitatea de a rula mai multe instanțe administrative independente într-o singură instalare. Oferă instrumente specializate pentru maparea API-urilor externe către formulare și tabele, precum și un ciclu de viață al formularului bazat pe evenimente pentru executarea de logică personalizată în timpul rezoluției și trimiterii. Framework-ul acoperă o gamă largă de domenii de capabilități, inclusiv controlul accesului bazat pe roluri (RBAC) pentru gestionarea permisiunilor ierarhice, o suită completă de grile de gestionare a datelor cu editare inline și fluxuri de lucru pentru formulare în mai mulți pași. Include, de asemenea, instrumente de vizualizare a datelor pentru dashboard-uri operaționale și o varietate de utilitare de manipulare a conținutului pentru încărcări de fișiere mari și editare text îmbogățit. Sunt furnizate utilitare de linie de comandă pentru a automatiza generarea componentelor administrative și a claselor de acțiune.
Transforms raw database values into visual elements like badges, hyperlinks, and images to improve data readability.
Acest proiect este o bibliotecă reactivă de gestionare a stării, concepută pentru gestionarea datelor complexe din formulare și a logicii de validare. Utilizează tipare bazate pe observabile pentru a sincroniza componentele interfeței utilizator cu modelele de date subiacente, asigurându-se că stările formularelor rămân consistente pe parcursul unei aplicații. Biblioteca oferă o abordare structurată pentru gestionarea inițializării formularelor, urmărirea câmpurilor și evenimentele ciclului de viață. Biblioteca se distinge prin suportul pentru structuri de date profund imbricate și compoziție ierarhică, permițând validarea recursivă și actualizările dinamice în arbori de obiecte complecși. Dispune de un motor de validare bazat pe schemă care suportă atât reguli sincrone, cât și asincrone, alături de interceptarea de tip middleware care permite logicii personalizate să monitorizeze sau să transforme datele în timpul actualizărilor de câmp. Dezvoltatorii pot accesa și manipula câmpuri specifice dinamic folosind adresarea bazată pe cale, oferind flexibilitate atunci când lucrează cu modele de formulare mari sau în evoluție. Dincolo de gestionarea de bază a stării, biblioteca include utilitare pentru transformarea datelor, cum ar fi formatarea valorilor de input și calcularea valorilor câmpurilor pe baza altor date din formular. Oferă capabilități de orchestrare a mai multor formulare pentru a coordona validarea și trimiterea pe mai multe instanțe și rămâne decuplată de straturile de prezentare specifice pentru a permite integrarea cu orice bibliotecă de componente de interfață utilizator. Framework-ul oferă, de asemenea, instrumente încorporate pentru monitorizarea evenimentelor ciclului de viață al câmpurilor și depanarea tranzițiilor interne de stare.
Cleans or transforms input values automatically, such as trimming whitespace or parsing numeric strings, before they are processed or stored.