19 repositorios
Tools for converting data from one structured format to another, such as CSV to JSON, using a processing engine.
Distinct from Data Formats and Parsers: Candidates are either for animation formats or generic parsers; this is about the act of transformation.
Explore 19 awesome GitHub repositories matching data & databases · Data Format Transformations. Refine with filters or upvote what's useful.
Pentaho Kettle es una plataforma empresarial de integración de datos ETL diseñada para extraer, transformar y cargar datos entre fuentes dispares y bases de datos de destino. Funciona como un orquestador basado en metadatos que utiliza un diseñador de flujo de trabajo visual para crear y gestionar secuencias complejas de tareas de datos y tuberías de transformación. El sistema se distingue por su motor de procesamiento de datos distribuido, que ejecuta cargas de trabajo a través de clústeres de nodos de servidor para aumentar el rendimiento. Emplea una arquitectura basada en plugins, lo que permite extender la plataforma mediante archivos JAR externos para proporcionar conectividad a diversas bases de datos y servicios en la nube. La plataforma cubre una amplia gama de capacidades de integración de datos, incluyendo carga masiva, gestión remota de archivos y transformación de estructuras de datos. Proporciona herramientas para la validación de la calidad de los datos, automatización de tuberías y gestión del ciclo de vida de los trabajos, junto con utilidades de monitoreo para rastrear la salud del servidor y el estado de ejecución en tiempo real.
Converts information between different file formats to ensure compatibility when moving data across disparate systems.
AlaSQL is a JavaScript SQL database engine that allows for the filtering, grouping, and joining of in-memory object arrays and JSON data. It functions as an in-memory SQL database and client-side data processor, enabling the execution of SQL statements against JavaScript arrays and external data sources in both browser and server environments. The project serves as a universal data query tool capable of performing relational joins across diverse sources, such as merging Google Spreadsheets, SQLite files, and remote APIs into a single result set. It also acts as an IndexedDB SQL wrapper, allow
Transforms data between formats, such as reading CSV or XLSX and writing the results as JSON.
Bookshelf is a JavaScript ORM for Node.js that provides a structured way to define and interact with database models. It centers on a model-driven approach where developers register models, define their relations, and manage data persistence through a consistent interface. The library distinguishes itself through its comprehensive handling of model relationships and data transformations. It supports defining one-to-one, one-to-many, many-to-many, and polymorphic associations, with the ability to eager load related models in a single query to avoid performance pitfalls. Bookshelf also automate
Parses and formats attribute values when reading from or writing to the database for data normalization.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Applies mathematical, string, and date transformations to incoming data streams for normalization.
Octosql es un motor de consultas SQL federado, transformador de datos y procesador de SQL en streaming. Permite a los usuarios ejecutar sentencias SQL únicas a través de múltiples fuentes de datos dispares, incluyendo diferentes tipos de bases de datos y formatos de archivo, para combinar y transformar resultados en un conjunto unificado. El sistema se distingue por tratar archivos CSV, JSONLines y Parquet como tablas virtuales y utilizar una arquitectura basada en plugins para extender la conectividad a motores de almacenamiento externos. Funciona como un procesador de streaming para flujos de datos infinitos, utilizando marcas de agua (watermarks), retracciones y ventanas deslizantes (tumbling windows) para mantener la consistencia en eventos fuera de orden. Además, sirve como generador de datos SQL capaz de producir conjuntos de datos sintéticos y flujos de registros mediante funciones con valores de tabla. El motor incluye capacidades para realizar joins entre fuentes de datos y análisis multi-fuente, optimizado mediante el push-down de predicados en el lado de la fuente para reducir la transferencia de datos. Gestiona datos complejos a través de un sistema de tipos estáticos con tipos unión y proporciona observabilidad mediante la visualización de planes de ejecución de consultas.
Treats CSV, JSONLines, and Parquet files as virtual tables for analysis and transformation via SQL.
Este proyecto es una colección de frameworks y pipelines de big data, que incluye un framework de análisis de Apache Hive, una plataforma de análisis de datos de comportamiento, un motor de análisis predictivo y pipelines de datos en tiempo real. Proporciona la infraestructura para construir flujos de trabajo ETL (Extract, Transform, Load) para procesar grandes conjuntos de datos para almacenamiento distribuido y análisis basado en SQL. El sistema admite diversas implementaciones analíticas, como un motor predictivo que utiliza regresión lineal para la previsión de valores y una arquitectura en tiempo real que mueve datos a través de intermediarios de mensajes para informes inmediatos. Incluye capacidades especializadas para análisis de comportamiento del usuario, medición de rendimiento de comercio electrónico y análisis de datos de tránsito urbano. El código base cubre una amplia superficie de ingeniería y análisis de datos, incluyendo limpieza y transformación de datos, ingesta de datos distribuida, procesamiento de flujos basado en ventanas y visualización de resultados mediante herramientas de inteligencia de negocios. Además, permite el cálculo de métricas de negocio específicas como tasas de conversión, rendimiento de monetización y niveles de compromiso del usuario.
Transforms raw JSON formatted source data into cleaned CSV files for downstream analytical processing.
Kiln es un workbench de desarrollo de LLM y framework de evaluación diseñado para diseñar, probar y optimizar prompts y agentes de IA. Funciona como un orquestador multi-agente y una herramienta de optimización RAG, proporcionando una interfaz visual para el desarrollo iterativo de sistemas de IA. El proyecto se distingue por un pipeline de fine-tuning integral que soporta entrenamiento de modelos sin código y destilación de razonamiento. Permite la creación de sistemas multi-agente jerárquicos donde actores especializados se coordinan mediante tool calling, e implementa un servidor de Model Context Protocol para exponer estos agentes y capacidades de búsqueda como herramientas estandarizadas para clientes externos. La plataforma cubre una amplia gama de capacidades, incluyendo puntuación automatizada por jueces de IA para control de calidad, generación de datos sintéticos para entrenamiento y evaluación, y recuperación híbrida vector-keyword para fundamentar las respuestas del modelo. También proporciona herramientas para la evolución de prompts, auditoría de trazas y gestión de datasets colaborativos mediante integración con Git. El workbench es accesible a través de una API REST autohospedable y una librería de Python dedicada para la ejecución programática de flujos de trabajo.
Converts raw input data into structured formats using templates for cleaning and reshaping.
codeigniter-restserver es un framework de API REST y una biblioteca de controladores para construir servidores RESTful dentro del entorno PHP de CodeIgniter. Funciona como una implementación de backend que maneja métodos HTTP estándar para exponer datos y funcionalidades a través de endpoints estructurados. El proyecto incluye un motor de respuesta personalizable que permite la transformación de los datos de salida en varios formatos específicos mediante métodos de formateo personalizados. La biblioteca proporciona herramientas para mapear solicitudes HTTP entrantes a métodos de controlador, gestionar respuestas de recursos e implementar control de acceso basado en configuración.
Transforms server output into specific formats to meet the requirements of different third-party API consumers.
Consul Template es un renderizador de configuración y gestor de configuración dinámica que genera archivos poblando plantillas con datos de Consul y Vault. Funciona como un motor de plantillas de descubrimiento de servicios y un integrador de gestión de secretos, transformando el catálogo del clúster y los datos de salud en archivos de configuración formateados. La herramienta se distingue por actuar como un supervisor de procesos y notificador, capaz de ejecutar comandos de shell o reiniciar aplicaciones automáticamente después de que las plantillas se actualizan. Cuenta con un observador de sondeo largo (long-polling) para monitorear almacenes clave-valor remotos y emplea un mecanismo de bloqueo compartido para coordinar actualizaciones en múltiples instancias y evitar reinicios de servicio simultáneos. El sistema cubre una amplia gama de capacidades, incluyendo la rotación automática de secretos para certificados PKI y credenciales de Vault, transformación de formatos de datos para JSON y YAML, y la ejecución de plugins binarios externos para el procesamiento de datos personalizado. También proporciona arranque de infraestructura (bootstrapping) y sincronización de renderizado distribuido para reducir la carga de la API mediante la deduplicación de consultas basada en líderes.
Converts data structures into JSON, YAML, TOML, or base64 strings with pretty-printing.
JSON-java es una biblioteca de Java para analizar y generar texto JSON y mapearlo a objetos y colecciones de Java. Funciona como un framework de serialización para convertir instancias de clase y estructuras de datos en cadenas JSON estandarizadas. El proyecto incluye una implementación de puntero JSON para recuperar valores específicos de documentos utilizando representaciones de cadena o fragmentos de URI. También proporciona un convertidor para traducir estructuras de datos entre JSON y XML, así como un traductor para transformar datos entre JSON y formatos web como cabeceras HTTP, cookies y listas delimitadas por comas. La biblioteca cubre capacidades amplias para el procesamiento de JSON, incluyendo serialización y deserialización de objetos. Soporta el análisis flexible de texto JSON en objetos y la generación de documentos JSON estandarizados.
Transforms data between JSON and web-specific formats such as browser cookies and comma-delimited lists.
Rudder Server es una plataforma de datos de clientes y una tubería de enrutamiento de eventos diseñada para recopilar, transformar y enrutar datos de eventos de clientes desde diversas fuentes a almacenes de datos y herramientas de negocio. Funciona como un resolutor de identidad de clientes, vinculando identificadores de múltiples fuentes para construir un gráfico de identidad unificado y perfiles de clientes conductuales integrales. El sistema se diferencia por sus capacidades de ETL inverso, que envían segmentos y audiencias de clientes procesados desde almacenes de datos de vuelta a aplicaciones operativas de terceros. También proporciona un plano de datos contenedorizado para despliegues en Kubernetes, permitiendo la gestión de la infraestructura de datos como código. La plataforma cubre una amplia gama de capacidades de gestión de datos, incluyendo la transformación de eventos en tiempo real, la validación de esquemas mediante catálogos de datos y la gobernanza de la privacidad. Estas incluyen herramientas para gestionar el consentimiento del usuario, hacer cumplir la residencia de datos dentro de regiones geográficas específicas y enmascarar información de identificación personal durante el tránsito. La instalación y el despliegue de los componentes del plano de datos se gestionan utilizando gráficos de Helm.
Converts event data into destination-specific formats using a pipeline of enrichment, filtering, and anonymization functions.
llm-foundry es un framework de entrenamiento para modelos de lenguaje de gran tamaño (LLM), que proporciona un sistema para el preentrenamiento de modelos base y el ajuste fino (fine-tuning) supervisado. Incluye un entrenador distribuido para escalar cargas de trabajo a través de múltiples nodos y GPUs, un pipeline de streaming de datasets para cargar datos desde almacenamiento en la nube y una implementación de ajuste fino eficiente en parámetros. El framework se distingue por su uso de fragmentación de parámetros (sharding) y streaming de datos de alto rendimiento para mantener la estabilidad durante el entrenamiento a gran escala. Incorpora adaptación de bajo rango (LoRA) para reducir los costes computacionales y utiliza precisión de punto flotante de ocho bits para aumentar la velocidad de cómputo en hardware compatible. El código base cubre una amplia gama de capacidades, incluyendo ingeniería de datasets para transformar datos crudos en formatos comprimidos, evaluación del rendimiento del modelo mediante una suite de evaluación y la capacidad de exportar pesos del modelo a formatos estándar de la industria. También admite el registro de componentes personalizados mediante decoradores y proporciona control sobre los métodos de embedding posicional.
Transforms raw data into compressed, streaming-compatible formats to improve training efficiency and throughput.
Assemble is a static site generator and build pipeline system that compiles markdown, templates, and data into static HTML files. It functions as a markdown-to-HTML converter and a data format transformer capable of moving content between JSON, YAML, XML, PLIST, and CSV formats. The project features a pipeline-based build process where users can define ordered sequences of data transformations and file processing steps. It includes project scaffolding tools to bootstrap directory structures and configuration files from predefined boilerplates. The system manages content through collection-ba
Converts files between JSON, YAML, XML, PLIST, and CSV formats using a transformation engine.
Este proyecto es una capa de abstracción de base de datos para Laravel que implementa el patrón de repositorio para desacoplar la lógica de negocio de las consultas de base de datos Eloquent. Proporciona una interfaz estandarizada para la recuperación, paginación y filtrado de datos. El sistema incluye un mecanismo de criterios de consulta para aplicar condiciones de búsqueda reutilizables basadas en parámetros de petición y un envoltorio de caché que limpia automáticamente los resultados almacenados durante la creación, actualización o eliminación de registros. También cuenta con una capa de presentación para transformar los atributos de los modelos de base de datos sin procesar en una salida formateada para interfaces de usuario. Las capacidades adicionales incluyen una herramienta de línea de comandos para el andamiaje de modelos, repositorios, controladores y proveedores de servicios, así como herramientas para validar datos de repositorio y transformar atributos de modelos.
Formats data objects using presenters to decouple internal database structures from the final output.
AdalFlow es un framework de agentes de IA autónomos y una librería de aplicaciones LLM diseñada para construir flujos de trabajo modulares. Sirve como una interfaz agnóstica al modelo y orquestador de pipelines RAG, permitiendo a los usuarios desarrollar agentes ReAct que utilizan razonamiento iterativo y ejecución de herramientas externas para resolver tareas complejas. El proyecto se distingue por un sistema de optimización de prompts que utiliza descenso de gradiente textual para refinar automáticamente las plantillas de prompts y ejemplos de pocos disparos (few-shot). Trata la retroalimentación del modelo como una señal diferenciable, permitiendo una forma de retropropagación de LLM para mejorar iterativamente la calidad de la salida basada en métricas de evaluación. El framework cubre una amplia superficie de capacidades, incluyendo generación aumentada por recuperación (RAG) con búsqueda semántica vectorial y reranking, rastreo de ejecución basado en spans para observabilidad y análisis estructurado basado en esquemas. Proporciona una capa de comunicación unificada para numerosos proveedores de modelos propietarios y de código abierto, y admite la conversión de funciones de Python en interfaces de herramientas estandarizadas. El sistema está implementado en Python y se integra con MLflow para el seguimiento y análisis de flujos de trabajo.
Converts data between dictionaries, JSON, YAML, and dataclass objects to facilitate internal data movement.
fsql is a command line interface tool that provides a SQL-like query language for finding files and directories on a local disk. It functions as a filesystem query engine, allowing users to isolate files by executing structured statements against metadata instead of using standard command line flags. The tool features an interactive read-eval-print loop that supports multi-line queries and recursive subqueries, where the results of nested search operations serve as criteria for outer queries. Search scopes are configurable through the resolution of absolute paths, relative paths, environment
Converts file attribute values into specific display formats, including size unit conversion and timestamp styling.
This project is a high-performance tabular data processing framework for R, designed to handle massive datasets with memory efficiency and speed. It provides an enhanced data structure that utilizes reference semantics and in-place modification to perform complex transformations without the overhead of unnecessary object copying. The library distinguishes itself through its low-level architectural optimizations, including multi-threaded parallel processing, radix-based sorting, and memory-mapped file parsing. By offloading critical data manipulation and aggregation routines to compiled C code
Converts tabular data between wide and long formats using optimized casting and melting operations.
dsq is a command-line utility that enables SQL-based analysis of local files by treating them as relational database tables. It allows users to execute standard SQL queries against heterogeneous data formats, including JSON, CSV, Excel, and Parquet, without requiring a formal database import process. The tool distinguishes itself by providing a persistent interactive shell for iterative data exploration and schema inspection. It supports complex operations such as joining data across multiple disparate files and converting between structured formats by applying SQL transformations to the inpu
Transforms input files into structured JSON output by applying SQL queries to the input data without requiring manual schema definitions.
Buffer es una librería para manipulación de datos binarios que proporciona una implementación compatible con navegador de la interfaz de programación de aplicaciones de datos binarios de Node.js. Permite a los desarrolladores crear, modificar y procesar estructuras de datos binarios crudos dentro de entornos web utilizando una interfaz consistente que refleja los estándares del lado del servidor. La librería se distingue por proporcionar un enfoque unificado para el desarrollo de JavaScript multiplataforma, permitiendo código compartido entre entornos de servidor y navegador. Logra esto mediante polyfilling de métodos binarios estándar y extendiendo el prototipo de array de bytes nativo, asegurando que los desarrolladores puedan gestionar memoria y estructuras de datos sin depender de implementaciones específicas del entorno. El toolkit incluye utilidades para manejar el acceso a datos consciente de la endianness y realizar slicing de copia cero para manipular segmentos de memoria sin duplicar cargas útiles. También soporta una amplia compatibilidad de datos facilitando conversiones entre buffers, arrays tipados y blobs, asegurando que los datos binarios puedan ser intercambiados a través de diversas interfaces web y formatos de almacenamiento.
Ensures seamless data exchange between different web interfaces and storage formats by converting between buffers, typed arrays, and blobs.