10 repository-uri
Defining data workflows as static graphs optimized before execution.
Explore 10 awesome GitHub repositories matching data & databases · Declarative Pipeline Construction. Refine with filters or upvote what's useful.
Pathway is a high-performance data processing framework designed for building unified batch and streaming pipelines. It functions as an orchestrator for complex data transformations, utilizing a differential dataflow engine to process updates incrementally. By treating static datasets and continuous event streams with identical logic, the platform ensures exactly-once processing semantics and consistent results across diverse data sources. The framework distinguishes itself through its specialized support for real-time artificial intelligence and retrieval-augmented generation. It features in
Defines complex data transformation workflows as static, optimized graphs before execution.
FFmpeg is a cross-platform multimedia framework designed for the recording, conversion, and streaming of audio and video content. It functions as a comprehensive toolkit that provides both a command-line utility for direct media manipulation and a collection of low-level libraries for integration into custom applications. At its core, the project utilizes a packet-based stream engine and a format-agnostic abstraction layer to handle diverse media standards, containers, and network protocols. The framework distinguishes itself through a modular, graph-based filter execution model that allows f
Constructs non-linear processing pipelines that support multiple inputs and outputs to perform advanced tasks like video overlaying or audio mixing.
This tool is a command-line processor designed for querying, updating, and transforming structured data files. It functions as a versatile engine for manipulating YAML, JSON, TOML, and XML documents, allowing users to perform complex operations directly from the terminal. By utilizing a path-based expression language, it enables precise navigation and modification of data structures within configuration files and infrastructure-as-code workflows. What distinguishes this tool is its ability to perform in-place document mutations while preserving original formatting, comments, and metadata. It
Chains multiple data operations through standard input and output streams to enable complex transformations via shell piping.
Taskflow is a C++ task-parallel framework designed to build high-performance parallel workflows and complex dependency graphs. It provides a programming model that organizes computational work into directed acyclic graphs, enabling developers to manage concurrency, resource scheduling, and task dependencies across multi-core CPUs and GPU accelerators. The framework distinguishes itself through its ability to orchestrate heterogeneous systems, allowing for the integration of hardware-accelerated kernels and memory operations into unified execution pipelines. It supports dynamic runtime subflow
Builds multi-stage data processing pipelines where stages execute either serially or in parallel to transform data.
Benthos is a stream processing engine and data integration pipeline used for routing, transforming, and connecting data streams between diverse sources and sinks. It functions as event routing middleware and a change data capture tool, streaming real-time database modifications as discrete events for downstream processing. The system utilizes a declarative pipeline configuration, where data flow and processing logic are defined in a single static file. It features a specialized domain-specific language for mapping, filtering, and enriching data payloads, allowing for complex transformations w
Defines data workflows as static graphs via a single configuration file that is optimized before execution.
node-fluent-ffmpeg este un wrapper Node.js pentru FFmpeg care oferă o interfață fluentă pentru executarea comenzilor media și procesarea fișierelor. Funcționează ca un manager de procese care gestionează ciclul de viață al binarilor FFmpeg externe, permițând transcodarea media programatică, generarea de miniaturi video și extragerea metadatelor prin ffprobe. Biblioteca se distinge printr-un constructor de comenzi care traduce apelurile de metode JavaScript în argumente de linie de comandă. Dispune de monitorizarea progresului bazată pe evenimente pentru a urmări cadrele procesate și throughput-ul, precum și capacitatea de a direcționa datele media procesate direct către fluxuri inscriptibile (writable streams) pentru manipulare în timp real. Proiectul acoperă capabilități largi de procesare media, inclusiv configurarea codificării pentru proprietățile audio și video, definiții complexe de filtergraph pentru efecte vizuale și audio, și gestionarea intrărilor pentru concatenarea mai multor surse. Include, de asemenea, instrumente pentru sondarea containerelor și fluxurilor media pentru a recupera metadate tehnice.
Enables the construction of non-linear processing pipelines using complex filtergraphs for media mixing and overlays.
Acest proiect este un program educațional cuprinzător și un framework de deep learning conceput pentru a preda deep learning practic folosind PyTorch prin notebook-uri și exemple de cod. Servește drept bibliotecă de nivel înalt pentru construirea, antrenarea și implementarea rețelelor neuronale, acționând ca un orchestrator de antrenare a modelelor care coordonează modelele PyTorch, optimizatoarele și funcțiile de loss. Proiectul oferă toolkit-uri specializate pentru computer vision, procesarea limbajului natural și preprocesarea datelor tabelare. Se distinge prin controale avansate de antrenare, cum ar fi rate de învățare discriminative, un sistem de callback bidirecțional pentru personalizarea logicii de antrenare și o abstractizare de nivel înalt a learner-ului care automatizează plasarea pe dispozitiv și buclele de antrenare. Framework-ul acoperă o suprafață largă de capabilități, inclusiv construcția automată a pipeline-urilor de date, analiza arhitecturii modelelor și evaluarea performanței în sarcini de clasificare, regresie și segmentare. Include, de asemenea, utilitare pentru antrenarea distribuită pe mai multe GPU-uri, antrenarea cu precizie mixtă pentru optimizarea memoriei și suport specializat pentru date de imagistică medicală. Proiectul este livrat sub formă de serie de Jupyter Notebooks.
Utilizes structured data block blueprints to declaratively define how raw data is assembled into model-ready batches.
docetl is an AI-powered document ETL tool and map-reduce orchestrator designed to transform large collections of unstructured documents into structured, queryable tables using language models. It provides a declarative pipeline framework for extracting, cleaning, and transforming data from sources such as PDFs and text files into predefined schemas. The project distinguishes itself through a semantic data integration suite that enables joining datasets and resolving duplicate entities based on embedding-based similarity. It includes an interactive prompt playground for developing and optimizi
Implements a declarative interface for defining complex data operations and workflows to transform unstructured datasets into tables.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Constructs custom data processing pipelines using a declarative block API.
Dag-factory este un framework pentru construirea și gestionarea pipeline-urilor de date Apache Airflow prin fișiere de configurare declarative. Prin înlocuirea codului procedural manual cu definiții YAML structurate, acesta permite generarea programatică a structurilor complexe de workflow, a dependențelor de sarcini și a programărilor de execuție. Proiectul se distinge prin maparea cheilor de configurare direct la constructori de clase Python și operatori, permițând instanțierea dinamică a obiectelor și logica personalizată. Suportă moștenirea ierarhică a configurației pentru a standardiza setările între medii și oferă mecanisme pentru injectarea specificațiilor de pod Kubernetes direct în definițiile sarcinilor pentru a asigura o execuție izolată și scalabilă. Framework-ul acoperă întregul ciclu de viață al pipeline-ului, inclusiv descoperirea automată a fișierelor, maparea dinamică la nivel de sarcină pentru procesarea paralelă și atașarea de metadate pentru integrarea cu sisteme externe. De asemenea, include utilitare de linie de comandă pentru validarea configurațiilor, declanșarea execuțiilor și gestionarea migrărilor de mediu.
Constructs data pipelines by parsing configuration files, allowing users to define workflow structures without manual procedural code.