10 dépôts
Defining data workflows as static graphs optimized before execution.
Explore 10 awesome GitHub repositories matching data & databases · Declarative Pipeline Construction. Refine with filters or upvote what's useful.
Pathway is a high-performance data processing framework designed for building unified batch and streaming pipelines. It functions as an orchestrator for complex data transformations, utilizing a differential dataflow engine to process updates incrementally. By treating static datasets and continuous event streams with identical logic, the platform ensures exactly-once processing semantics and consistent results across diverse data sources. The framework distinguishes itself through its specialized support for real-time artificial intelligence and retrieval-augmented generation. It features in
Defines complex data transformation workflows as static, optimized graphs before execution.
FFmpeg is a cross-platform multimedia framework designed for the recording, conversion, and streaming of audio and video content. It functions as a comprehensive toolkit that provides both a command-line utility for direct media manipulation and a collection of low-level libraries for integration into custom applications. At its core, the project utilizes a packet-based stream engine and a format-agnostic abstraction layer to handle diverse media standards, containers, and network protocols. The framework distinguishes itself through a modular, graph-based filter execution model that allows f
Constructs non-linear processing pipelines that support multiple inputs and outputs to perform advanced tasks like video overlaying or audio mixing.
This tool is a command-line processor designed for querying, updating, and transforming structured data files. It functions as a versatile engine for manipulating YAML, JSON, TOML, and XML documents, allowing users to perform complex operations directly from the terminal. By utilizing a path-based expression language, it enables precise navigation and modification of data structures within configuration files and infrastructure-as-code workflows. What distinguishes this tool is its ability to perform in-place document mutations while preserving original formatting, comments, and metadata. It
Chains multiple data operations through standard input and output streams to enable complex transformations via shell piping.
Taskflow is a C++ task-parallel framework designed to build high-performance parallel workflows and complex dependency graphs. It provides a programming model that organizes computational work into directed acyclic graphs, enabling developers to manage concurrency, resource scheduling, and task dependencies across multi-core CPUs and GPU accelerators. The framework distinguishes itself through its ability to orchestrate heterogeneous systems, allowing for the integration of hardware-accelerated kernels and memory operations into unified execution pipelines. It supports dynamic runtime subflow
Builds multi-stage data processing pipelines where stages execute either serially or in parallel to transform data.
Benthos is a stream processing engine and data integration pipeline used for routing, transforming, and connecting data streams between diverse sources and sinks. It functions as event routing middleware and a change data capture tool, streaming real-time database modifications as discrete events for downstream processing. The system utilizes a declarative pipeline configuration, where data flow and processing logic are defined in a single static file. It features a specialized domain-specific language for mapping, filtering, and enriching data payloads, allowing for complex transformations w
Defines data workflows as static graphs via a single configuration file that is optimized before execution.
node-fluent-ffmpeg est un wrapper Node.js pour FFmpeg qui fournit une interface fluide pour exécuter des commandes média et traiter des fichiers. Il fonctionne comme un gestionnaire de processus qui gère le cycle de vie des binaires FFmpeg externes, permettant le transcodage média par programmation, la génération de vignettes vidéo et l'extraction de métadonnées via ffprobe. La bibliothèque se distingue par un constructeur de commandes qui traduit les appels de méthodes JavaScript en arguments de ligne de commande. Elle dispose d'une surveillance de progression pilotée par les événements pour suivre les images traitées et le débit, ainsi que la capacité de router les données média traitées directement vers des flux inscriptibles pour un traitement en temps réel. Le projet couvre de larges capacités de traitement média, y compris la configuration d'encodage pour les propriétés audio et vidéo, des définitions de filtergraph complexes pour les effets visuels et audio, et la gestion des entrées pour concaténer plusieurs sources. Il inclut également des outils pour sonder les conteneurs et flux média afin de récupérer des métadonnées techniques.
Enables the construction of non-linear processing pipelines using complex filtergraphs for media mixing and overlays.
Ce projet est un programme éducatif complet et un framework de deep learning conçu pour enseigner le deep learning pratique avec PyTorch via des notebooks et des exemples de code. Il sert de bibliothèque de haut niveau pour construire, entraîner et déployer des réseaux de neurones, agissant comme un orchestrateur d'entraînement de modèles qui coordonne les modèles PyTorch, les optimiseurs et les fonctions de perte. Le projet fournit des boîtes à outils spécialisées pour la vision par ordinateur, le traitement du langage naturel et le prétraitement de données tabulaires. Il se distingue par des contrôles d'entraînement avancés tels que des taux d'apprentissage discriminatifs, un système de callback bidirectionnel pour personnaliser la logique d'entraînement, et une abstraction de haut niveau qui automatise le placement sur périphérique et les boucles d'entraînement. Le framework couvre une large surface de capacités, y compris la construction automatisée de pipelines de données, l'analyse d'architecture de modèles et l'évaluation des performances sur des tâches de classification, de régression et de segmentation. Il inclut également des utilitaires pour l'entraînement distribué sur plusieurs GPU, l'entraînement en précision mixte pour l'optimisation de la mémoire, et un support spécialisé pour les données d'imagerie médicale. Le projet est livré sous forme d'une série de Jupyter Notebooks.
Utilizes structured data block blueprints to declaratively define how raw data is assembled into model-ready batches.
docetl is an AI-powered document ETL tool and map-reduce orchestrator designed to transform large collections of unstructured documents into structured, queryable tables using language models. It provides a declarative pipeline framework for extracting, cleaning, and transforming data from sources such as PDFs and text files into predefined schemas. The project distinguishes itself through a semantic data integration suite that enables joining datasets and resolving duplicate entities based on embedding-based similarity. It includes an interactive prompt playground for developing and optimizi
Implements a declarative interface for defining complex data operations and workflows to transform unstructured datasets into tables.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Constructs custom data processing pipelines using a declarative block API.
Dag-factory est un framework pour construire et gérer des pipelines de données Apache Airflow via des fichiers de configuration déclaratifs. En remplaçant le code procédural manuel par des définitions YAML structurées, il permet la génération programmatique de structures de workflow complexes, de dépendances de tâches et de calendriers d'exécution. Le projet se distingue en mappant les clés de configuration directement aux constructeurs de classes et opérateurs Python, permettant l'instanciation dynamique d'objets et une logique personnalisée. Il prend en charge l'héritage de configuration hiérarchique pour standardiser les paramètres entre les environnements et fournit des mécanismes pour injecter des spécifications de pods Kubernetes directement dans les définitions de tâches afin d'assurer une exécution isolée et évolutive. Le framework couvre l'intégralité du cycle de vie du pipeline, incluant la découverte automatique de fichiers, le mappage dynamique au niveau des tâches pour le traitement parallèle et l'attachement de métadonnées pour l'intégration avec des systèmes externes. Il inclut également des utilitaires en ligne de commande pour valider les configurations, déclencher des exécutions et gérer les migrations d'environnement.
Constructs data pipelines by parsing configuration files, allowing users to define workflow structures without manual procedural code.