2 Repos
Frameworks and platforms for building, scheduling, and managing data pipelines.
Explore 2 awesome GitHub repositories matching part of an awesome list · Data Engineering Tools. Refine with filters or upvote what's useful.
Metaflow is a Python machine learning framework and MLOps workflow orchestrator designed to manage the lifecycle of data pipelines from local prototyping to production. It serves as a distributed compute manager and an experiment tracking system, enabling the creation of reproducible pipelines that transition between development and high-availability production environments. The framework distinguishes itself through an integrated checkpointing system that automatically persists intermediate data artifacts to remote storage, allowing failed runs to be resumed from the last successful step. It
Framework for building and managing end-to-end data science workflows.
lakeFS ist ein Data-Lake-Versionierungssystem, das Git-ähnliche Branching- und Commit-Funktionen für große Datensätze in Objektspeichern bietet. Es fungiert als Versionskontrollschicht und ermöglicht die Erstellung unveränderlicher Snapshots, atomarer Commits und Zero-Copy-Branching, um isolierte Umgebungen für Datenexperimente zu schaffen, ohne physische Dateien zu duplizieren. Das System dient als S3-kompatibles Storage-Gateway und Iceberg-REST-Katalog, wodurch Standard-Cloud-Storage-Protokolle und kompatible Clients versionierte Tabellen verwalten können. Es fungiert als Data-Quality-Gatekeeper, indem es ein eventgesteuertes Hook-System nutzt, um Datensätze gegen Governance-Richtlinien zu validieren, bevor Änderungen in die Produktion gemergt werden. Die Plattform deckt umfassende Funktionen für Data-Governance ab, einschließlich Pull-Request-Kollaboration, rollenbasierter Zugriffskontrolle und Data-Lineage-Tracking. Sie bietet Integrationen für Workflow-Orchestrierung, Machine-Learning-Pipelines und verschiedene Big-Data-Compute-Engines und unterstützt Multi-Cloud-Storage-Konnektivität sowie Identitätssynchronisation via SSO und SCIM. Die Software kann mittels Binärdateien, Containern oder Helm-Charts für die Bereitstellung auf Kubernetes installiert werden.
Tool for versioning and managing data lake operations and ETL jobs.