What are the best Awesome Data Processing Pipelines GitHub Repositories?

Systems and workflows for ingesting, transforming, and orchestrating high-throughput data processing tasks. Explore 1,176 awesome GitHub repositories matching data & databases · Data Processing Pipelines. Refine with filters or upvote what's useful. Top picks: kamranahmedse/developer-roadmap, jwasham/coding-interview-university, donnemartin/system-design-primer, vinta/awesome-python, thealgorithms/python, vuejs/vue, tensorflow/tensorflow, n8n-io/n8n, significant-gravitas/autogpt, avelino/aweso…

Why is kamranahmedse/developer-roadmap a recommended Data Processing Pipelines GitHub Repositories repository?

Provides sequential access to elements within large data collections during processing.

Why is jwasham/coding-interview-university a recommended Data Processing Pipelines GitHub Repositories repository?

Reduces data footprint using encoding algorithms to enhance storage efficiency and transmission performance.

Why is donnemartin/system-design-primer a recommended Data Processing Pipelines GitHub Repositories repository?

Provides helper libraries and scripts that assist in the scheduling, monitoring, and management of batch processing jobs.

Why is vinta/awesome-python a recommended Data Processing Pipelines GitHub Repositories repository?

Enable fast, relevant query results across datasets through high-performance indexing and full-text search capabilities.

Why is thealgorithms/python a recommended Data Processing Pipelines GitHub Repositories repository?

Shrink digital information streams through encoding techniques to improve storage density and transmission speeds.

Why is vuejs/vue a recommended Data Processing Pipelines GitHub Repositories repository?

Renders filtered or sorted data sets using computed properties without modifying the original source.

Why is tensorflow/tensorflow a recommended Data Processing Pipelines GitHub Repositories repository?

Applies optimized routines to perform element-wise operations and shape manipulations on multi-dimensional data structures.

Why is n8n-io/n8n a recommended Data Processing Pipelines GitHub Repositories repository?

Eliminates redundant entries within data streams to maintain unique event records throughout automated sequences.

Why is significant-gravitas/autogpt a recommended Data Processing Pipelines GitHub Repositories repository?

Transforms unstructured keyword objects into structured, typed fields for metric analysis.

Why is avelino/awesome-go a recommended Data Processing Pipelines GitHub Repositories repository?

Streamlines reactive programming and data stream transformations using specialized toolkits.

1.2K dépôts

Awesome GitHub RepositoriesData Processing Pipelines

Systems and workflows for ingesting, transforming, and orchestrating high-throughput data processing tasks.

Explore 1,176 awesome GitHub repositories matching data & databases · Data Processing Pipelines. Refine with filters or upvote what's useful.

Trouvez les meilleurs dépôts grâce à l'IA.Nous recherchons les dépôts les plus pertinents grâce à l'IA.

kamranahmedse/developer-roadmap
kamranahmedse/developer-roadmap
357,434Voir sur GitHub
Developer Roadmap est une plateforme pilotée par la communauté qui fournit des parcours d'apprentissage structurés basés sur des graphes pour le génie logiciel. Elle sert de dépôt de connaissances complet où les domaines techniques sont organisés en séquences visuelles pour guider l'acquisition de compétences professionnelles et la croissance de carrière. Le projet se distingue par un écosystème collaboratif qui permet aux utilisateurs de contribuer à des roadmaps, d'organiser les meilleures pratiques de l'industrie et de maintenir des profils professionnels. Il intègre des cadres d'évaluation diagnostique pour évaluer la compétence technique, aidant les développeurs à identifier les lacunes en matière de connaissances et à se préparer aux entretiens professionnels grâce à des séquences d'apprentissage ciblées. Au-delà de ses capacités de cartographie de base, la plateforme propose des idées de projets pratiques et du tutorat interactif pour renforcer les concepts d'ingénierie. Elle offre un espace centralisé pour que la communauté puisse partager des ressources, suivre le développement progressif des compétences et naviguer dans des paysages techniques complexes.
Provides sequential access to elements within large data collections during processing.
TypeScriptangular-roadmapbackend-roadmapblockchain-roadmap
Voir sur GitHub357,434
jwasham/coding-interview-university
jwasham/coding-interview-university
353,639Voir sur GitHub
Ce projet est une roadmap éducative complète conçue pour guider les ingénieurs logiciels à travers la maîtrise des fondamentaux de l'informatique et la préparation aux entretiens techniques. Il fournit un parcours d'apprentissage structuré et conscient des dépendances qui organise des concepts informatiques complexes dans un programme hiérarchique, permettant aux utilisateurs de construire une base d'ingénierie professionnelle grâce à une étude itérative et une mise en œuvre pratique. Le programme se distingue en intégrant les connaissances théoriques au développement professionnel, offrant un index unifié de ressources croisées, notamment des livres, des articles académiques et des tutoriels vidéo. Il met l'accent sur la standardisation de l'efficacité algorithmique par l'analyse de la complexité asymptotique et fournit une décomposition granulaire et modulaire des sujets pour faciliter un apprentissage ciblé et progressif à travers de vastes domaines techniques. Au-delà des algorithmes et des structures de données de base, le dépôt couvre une large surface de capacités, notamment la conception d'architecture système, les systèmes distribués, la sécurité informatique et la modélisation mathématique avancée. Il fournit également des conseils stratégiques pour l'ensemble du cycle de vie de l'embauche, de l'optimisation du CV et de la préparation aux entretiens comportementaux à la croissance de carrière à long terme. L'ensemble de la base de connaissances est maintenu en tant que dépôt contrôlé par version et piloté par markdown, permettant une approche agnostique de la plateforme et collaborative de l'éducation technique.
Reduces data footprint using encoding algorithms to enhance storage efficiency and transmission performance.
algorithmalgorithmscoding-interview
Voir sur GitHub353,639
donnemartin/system-design-primer
donnemartin/system-design-primer
353,387Voir sur GitHub
Ce projet est une ressource éducative et un guide d'étude complet axé sur l'architecture des systèmes distribués et la conception d'infrastructures backend. Il fournit un programme structuré pour maîtriser les principes de scalabilité, de fiabilité et de performance requis pour concevoir des systèmes logiciels complexes. Le dépôt se distingue en offrant une approche méthodique de la préparation aux entretiens techniques, intégrant des modèles de conception, des compromis architecturaux et des outils de répétition espacée pour aider les utilisateurs à retenir des concepts complexes. Il met l'accent sur l'analyse axée sur les contraintes, enseignant aux utilisateurs comment évaluer des exigences concurrentes comme la latence, la cohérence et la disponibilité lors de l'élaboration de conceptions architecturales. Le contenu couvre un large spectre de capacités de conception de systèmes, notamment des stratégies pour la mise à l'échelle des bases de données, la gestion du trafic et l'optimisation de l'infrastructure. Il détaille des techniques pour la mise à l'échelle horizontale, la mise en cache multicouche, la communication asynchrone et la découverte de services, tout en fournissant des cadres pour effectuer des estimations de ressources et la planification de la capacité. La documentation est organisée comme un guide d'étude, offrant un chemin systématique à travers les fondamentaux de l'ingénierie backend et de la conception de systèmes à grande échelle.
Provides helper libraries and scripts that assist in the scheduling, monitoring, and management of batch processing jobs.
Pythondesigndesign-patternsdesign-system
Voir sur GitHub353,387
vinta/awesome-python
vinta/awesome-python
303,207Voir sur GitHub
Ce projet est un répertoire complet, organisé par la communauté, qui structure un vaste paysage de bibliothèques, frameworks et outils logiciels Python. Il sert de base de connaissances centralisée conçue pour faciliter la navigation dans l'écosystème et accélérer la découverte par les développeurs tout au long du cycle de vie du développement logiciel. Le répertoire se distingue en fournissant un index structuré de ressources classées par domaine technique, allant des utilitaires de développement fondamentaux aux domaines d'ingénierie spécialisés. Il couvre des capacités de haut niveau, notamment l'intelligence artificielle, la science des données, le développement web et la gestion d'infrastructure, permettant aux développeurs d'identifier des solutions éprouvées pour des défis techniques spécifiques. Le projet englobe une large surface de capacités, notamment des outils pour la gestion des dépendances, l'analyse de code statique et les tests automatisés. Il catalogue également des ressources pour le stockage de données persistantes, l'orchestration d'infrastructure cloud et le développement d'interfaces, fournissant une référence unifiée pour la construction et la maintenance de systèmes logiciels complexes.
Enable fast, relevant query results across datasets through high-performance indexing and full-text search capabilities.
Pythonawesomecollectionspython
Voir sur GitHub303,207
thealgorithms/python
TheAlgorithms/Python
221,992Voir sur GitHub
Ce projet est un dépôt complet d'implémentations computationnelles vérifiées conçu pour servir de ressource éducative pour l'informatique et la résolution de problèmes algorithmiques. Il fournit une collection structurée d'exemples de code qui couvrent les structures de données fondamentales, les opérations mathématiques et les concepts de programmation de base, permettant aux utilisateurs d'étudier la logique et la complexité derrière diverses méthodes computationnelles. Le dépôt se distingue par un modèle d'implémentation modulaire basé sur des références qui organise le code dans des espaces de noms logiques. Cette approche facilite l'exécution indépendante et la clarté éducative, permettant aux utilisateurs d'explorer l'évolution des stratégies computationnelles, des approches naïves par force brute aux solutions optimisées haute performance. En découplant les abstractions de structures de données des opérations algorithmiques, le projet garantit que les implémentations restent interchangeables et faciles à analyser. La surface de capacités couvre un large éventail de domaines techniques, notamment l'apprentissage automatique, la cryptographie, le calcul scientifique et la vision par ordinateur. Il inclut des implémentations pour la modélisation prédictive, les réseaux de neurones et l'analyse statistique, aux côtés d'outils pour le traitement du signal numérique, la gestion des flux réseau et la modélisation financière. La collection répond également à des besoins mathématiques spécialisés, tels que l'algèbre linéaire, les calculs géométriques et la manipulation de bits, fournissant une base large pour la recherche et les applications d'ingénierie.
Shrink digital information streams through encoding techniques to improve storage density and transmission speeds.
Pythonalgorithmalgorithm-competitionsalgorithms-implemented
Voir sur GitHub221,992
vuejs/vue
vuejs/vue
209,900Voir sur GitHub
Vue est un framework JavaScript progressif basé sur des composants, conçu pour construire des interfaces utilisateur réactives et des applications monopage. Il se concentre sur un système de modèles déclaratif qui transforme le HTML en fonctions de rendu efficaces, permettant aux développeurs d'organiser des interfaces complexes en unités isolées et réutilisables qui se synchronisent automatiquement avec l'état de l'application. Le framework se distingue par un système de réactivité de suivi des dépendances qui surveille l'accès aux données pendant le rendu pour déclencher des mises à jour précises. Il fournit une architecture flexible qui prend en charge à la fois l'adoption incrémentale en tant que bibliothèque légère et le développement d'applications à grande échelle. Les développeurs peuvent tirer parti d'un modèle d'extensibilité robuste basé sur des plugins pour injecter une logique globale, tandis que la réconciliation du DOM virtuel du framework garantit des mises à jour d'interface efficaces en calculant des mutations minimales. Au-delà de ses capacités de rendu de base, le projet inclut une suite complète d'outils pour gérer l'état de l'application, le routage basé sur les URL et le rendu côté serveur. Il offre un support étendu pour la composition de composants, la distribution de contenu et la gestion d'animation, aux côtés de mesures de sécurité intégrées comme l'échappement automatique du contenu pour prévenir les vulnérabilités courantes. Le framework est distribué avec des déclarations de type officielles pour prendre en charge l'analyse statique et peut être installé via des gestionnaires de paquets standard ou intégré directement dans les environnements de navigateur via des balises de script.
Renders filtered or sorted data sets using computed properties without modifying the original source.
TypeScriptframeworkfrontendjavascript
Voir sur GitHub209,900
tensorflow/tensorflow
tensorflow/tensorflow
195,697Voir sur GitHub
TensorFlow is a comprehensive machine learning framework designed for the construction, training, and deployment of complex mathematical models. It utilizes a graph-based execution model that represents operations as directed acyclic graphs, enabling automatic differentiation and efficient parallel processing. The system provides high-level interfaces for defining neural network architectures, alongside a robust engine for managing multidimensional array structures and tensor mathematics. The framework distinguishes itself through a scalable distributed runtime that orchestrates workloads acr
Applies optimized routines to perform element-wise operations and shape manipulations on multi-dimensional data structures.
C++deep-learningdeep-neural-networksdistributed
Voir sur GitHub195,697
n8n-io/n8n
n8n-io/n8n
192,772Voir sur GitHub
n8n is a workflow automation platform that combines a visual interface with code-based extensibility to design, orchestrate, and manage automated processes. It provides a comprehensive suite of tools for data transformation, filtering, and storage, allowing users to build complex logic through conditional branching, looping, and sub-workflow execution. The platform supports both pre-built integration nodes and custom code execution in JavaScript or Python, enabling connectivity with a wide range of external services and APIs. The platform includes a suite of generative AI capabilities, such a
Eliminates redundant entries within data streams to maintain unique event records throughout automated sequences.
TypeScriptaiapisautomation
Voir sur GitHub192,772
significant-gravitas/autogpt
Significant-Gravitas/AutoGPT
184,973Voir sur GitHub
AutoGPT is an orchestration platform designed for building, managing, and deploying autonomous agents. It provides a visual canvas-based environment where users can assemble agents by connecting modular blocks that represent actions, data flows, and conditional logic. The platform supports the entire agent lifecycle, including task scheduling, execution monitoring, and configuration management, while offering a marketplace for discovering and sharing community-built workflows. The project includes a legacy framework for command-line agent execution and an extensible component system for devel
Transforms unstructured keyword objects into structured, typed fields for metric analysis.
Pythonaiartificial-intelligenceautonomous-agents
Voir sur GitHub184,973
avelino/awesome-go
avelino/awesome-go
175,576Voir sur GitHub
This project serves as a comprehensive language ecosystem index, functioning as a centralized, community-curated directory for the Go programming language. It organizes a vast landscape of software components, libraries, and development tools into a structured, navigable hierarchy, enabling developers to efficiently discover resources tailored to specific functional domains. The repository distinguishes itself through a decentralized contribution model, where community-driven updates ensure the index remains current with the rapidly evolving software landscape. Beyond simple resource listing,
Streamlines reactive programming and data stream transformations using specialized toolkits.
Goawesomeawesome-listgo
Voir sur GitHub175,576
yt-dlp/yt-dlp
yt-dlp/yt-dlp
170,963Voir sur GitHub
This project is a command-line media downloader designed for the systematic retrieval and organization of digital content from diverse online platforms. It functions as an extensible extraction engine that utilizes a declarative format-selection pipeline to automate the identification, merging, and downloading of specific audio and video streams based on user-defined criteria. The system distinguishes itself through a modular architecture that supports custom plugins and site-specific scripts, allowing for the bypass of platform restrictions and the handling of complex authentication challeng
Evaluates stream metadata against defined criteria to transform and restructure raw media into desired file formats.
Pythonclidownloaderpython
Voir sur GitHub170,963
huggingface/transformers
huggingface/transformers
161,630Voir sur GitHub
Transformers is a comprehensive library for machine learning that provides a unified interface for training, fine-tuning, and deploying transformer-based models. It supports a wide range of tasks, including text classification, language modeling, question answering, and sequence-to-sequence translation, while offering specialized architectures for both text and vision processing. The framework includes tools for managing the entire model lifecycle, from data preprocessing and tokenization to distributed training and inference. The library features extensive support for model optimization and
Structures keyword arguments by modality to ensure type-safe configuration and model-specific overrides during document processing.
Pythonaudiodeep-learningdeepseek
Voir sur GitHub161,630
microsoft/markitdown
microsoft/markitdown
154,485Voir sur GitHub
This project is an AI-powered document processing engine designed to transform diverse file formats into structured Markdown. By leveraging multimodal language models, it performs complex layout analysis and semantic text extraction, allowing for the conversion of both unstructured files and scanned images into machine-readable content. The toolkit distinguishes itself through a modular, plugin-based architecture that orchestrates multi-stage extraction pipelines. Users can steer the parsing behavior by injecting custom instructions, enabling the system to adapt to domain-specific document st
Converts diverse document formats into structured text output by executing programmatic parsing logic to automate complex data extraction workflows.
Pythonautogenautogen-extensionlangchain
Voir sur GitHub154,485
langchain-ai/langchain
langchain-ai/langchain
139,458Voir sur GitHub
LangChain is an orchestration framework designed for building, managing, and deploying applications powered by large language models. It provides a unified integration layer that normalizes disparate model provider APIs into a consistent set of primitives, enabling developers to build complex, multi-step AI workflows that manage state, memory, and tool execution. The project distinguishes itself through a durable execution runtime that maintains persistent state across long-running processes by checkpointing progress to external storage. It models agent workflows as directed graphs, allowing
Process diverse binary and multimodal data types through unified interfaces designed for complex AI pipelines.
Pythonagentsaiai-agents
Voir sur GitHub139,458
mendableai/firecrawl
mendableai/firecrawl
139,399Voir sur GitHub
Firecrawl is a headless browser automation tool and web crawling engine designed to extract structured data from the web. It functions as an API that transforms raw website content and documents into clean markdown and JSON formats to serve as context for large language models. The project distinguishes itself by using natural language prompts to translate human instructions into targeted data extraction tasks and browser actions. It can execute interactive page navigation, such as clicking and scrolling, and perform automated web research to retrieve structured data without manual interventi
Transforms unstructured web pages and documents into standardized, machine-readable formats using natural language prompts.
TypeScript
Voir sur GitHub139,399
firecrawl/firecrawl
firecrawl/firecrawl
133,479Voir sur GitHub
Firecrawl is a web data extraction platform designed to convert unstructured web content into clean, LLM-ready formats like markdown or JSON. It functions as an autonomous web crawler and scraper, capable of mapping entire domains, performing recursive navigation, and executing complex data gathering tasks. By leveraging headless browser orchestration, the system handles dynamic, JavaScript-heavy pages to ensure comprehensive data capture. The platform distinguishes itself through its focus on agentic workflows, providing a programmatic interface that allows autonomous agents to perform live
Prepares raw web content for AI by converting it into clean, structured formats like markdown or JSON.
TypeScriptaiai-agentsai-crawler
Voir sur GitHub133,479
iptv-org/iptv
iptv-org/iptv
127,909Voir sur GitHub
This project is a community-maintained, open-source repository that functions as a centralized directory for streaming metadata. It aggregates publicly available network stream links and organizes them into standardized, machine-readable playlist formats. By acting strictly as a metadata-only index, the platform enables users to access and organize live broadcast content across various third-party media playback applications without hosting or distributing any actual video files. The repository distinguishes itself through a collaborative, crowdsourced workflow where contributors actively mai
Merges distributed community updates into a unified, structured dataset of verified streaming links.
TypeScriptiptvm3uplaylist
Voir sur GitHub127,909
d3/d3
d3/d3
113,118Voir sur GitHub
D3 is a modular library providing low-level primitives for creating data-driven visualizations. It functions as a flexible framework that allows for direct control over visual presentation by mapping abstract data dimensions to graphical properties, such as position, color, and size, without imposing predefined chart abstractions. The library distinguishes itself by offering specialized tools for complex data representation, including algorithmic layouts for hierarchical structures and geographic projection utilities for mapping spherical coordinates. It also includes a comprehensive suite fo
Comprehensive utilities handle the ordering, searching, summarizing, binning, and grouping of complex data sets.
Shellchartchartsd3
Voir sur GitHub113,118
godotengine/godot
godotengine/godot
112,618Voir sur GitHub
Godot is a comprehensive, node-based game engine designed for building interactive 2D and 3D applications. It provides an integrated development environment that utilizes a hierarchical scene system to organize objects, propagate spatial transformations, and manage lifecycle events. The engine functions as a cross-platform development suite, allowing developers to author, test, and export software to desktop, mobile, and web environments from a single, unified codebase. The engine distinguishes itself through a modular, component-based architecture that relies on signals-based decoupling for
Implements native data types for vectors, transforms, and arrays to enable high-performance mathematical operations.
C++game-developmentgame-enginegamedev
Voir sur GitHub112,618
mzabriskie/axios
mzabriskie/axios
109,096Voir sur GitHub
Axios is a promise-based HTTP client used to make asynchronous network requests in both browser and Node.js environments. It functions as a multi-environment network adapter that abstracts the transport layer to ensure consistent behavior across different runtimes. The project distinguishes itself through a request lifecycle management system that allows for the cancellation of active requests, the setting of timeouts, and the monitoring of upload and download transfer progress. It includes a mechanism for intercepting network traffic, enabling the transformation of outgoing requests and inco
Implements automatic serialization of JavaScript objects into JSON, multipart form data, or URL-encoded formats for transmission.
JavaScript
Voir sur GitHub109,096

Awesome Data Processing Pipelines GitHub Repositories

kamranahmedse/developer-roadmap

jwasham/coding-interview-university

donnemartin/system-design-primer

vinta/awesome-python

TheAlgorithms/Python

vuejs/vue

tensorflow/tensorflow

n8n-io/n8n

Significant-Gravitas/AutoGPT

avelino/awesome-go

yt-dlp/yt-dlp

huggingface/transformers

microsoft/markitdown

langchain-ai/langchain

mendableai/firecrawl

firecrawl/firecrawl

iptv-org/iptv

d3/d3

godotengine/godot

mzabriskie/axios

Explorer les sous-tags