What are the best Awesome Data Engineering and Infrastructure GitHub Repositories?

Foundational tools for large-scale data collection, ingestion, storage management, and reliability. Explore 1,320 awesome GitHub repositories matching data & databases · Data Engineering and Infrastructure. Refine with filters or upvote what's useful. Top picks: openclaw/openclaw, kamranahmedse/developer-roadmap, donnemartin/system-design-primer, vinta/awesome-python, torvalds/linux, trimstray/the-book-of-secret-knowledge, affaan-m/ecc, significant-gravitas/autogpt, jackfrued/python-100-days,…

Why is openclaw/openclaw a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Exports portable backups of workspace data, authentication credentials, and gateway configurations.

Why is kamranahmedse/developer-roadmap a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Configures expiration policies for cached data to balance performance and data freshness.

Why is donnemartin/system-design-primer a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Details mechanisms for storing frequently accessed data in memory to reduce latency and backend processing requirements.

Why is vinta/awesome-python a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Boost system performance by memoizing frequently accessed data within memory-efficient storage structures.

Why is torvalds/linux a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Manages filesystem operations to provide consistent data access and storage organization across physical media.

Why is trimstray/the-book-of-secret-knowledge a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Navigate and manage file systems through terminal-based interfaces that simplify directory operations.

Why is affaan-m/ecc a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Manages the persistent storage of session summaries and learned skills under configurable root directories.

Why is significant-gravitas/autogpt a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Coordinates the full lifecycle of CSV data imports through dedicated creation, listing, and retrieval methods.

Why is jackfrued/python-100-days a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Understand the fundamentals of web scraping, including ethical considerations and essential toolsets for data extraction.

Why is microsoft/markitdown a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Interprets diverse file formats and generates structured, context-aware Markdown output using advanced language models.

1.3K dépôts

Awesome GitHub RepositoriesData Engineering and Infrastructure

Foundational tools for large-scale data collection, ingestion, storage management, and reliability.

Explore 1,320 awesome GitHub repositories matching data & databases · Data Engineering and Infrastructure. Refine with filters or upvote what's useful.

Trouvez les meilleurs dépôts grâce à l'IA.Nous recherchons les dépôts les plus pertinents grâce à l'IA.

openclaw/openclaw
openclaw/openclaw
380,031Voir sur GitHub
Openclaw est une plateforme de gestion d'environnements d'exécution d'agents, fournissant l'infrastructure nécessaire pour contrôler les cycles de vie des agents, l'état des sessions et la persistance des espaces de travail. Elle dispose d'une passerelle centralisée qui gère les boucles de modèles, l'invocation d'outils et les événements en streaming, tout en prenant en charge le routage multi-agents et la gestion de la mémoire persistante. Le système est conçu pour normaliser les signatures d'exécution des outils et fournir une interface standardisée pour la compatibilité entre les fournisseurs. La plateforme inclut des outils de développement étendus, tels qu'une interface en ligne de commande pour la gestion des espaces de travail, la journalisation de diagnostic et une architecture de plugins qui permet l'enregistrement d'outils et de capacités personnalisés. Elle prend en charge les flux de travail automatisés via des hooks pilotés par les événements, la planification des tâches et l'intégration avec des services externes. La sécurité est gérée par des politiques d'exécution, la portabilité des identifiants et des flux de travail d'approbation pour les actions des agents. Le déploiement est pris en charge par des installateurs d'infrastructure automatisés et des assistants de passerelle conteneurisés, avec des utilitaires intégrés pour les sauvegardes et la gestion de la configuration. Le système fournit un format structuré pour orchestrer des flux de travail en plusieurs étapes et inclut des outils spécialisés pour l'automatisation des navigateurs et le patch de code structuré.
Exports portable backups of workspace data, authentication credentials, and gateway configurations.
TypeScriptaiassistantcrustacean
Voir sur GitHub380,031
kamranahmedse/developer-roadmap
kamranahmedse/developer-roadmap
357,434Voir sur GitHub
Developer Roadmap est une plateforme pilotée par la communauté qui fournit des parcours d'apprentissage structurés basés sur des graphes pour le génie logiciel. Elle sert de dépôt de connaissances complet où les domaines techniques sont organisés en séquences visuelles pour guider l'acquisition de compétences professionnelles et la croissance de carrière. Le projet se distingue par un écosystème collaboratif qui permet aux utilisateurs de contribuer à des roadmaps, d'organiser les meilleures pratiques de l'industrie et de maintenir des profils professionnels. Il intègre des cadres d'évaluation diagnostique pour évaluer la compétence technique, aidant les développeurs à identifier les lacunes en matière de connaissances et à se préparer aux entretiens professionnels grâce à des séquences d'apprentissage ciblées. Au-delà de ses capacités de cartographie de base, la plateforme propose des idées de projets pratiques et du tutorat interactif pour renforcer les concepts d'ingénierie. Elle offre un espace centralisé pour que la communauté puisse partager des ressources, suivre le développement progressif des compétences et naviguer dans des paysages techniques complexes.
Configures expiration policies for cached data to balance performance and data freshness.
TypeScriptangular-roadmapbackend-roadmapblockchain-roadmap
Voir sur GitHub357,434
donnemartin/system-design-primer
donnemartin/system-design-primer
353,387Voir sur GitHub
Ce projet est une ressource éducative et un guide d'étude complet axé sur l'architecture des systèmes distribués et la conception d'infrastructures backend. Il fournit un programme structuré pour maîtriser les principes de scalabilité, de fiabilité et de performance requis pour concevoir des systèmes logiciels complexes. Le dépôt se distingue en offrant une approche méthodique de la préparation aux entretiens techniques, intégrant des modèles de conception, des compromis architecturaux et des outils de répétition espacée pour aider les utilisateurs à retenir des concepts complexes. Il met l'accent sur l'analyse axée sur les contraintes, enseignant aux utilisateurs comment évaluer des exigences concurrentes comme la latence, la cohérence et la disponibilité lors de l'élaboration de conceptions architecturales. Le contenu couvre un large spectre de capacités de conception de systèmes, notamment des stratégies pour la mise à l'échelle des bases de données, la gestion du trafic et l'optimisation de l'infrastructure. Il détaille des techniques pour la mise à l'échelle horizontale, la mise en cache multicouche, la communication asynchrone et la découverte de services, tout en fournissant des cadres pour effectuer des estimations de ressources et la planification de la capacité. La documentation est organisée comme un guide d'étude, offrant un chemin systématique à travers les fondamentaux de l'ingénierie backend et de la conception de systèmes à grande échelle.
Details mechanisms for storing frequently accessed data in memory to reduce latency and backend processing requirements.
Pythondesigndesign-patternsdesign-system
Voir sur GitHub353,387
vinta/awesome-python
vinta/awesome-python
303,207Voir sur GitHub
Ce projet est un répertoire complet, organisé par la communauté, qui structure un vaste paysage de bibliothèques, frameworks et outils logiciels Python. Il sert de base de connaissances centralisée conçue pour faciliter la navigation dans l'écosystème et accélérer la découverte par les développeurs tout au long du cycle de vie du développement logiciel. Le répertoire se distingue en fournissant un index structuré de ressources classées par domaine technique, allant des utilitaires de développement fondamentaux aux domaines d'ingénierie spécialisés. Il couvre des capacités de haut niveau, notamment l'intelligence artificielle, la science des données, le développement web et la gestion d'infrastructure, permettant aux développeurs d'identifier des solutions éprouvées pour des défis techniques spécifiques. Le projet englobe une large surface de capacités, notamment des outils pour la gestion des dépendances, l'analyse de code statique et les tests automatisés. Il catalogue également des ressources pour le stockage de données persistantes, l'orchestration d'infrastructure cloud et le développement d'interfaces, fournissant une référence unifiée pour la construction et la maintenance de systèmes logiciels complexes.
Boost system performance by memoizing frequently accessed data within memory-efficient storage structures.
Pythonawesomecollectionspython
Voir sur GitHub303,207
torvalds/linux
torvalds/linux
237,355Voir sur GitHub
Le noyau Linux est un cœur de système d'exploitation monolithique qui gère les ressources matérielles, la mémoire et la planification des processus à travers diverses architectures informatiques. Il fournit un environnement standardisé et conforme à POSIX pour l'exécution des applications tout en maintenant un framework de pilotes modulaire qui permet le chargement et la suppression dynamiques des interfaces matérielles. Le projet se distingue par sa boîte à outils de concurrence haute performance, qui utilise des primitives de synchronisation sans verrou et des mécanismes de lecture-copie-mise à jour pour gérer l'accès aux données partagées dans les environnements multi-cœurs. Il intègre une suite complète de traçage et d'instrumentation du noyau qui permet une surveillance non intrusive des événements système, de l'exécution des fonctions et des métriques de latence. De plus, le noyau impose des garanties strictes de stabilité de l'interface et un suivi du cycle de vie pour assurer la rétrocompatibilité des applications dépendantes. Au-delà de son identité principale, le système inclut des capacités étendues pour l'abstraction matérielle, l'implémentation de protocoles réseau et l'application de politiques de sécurité. Il prend en charge des exigences d'ingénierie spécialisées grâce à la gestion de l'état d'alimentation, aux optimisations des systèmes embarqués et aux processus de démarrage basés sur le firmware. L'architecture dispose également de frameworks de diagnostic robustes pour l'analyse de la mémoire, la vérification de l'exécution du système et la validation des modèles de programmation concurrente. Le dépôt source fournit un système de construction complet pour transformer le code en images binaires exécutables, incluant des outils pour la sélection des fonctionnalités du noyau et l'optimisation de la configuration afin d'adapter la sortie aux exigences matérielles spécifiques.
Manages filesystem operations to provide consistent data access and storage organization across physical media.
C
Voir sur GitHub237,355
trimstray/the-book-of-secret-knowledge
trimstray/the-book-of-secret-knowledge
228,641Voir sur GitHub
Ce projet sert de dépôt centralisé de connaissances techniques et de ressources administratives piloté par la communauté. Il fournit une taxonomie structurée qui agrège des informations disparates dans un cadre consultable, soutenant l'apprentissage continu et la résolution rapide de problèmes pour les administrateurs système et les praticiens de la cybersécurité. En cartographiant les ressources à travers la sécurité offensive, la gestion de l'infrastructure et le développement logiciel, il offre un chemin unifié pour l'acquisition de compétences et la référence professionnelle. Le projet est défini par une philosophie de conception axée sur la ligne de commande, privilégiant les utilitaires basés sur le terminal et les interfaces scriptables pour faciliter une administration système efficace et des flux de travail de sécurité répétables. Il se distingue par une approche agnostique de la plateforme, maintenant une documentation et des guides opérationnels qui restent applicables à travers divers environnements de type Unix et basés sur le cloud. Cette intégration modulaire de la chaîne d'outils permet aux utilisateurs de composer des environnements personnalisés adaptés à des tâches administratives ou de sécurité spécifiques. Le dépôt couvre une large surface de capacités, notamment des boîtes à outils complètes pour l'audit système, la gestion réseau et le durcissement de l'infrastructure. Il fournit des parcours d'apprentissage structurés pour le développement des compétences en cybersécurité, allant des laboratoires de piratage éthique et des normes de test d'intrusion à l'évaluation des vulnérabilités et aux meilleures pratiques de configuration système. La collection englobe également un large éventail d'outils de productivité, d'utilitaires de diagnostic et de supports pédagogiques conçus pour rationaliser la maintenance de routine et améliorer la posture de sécurité globale.
Navigate and manage file systems through terminal-based interfaces that simplify directory operations.
awesomeawesome-listbsd
Voir sur GitHub228,641
affaan-m/ecc
affaan-m/ECC
221,981Voir sur GitHub
ECC est un framework d'orchestration d'agents LLM et une suite d'outils IA multiplateforme conçue pour coordonner les flux de travail multi-modèles. Il fournit un système pour gérer les rôles d'agents spécialisés, les compétences réutilisables et la planification structurée pour exécuter des tâches de développement logiciel complexes à travers différents éditeurs de code alimentés par l'IA. Le projet se distingue en tant que gestionnaire de protocole de contexte de modèle, fournissant une couche de configuration pour intégrer des serveurs externes et auditer l'exécution des outils. Il implémente en outre un bac à sable de sécurité agentique qui restreint l'accès aux fichiers sensibles et recherche les fuites de secrets pour sécuriser les flux de travail autonomes. Le framework couvre de larges domaines de capacités, notamment l'automatisation du flux de travail de codage IA avec des garde-fous de développement piloté par les tests, l'optimisation des coûts des modèles par routage intelligent et la gestion de la mémoire isolée par état. Il inclut également des outils pour appliquer des normes de codage spécifiques au langage et gérer les comportements des agents à travers divers environnements de développement intégrés. Le système est géré via une interface en ligne de commande qui gère l'installation des outils, la réparation de la configuration et le déploiement des préréglages d'outils.
Manages the persistent storage of session summaries and learned skills under configurable root directories.
JavaScript
Voir sur GitHub221,981
significant-gravitas/autogpt
Significant-Gravitas/AutoGPT
184,973Voir sur GitHub
AutoGPT is an orchestration platform designed for building, managing, and deploying autonomous agents. It provides a visual canvas-based environment where users can assemble agents by connecting modular blocks that represent actions, data flows, and conditional logic. The platform supports the entire agent lifecycle, including task scheduling, execution monitoring, and configuration management, while offering a marketplace for discovering and sharing community-built workflows. The project includes a legacy framework for command-line agent execution and an extensible component system for devel
Coordinates the full lifecycle of CSV data imports through dedicated creation, listing, and retrieval methods.
Pythonaiartificial-intelligenceautonomous-agents
Voir sur GitHub184,973
jackfrued/python-100-days
jackfrued/Python-100-Days
183,425Voir sur GitHub
This project is a comprehensive, day-by-day curriculum designed to guide learners through the Python programming language and its professional applications. The content spans from fundamental syntax and object-oriented design to advanced topics including database management, web development, data analysis, and machine learning. The curriculum is structured into distinct modules that cover practical software engineering practices, such as version control, containerization, and system architecture. It also provides resources for technical interview preparation and an analysis of career paths wi
Understand the fundamentals of web scraping, including ethical considerations and essential toolsets for data extraction.
Jupyter Notebook
Voir sur GitHub183,425
microsoft/markitdown
microsoft/markitdown
154,485Voir sur GitHub
This project is an AI-powered document processing engine designed to transform diverse file formats into structured Markdown. By leveraging multimodal language models, it performs complex layout analysis and semantic text extraction, allowing for the conversion of both unstructured files and scanned images into machine-readable content. The toolkit distinguishes itself through a modular, plugin-based architecture that orchestrates multi-stage extraction pipelines. Users can steer the parsing behavior by injecting custom instructions, enabling the system to adapt to domain-specific document st
Interprets diverse file formats and generates structured, context-aware Markdown output using advanced language models.
Pythonautogenautogen-extensionlangchain
Voir sur GitHub154,485
langchain-ai/langchain
langchain-ai/langchain
139,458Voir sur GitHub
LangChain is an orchestration framework designed for building, managing, and deploying applications powered by large language models. It provides a unified integration layer that normalizes disparate model provider APIs into a consistent set of primitives, enabling developers to build complex, multi-step AI workflows that manage state, memory, and tool execution. The project distinguishes itself through a durable execution runtime that maintains persistent state across long-running processes by checkpointing progress to external storage. It models agent workflows as directed graphs, allowing
Organize directory hierarchies to manage machine-specific state and persistent application data effectively.
Pythonagentsaiai-agents
Voir sur GitHub139,458
mendableai/firecrawl
mendableai/firecrawl
139,399Voir sur GitHub
Firecrawl is a headless browser automation tool and web crawling engine designed to extract structured data from the web. It functions as an API that transforms raw website content and documents into clean markdown and JSON formats to serve as context for large language models. The project distinguishes itself by using natural language prompts to translate human instructions into targeted data extraction tasks and browser actions. It can execute interactive page navigation, such as clicking and scrolling, and perform automated web research to retrieve structured data without manual interventi
Navigates through entire websites to convert unstructured content into formats optimized for language models.
TypeScript
Voir sur GitHub139,399
firecrawl/firecrawl
firecrawl/firecrawl
133,479Voir sur GitHub
Firecrawl is a web data extraction platform designed to convert unstructured web content into clean, LLM-ready formats like markdown or JSON. It functions as an autonomous web crawler and scraper, capable of mapping entire domains, performing recursive navigation, and executing complex data gathering tasks. By leveraging headless browser orchestration, the system handles dynamic, JavaScript-heavy pages to ensure comprehensive data capture. The platform distinguishes itself through its focus on agentic workflows, providing a programmatic interface that allows autonomous agents to perform live
Transforms unstructured web pages into clean, structured formats specifically optimized for language model ingestion.
TypeScriptaiai-agentsai-crawler
Voir sur GitHub133,479
chalarangelo/30-seconds-of-code
Chalarangelo/30-seconds-of-code
128,121Voir sur GitHub
30-seconds-of-code is a comprehensive knowledge base and programming snippet library designed to support software engineering education and professional development. It provides a curated collection of reusable code units and technical guides that help developers master core language mechanics, design patterns, and architectural philosophies. The project distinguishes itself by offering a wide-ranging library of algorithmic solutions and web development patterns that are organized into modular, independently testable units. It emphasizes functional programming paradigms and declarative logic,
Provides tools for serializing and persisting data to the local file system.
JavaScriptastroawesome-listcss
Voir sur GitHub128,121
excalidraw/excalidraw
excalidraw/excalidraw
125,451Voir sur GitHub
This project is a virtual whiteboard component and vector graphics editor designed for creating diagrams with a hand-drawn aesthetic. It provides a canvas-based drawing engine that can be embedded directly into web applications, allowing users to manipulate shapes, upload images, and export visual data into standard formats like PNG, SVG, or JSON. The platform distinguishes itself through a real-time synchronization layer that supports multi-user collaboration across distributed environments. This engine utilizes end-to-end encryption to secure shared sessions and employs a local-first data p
Leverages browser-based storage to maintain application state locally, ensuring data availability and persistence even during offline operation.
TypeScriptcanvascollaborationdiagrams
Voir sur GitHub125,451
kubernetes/kubernetes
kubernetes/kubernetes
123,197Voir sur GitHub
Kubernetes is a distributed container orchestration platform that automates the deployment, scaling, and management of containerized applications across clusters of computing nodes. It functions as a declarative infrastructure controller, utilizing a control loop architecture that continuously monitors the current system state against user-defined configurations to ensure desired operational outcomes. The system relies on a centralized API-driven interface and a replicated key-value store to maintain a consistent source of truth for all cluster objects. The platform distinguishes itself throu
Maintains a consistent, replicated data store that serves as the reliable source of truth for distributed system states.
Gocncfcontainersgo
Voir sur GitHub123,197
comfyanonymous/comfyui
comfyanonymous/ComfyUI
117,322Voir sur GitHub
ComfyUI is a modular generative AI workflow orchestrator and node-based GUI for designing and executing complex diffusion model pipelines. It functions as both a visual interface for building generative logic graphs and a programmable backend API that exposes diffusion model operations for external integration. The system distinguishes itself through a graph-based execution model that supports differential workflow execution, re-running only modified nodes to reduce computation. It features dynamic model offloading to manage memory between system RAM and GPU VRAM and utilizes metadata-embedde
Enables saving and loading generation graphs as JSON files or extracting metadata from image and audio files.
Python
Voir sur GitHub117,322
papers-we-love/papers-we-love
papers-we-love/papers-we-love
107,093Voir sur GitHub
Papers We Love is a community-driven repository and learning network dedicated to the study and discussion of foundational computer science literature. It functions as a centralized educational archive, providing a structured environment where software professionals can engage with academic research to bridge the gap between theoretical concepts and practical application. The project distinguishes itself through a decentralized model of crowdsourced curation, where community members collectively maintain and categorize a vast index of technical resources. Beyond the repository itself, the ini
Parses documentation for external links to facilitate the retrieval of research documents for offline reading.
Shellawesomecomputer-sciencemeetup
Voir sur GitHub107,093
immich-app/immich
immich-app/immich
104,236Voir sur GitHub
Immich is a self-hosted media management platform designed to provide a centralized, private repository for photos and videos. It functions as a comprehensive system for organizing, backing up, and viewing personal media collections across mobile devices, web browsers, and external storage locations. By maintaining full control over data ownership and storage infrastructure, the platform ensures that users retain sovereignty over their digital assets. The system distinguishes itself through a distributed architecture that coordinates background media synchronization, real-time filesystem moni
Manages automated scheduling, retention policies, and manual triggers to protect essential system metadata and database snapshots.
TypeScriptbackup-toolfluttergoogle-photos
Voir sur GitHub104,236
pytorch/pytorch
pytorch/pytorch
100,814Voir sur GitHub
PyTorch is a machine learning framework centered on a GPU-ready tensor library that supports multi-dimensional array operations across both CPU and accelerator hardware. It provides a foundational infrastructure for mathematical computation and dynamic neural network construction, utilizing a tape-based automatic differentiation system that allows for flexible, non-static graph execution. The framework is designed for deep integration with Python, enabling natural usage alongside standard scientific computing ecosystems. It distinguishes itself through a comprehensive distributed training sui
Persists tensors and complex data structures to disk through native loading and saving mechanisms.
Pythonautograddeep-learninggpu
Voir sur GitHub100,814

Awesome Data Engineering and Infrastructure GitHub Repositories

openclaw/openclaw

kamranahmedse/developer-roadmap

donnemartin/system-design-primer

vinta/awesome-python

torvalds/linux

trimstray/the-book-of-secret-knowledge

affaan-m/ECC

Significant-Gravitas/AutoGPT

jackfrued/Python-100-Days

microsoft/markitdown

langchain-ai/langchain

mendableai/firecrawl

firecrawl/firecrawl

Chalarangelo/30-seconds-of-code

excalidraw/excalidraw

kubernetes/kubernetes

comfyanonymous/ComfyUI

papers-we-love/papers-we-love

immich-app/immich

pytorch/pytorch

Explorer les sous-tags