What are the best Awesome Data Engineering and Infrastructure GitHub Repositories?

Foundational tools for large-scale data collection, ingestion, storage management, and reliability. Explore 1,321 awesome GitHub repositories matching data & databases · Data Engineering and Infrastructure. Refine with filters or upvote what's useful. Top picks: openclaw/openclaw, kamranahmedse/developer-roadmap, donnemartin/system-design-primer, vinta/awesome-python, torvalds/linux, trimstray/the-book-of-secret-knowledge, affaan-m/ecc, significant-gravitas/autogpt, jackfrued/python-100-days,…

Why is openclaw/openclaw a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Exports portable backups of workspace data, authentication credentials, and gateway configurations.

Why is kamranahmedse/developer-roadmap a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Configures expiration policies for cached data to balance performance and data freshness.

Why is donnemartin/system-design-primer a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Details mechanisms for storing frequently accessed data in memory to reduce latency and backend processing requirements.

Why is vinta/awesome-python a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Boost system performance by memoizing frequently accessed data within memory-efficient storage structures.

Why is torvalds/linux a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Manages filesystem operations to provide consistent data access and storage organization across physical media.

Why is trimstray/the-book-of-secret-knowledge a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Navigate and manage file systems through terminal-based interfaces that simplify directory operations.

Why is affaan-m/ecc a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Manages the persistent storage of session summaries and learned skills under configurable root directories.

Why is significant-gravitas/autogpt a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Coordinates the full lifecycle of CSV data imports through dedicated creation, listing, and retrieval methods.

Why is jackfrued/python-100-days a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Understand the fundamentals of web scraping, including ethical considerations and essential toolsets for data extraction.

Why is microsoft/markitdown a recommended Data Engineering and Infrastructure GitHub Repositories repository?

Interprets diverse file formats and generates structured, context-aware Markdown output using advanced language models.

1.3K repository-uri

Awesome GitHub RepositoriesData Engineering and Infrastructure

Foundational tools for large-scale data collection, ingestion, storage management, and reliability.

Explore 1,321 awesome GitHub repositories matching data & databases · Data Engineering and Infrastructure. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

openclaw/openclaw
openclaw/openclaw
380,031Vezi pe GitHub
Openclaw este o platformă pentru gestionarea mediilor de execuție ale agenților, oferind infrastructura necesară pentru a controla ciclurile de viață ale agenților, starea sesiunii și persistența spațiului de lucru. Dispune de un gateway centralizat care gestionează buclele modelelor, invocarea instrumentelor și evenimentele de streaming, suportând în același timp rutarea multi-agent și gestionarea memoriei persistente. Sistemul este conceput pentru a normaliza semnăturile de execuție ale instrumentelor și pentru a oferi o interfață standardizată pentru compatibilitatea între furnizori. Platforma include instrumente extinse pentru dezvoltatori, cum ar fi o interfață de linie de comandă pentru gestionarea spațiului de lucru, logare de diagnosticare și o arhitectură de plugin-uri care permite înregistrarea de instrumente și capabilități personalizate. Suportă fluxuri de lucru automatizate prin hook-uri bazate pe evenimente, programarea sarcinilor și integrarea cu servicii externe. Securitatea este gestionată prin politici de execuție, portabilitatea acreditărilor și fluxuri de lucru de aprobare pentru acțiunile agenților. Implementarea este susținută prin instalatoare de infrastructură automatizate și ajutoare de gateway containerizate, cu utilitare încorporate pentru backup-uri și gestionarea configurației. Sistemul oferă un format structurat pentru orchestrarea fluxurilor de lucru în mai mulți pași și include instrumente specializate pentru automatizarea browserului și patch-uri de cod structurate.
Exports portable backups of workspace data, authentication credentials, and gateway configurations.
TypeScriptaiassistantcrustacean
Vezi pe GitHub380,031
kamranahmedse/developer-roadmap
kamranahmedse/developer-roadmap
357,434Vezi pe GitHub
Developer Roadmap este o platformă condusă de comunitate care oferă căi de învățare structurate, bazate pe grafuri, pentru ingineria software. Servește drept repository cuprinzător de cunoștințe unde domeniile tehnice sunt organizate în secvențe vizuale pentru a ghida dobândirea competențelor profesionale și creșterea în carieră. Proiectul se distinge printr-un ecosistem colaborativ care permite utilizatorilor să contribuie cu roadmap-uri, să cureție cele mai bune practici din industrie și să mențină profiluri profesionale. Acesta integrează framework-uri de evaluare diagnostică pentru a evalua competența tehnică, ajutând dezvoltatorii să identifice lacunele de cunoștințe și să se pregătească pentru interviurile profesionale prin secvențe de învățare țintite. Dincolo de capabilitățile sale de bază de mapare, platforma oferă idei practice de proiecte și tutorat interactiv pentru a consolida conceptele de inginerie. Oferă un spațiu centralizat pentru ca comunitatea să partajeze resurse, să urmărească dezvoltarea progresivă a competențelor și să navigheze prin peisaje tehnice complexe.
Configures expiration policies for cached data to balance performance and data freshness.
TypeScriptangular-roadmapbackend-roadmapblockchain-roadmap
Vezi pe GitHub357,434
donnemartin/system-design-primer
donnemartin/system-design-primer
353,387Vezi pe GitHub
Acest proiect este o resursă educațională cuprinzătoare și un ghid de studiu axat pe arhitectura sistemelor distribuite și designul infrastructurii backend. Oferă un curriculum structurat pentru stăpânirea principiilor de scalabilitate, fiabilitate și performanță necesare pentru a proiecta sisteme software complexe. Repository-ul se distinge prin oferirea unei abordări metodice pentru pregătirea interviurilor tehnice, încorporând tipare de design, compromisuri arhitecturale și instrumente de repetiție spațiată pentru a ajuta utilizatorii să rețină concepte complexe. Pune accent pe analiza bazată pe constrângeri, învățând utilizatorii cum să evalueze cerințele concurente precum latența, consistența și disponibilitatea atunci când schițează design-uri arhitecturale. Conținutul acoperă un spectru larg de capabilități de design de sistem, inclusiv strategii pentru scalarea bazelor de date, gestionarea traficului și optimizarea infrastructurii. Detaliază tehnici pentru scalarea orizontală, caching-ul pe mai multe niveluri, comunicarea asincronă și descoperirea serviciilor, oferind în același timp framework-uri pentru efectuarea estimărilor de resurse și planificarea capacității. Documentația este organizată ca un ghid de studiu, oferind o cale sistematică prin fundamentele ingineriei backend și designul sistemelor la scară largă.
Details mechanisms for storing frequently accessed data in memory to reduce latency and backend processing requirements.
Pythondesigndesign-patternsdesign-system
Vezi pe GitHub353,387
vinta/awesome-python
vinta/awesome-python
303,207Vezi pe GitHub
Acest proiect este un director cuprinzător, curatoriat de comunitate, care organizează un peisaj vast de biblioteci, framework-uri și instrumente software Python. Servește drept bază de cunoștințe centralizată concepută pentru a facilita navigarea în ecosistem și a accelera descoperirea de către dezvoltatori pe parcursul întregului ciclu de viață al dezvoltării software. Directorul se distinge prin furnizarea unui index structurat de resurse categorisite pe domeniu tehnic, variind de la utilitare fundamentale de dezvoltare la domenii de inginerie specializate. Acoperă capabilități de nivel înalt, inclusiv inteligență artificială, știința datelor, dezvoltare web și gestionarea infrastructurii, permițând dezvoltatorilor să identifice soluții verificate pentru provocări tehnice specifice. Proiectul cuprinde o suprafață largă de capabilități, inclusiv instrumente pentru gestionarea dependențelor, analiza statică a codului și testarea automatizată. De asemenea, cataloghează resurse pentru stocarea persistentă a datelor, orchestrarea infrastructurii cloud și dezvoltarea interfețelor, oferind o referință unificată pentru construirea și menținerea sistemelor software complexe.
Boost system performance by memoizing frequently accessed data within memory-efficient storage structures.
Pythonawesomecollectionspython
Vezi pe GitHub303,207
torvalds/linux
torvalds/linux
237,355Vezi pe GitHub
Kernel-ul Linux este un nucleu de sistem de operare monolitic care gestionează resursele hardware, memoria și programarea proceselor pe diverse arhitecturi de calcul. Oferă un mediu standardizat, compatibil POSIX, pentru execuția aplicațiilor, menținând în același timp un framework modular de drivere care permite încărcarea și eliminarea dinamică a interfețelor hardware. Proiectul se distinge prin setul său de instrumente de concurență de înaltă performanță, care utilizează primitive de sincronizare fără blocare și mecanisme de tip read-copy-update pentru a gestiona accesul la date partajate în medii multi-core. Încorporează o suită cuprinzătoare de urmărire și instrumentare a kernel-ului care permite monitorizarea neintruzivă a evenimentelor de sistem, execuția funcțiilor și metricile de latență. Mai mult, kernel-ul impune garanții stricte de stabilitate a interfeței și urmărirea ciclului de viață pentru a asigura compatibilitatea inversă pentru aplicațiile dependente. Dincolo de identitatea sa de bază, sistemul include capabilități extinse pentru abstractizarea hardware, implementarea protocoalelor de rețea și aplicarea politicilor de securitate. Suportă cerințe de inginerie specializate prin gestionarea stării de alimentare, optimizări pentru sisteme embedded și procese de boot bazate pe firmware. Arhitectura dispune, de asemenea, de framework-uri de diagnosticare robuste pentru analiza memoriei, verificarea execuției sistemului și validarea modelelor de programare concurentă. Repository-ul sursă oferă un sistem complet de build pentru transformarea codului în imagini binare executabile, incluzând instrumente pentru selectarea funcționalităților kernel-ului și optimizarea configurației pentru a adapta output-ul la cerințe hardware specifice.
Manages filesystem operations to provide consistent data access and storage organization across physical media.
C
Vezi pe GitHub237,355
trimstray/the-book-of-secret-knowledge
trimstray/the-book-of-secret-knowledge
228,641Vezi pe GitHub
Acest proiect servește drept repository centralizat, condus de comunitate, de cunoștințe tehnice și resurse administrative. Oferă o taxonomie structurată care agregă informații disparate într-un framework căutabil, susținând învățarea continuă și rezolvarea rapidă a problemelor pentru administratorii de sistem și practicienii în securitate cibernetică. Prin maparea resurselor pe securitate ofensivă, gestionarea infrastructurii și dezvoltarea software, oferă o cale unificată pentru dobândirea de competențe și referințe profesionale. Proiectul este definit de o filozofie de design bazată pe linia de comandă, prioritizând utilitarele bazate pe terminal și interfețele scriptabile pentru a facilita administrarea eficientă a sistemului și fluxurile de lucru de securitate repetabile. Se distinge printr-o abordare agnostică față de platformă, menținând documentație și ghiduri operaționale care rămân aplicabile în diverse medii de tip Unix și bazate pe cloud. Această integrare modulară a setului de instrumente permite utilizatorilor să compună medii personalizate adaptate sarcinilor administrative sau de securitate specifice. Repository-ul acoperă o suprafață largă de capabilități, inclusiv seturi de instrumente cuprinzătoare pentru auditarea sistemului, gestionarea rețelei și întărirea infrastructurii. Oferă căi de învățare structurate pentru dezvoltarea competențelor în securitate cibernetică, variind de la laboratoare de hacking etic și standarde de testare a penetrării până la evaluarea vulnerabilităților și cele mai bune practici de configurare a sistemului. Colecția cuprinde, de asemenea, o gamă largă de instrumente de productivitate, utilitare de diagnosticare și materiale educaționale concepute pentru a eficientiza mentenanța de rutină și a îmbunătăți postura generală de securitate.
Navigate and manage file systems through terminal-based interfaces that simplify directory operations.
awesomeawesome-listbsd
Vezi pe GitHub228,641
affaan-m/ecc
affaan-m/ECC
221,981Vezi pe GitHub
ECC este un framework de orchestrare a agenților LLM și o suită de instrumente AI cross-platform concepută pentru a coordona fluxuri de lucru cu mai multe modele. Oferă un sistem pentru gestionarea rolurilor specializate ale agenților, abilităților reutilizabile și planificării structurate pentru a executa sarcini complexe de dezvoltare software în diferite editoare de cod bazate pe AI. Proiectul se distinge ca un manager de protocol de context al modelului (Model Context Protocol), oferind un strat de configurare pentru a integra servere externe și a audita execuția instrumentelor. Implementează, de asemenea, un sandbox de securitate agentic care restricționează accesul la fișiere sensibile și scanează pentru scurgeri de secrete pentru a securiza fluxurile de lucru autonome. Framework-ul acoperă domenii largi de capabilități, inclusiv automatizarea fluxului de lucru de codare AI cu bariere de protecție pentru dezvoltarea bazată pe teste (TDD), optimizarea costurilor modelului prin rutare inteligentă și gestionarea memoriei izolate de stare. Include, de asemenea, instrumente pentru impunerea standardelor de codare specifice limbajului și gestionarea comportamentelor agenților în diverse medii de dezvoltare integrate. Sistemul este gestionat printr-o interfață de linie de comandă care se ocupă de instalarea instrumentelor, repararea configurației și implementarea presetărilor de instrumente.
Manages the persistent storage of session summaries and learned skills under configurable root directories.
JavaScript
Vezi pe GitHub221,981
significant-gravitas/autogpt
Significant-Gravitas/AutoGPT
184,973Vezi pe GitHub
AutoGPT is an orchestration platform designed for building, managing, and deploying autonomous agents. It provides a visual canvas-based environment where users can assemble agents by connecting modular blocks that represent actions, data flows, and conditional logic. The platform supports the entire agent lifecycle, including task scheduling, execution monitoring, and configuration management, while offering a marketplace for discovering and sharing community-built workflows. The project includes a legacy framework for command-line agent execution and an extensible component system for devel
Coordinates the full lifecycle of CSV data imports through dedicated creation, listing, and retrieval methods.
Pythonaiartificial-intelligenceautonomous-agents
Vezi pe GitHub184,973
jackfrued/python-100-days
jackfrued/Python-100-Days
183,425Vezi pe GitHub
This project is a comprehensive, day-by-day curriculum designed to guide learners through the Python programming language and its professional applications. The content spans from fundamental syntax and object-oriented design to advanced topics including database management, web development, data analysis, and machine learning. The curriculum is structured into distinct modules that cover practical software engineering practices, such as version control, containerization, and system architecture. It also provides resources for technical interview preparation and an analysis of career paths wi
Understand the fundamentals of web scraping, including ethical considerations and essential toolsets for data extraction.
Jupyter Notebook
Vezi pe GitHub183,425
microsoft/markitdown
microsoft/markitdown
154,485Vezi pe GitHub
This project is an AI-powered document processing engine designed to transform diverse file formats into structured Markdown. By leveraging multimodal language models, it performs complex layout analysis and semantic text extraction, allowing for the conversion of both unstructured files and scanned images into machine-readable content. The toolkit distinguishes itself through a modular, plugin-based architecture that orchestrates multi-stage extraction pipelines. Users can steer the parsing behavior by injecting custom instructions, enabling the system to adapt to domain-specific document st
Interprets diverse file formats and generates structured, context-aware Markdown output using advanced language models.
Pythonautogenautogen-extensionlangchain
Vezi pe GitHub154,485
langchain-ai/langchain
langchain-ai/langchain
139,458Vezi pe GitHub
LangChain is an orchestration framework designed for building, managing, and deploying applications powered by large language models. It provides a unified integration layer that normalizes disparate model provider APIs into a consistent set of primitives, enabling developers to build complex, multi-step AI workflows that manage state, memory, and tool execution. The project distinguishes itself through a durable execution runtime that maintains persistent state across long-running processes by checkpointing progress to external storage. It models agent workflows as directed graphs, allowing
Organize directory hierarchies to manage machine-specific state and persistent application data effectively.
Pythonagentsaiai-agents
Vezi pe GitHub139,458
mendableai/firecrawl
mendableai/firecrawl
139,399Vezi pe GitHub
Firecrawl is a headless browser automation tool and web crawling engine designed to extract structured data from the web. It functions as an API that transforms raw website content and documents into clean markdown and JSON formats to serve as context for large language models. The project distinguishes itself by using natural language prompts to translate human instructions into targeted data extraction tasks and browser actions. It can execute interactive page navigation, such as clicking and scrolling, and perform automated web research to retrieve structured data without manual interventi
Navigates through entire websites to convert unstructured content into formats optimized for language models.
TypeScript
Vezi pe GitHub139,399
firecrawl/firecrawl
firecrawl/firecrawl
133,479Vezi pe GitHub
Firecrawl is a web data extraction platform designed to convert unstructured web content into clean, LLM-ready formats like markdown or JSON. It functions as an autonomous web crawler and scraper, capable of mapping entire domains, performing recursive navigation, and executing complex data gathering tasks. By leveraging headless browser orchestration, the system handles dynamic, JavaScript-heavy pages to ensure comprehensive data capture. The platform distinguishes itself through its focus on agentic workflows, providing a programmatic interface that allows autonomous agents to perform live
Transforms unstructured web pages into clean, structured formats specifically optimized for language model ingestion.
TypeScriptaiai-agentsai-crawler
Vezi pe GitHub133,479
chalarangelo/30-seconds-of-code
Chalarangelo/30-seconds-of-code
128,121Vezi pe GitHub
30-seconds-of-code is a comprehensive knowledge base and programming snippet library designed to support software engineering education and professional development. It provides a curated collection of reusable code units and technical guides that help developers master core language mechanics, design patterns, and architectural philosophies. The project distinguishes itself by offering a wide-ranging library of algorithmic solutions and web development patterns that are organized into modular, independently testable units. It emphasizes functional programming paradigms and declarative logic,
Provides tools for serializing and persisting data to the local file system.
JavaScriptastroawesome-listcss
Vezi pe GitHub128,121
excalidraw/excalidraw
excalidraw/excalidraw
125,451Vezi pe GitHub
This project is a virtual whiteboard component and vector graphics editor designed for creating diagrams with a hand-drawn aesthetic. It provides a canvas-based drawing engine that can be embedded directly into web applications, allowing users to manipulate shapes, upload images, and export visual data into standard formats like PNG, SVG, or JSON. The platform distinguishes itself through a real-time synchronization layer that supports multi-user collaboration across distributed environments. This engine utilizes end-to-end encryption to secure shared sessions and employs a local-first data p
Leverages browser-based storage to maintain application state locally, ensuring data availability and persistence even during offline operation.
TypeScriptcanvascollaborationdiagrams
Vezi pe GitHub125,451
kubernetes/kubernetes
kubernetes/kubernetes
123,197Vezi pe GitHub
Kubernetes is a distributed container orchestration platform that automates the deployment, scaling, and management of containerized applications across clusters of computing nodes. It functions as a declarative infrastructure controller, utilizing a control loop architecture that continuously monitors the current system state against user-defined configurations to ensure desired operational outcomes. The system relies on a centralized API-driven interface and a replicated key-value store to maintain a consistent source of truth for all cluster objects. The platform distinguishes itself throu
Maintains a consistent, replicated data store that serves as the reliable source of truth for distributed system states.
Gocncfcontainersgo
Vezi pe GitHub123,197
comfyanonymous/comfyui
comfyanonymous/ComfyUI
117,322Vezi pe GitHub
ComfyUI is a modular generative AI workflow orchestrator and node-based GUI for designing and executing complex diffusion model pipelines. It functions as both a visual interface for building generative logic graphs and a programmable backend API that exposes diffusion model operations for external integration. The system distinguishes itself through a graph-based execution model that supports differential workflow execution, re-running only modified nodes to reduce computation. It features dynamic model offloading to manage memory between system RAM and GPU VRAM and utilizes metadata-embedde
Enables saving and loading generation graphs as JSON files or extracting metadata from image and audio files.
Python
Vezi pe GitHub117,322
papers-we-love/papers-we-love
papers-we-love/papers-we-love
107,093Vezi pe GitHub
Papers We Love is a community-driven repository and learning network dedicated to the study and discussion of foundational computer science literature. It functions as a centralized educational archive, providing a structured environment where software professionals can engage with academic research to bridge the gap between theoretical concepts and practical application. The project distinguishes itself through a decentralized model of crowdsourced curation, where community members collectively maintain and categorize a vast index of technical resources. Beyond the repository itself, the ini
Parses documentation for external links to facilitate the retrieval of research documents for offline reading.
Shellawesomecomputer-sciencemeetup
Vezi pe GitHub107,093
immich-app/immich
immich-app/immich
104,236Vezi pe GitHub
Immich is a self-hosted media management platform designed to provide a centralized, private repository for photos and videos. It functions as a comprehensive system for organizing, backing up, and viewing personal media collections across mobile devices, web browsers, and external storage locations. By maintaining full control over data ownership and storage infrastructure, the platform ensures that users retain sovereignty over their digital assets. The system distinguishes itself through a distributed architecture that coordinates background media synchronization, real-time filesystem moni
Manages automated scheduling, retention policies, and manual triggers to protect essential system metadata and database snapshots.
TypeScriptbackup-toolfluttergoogle-photos
Vezi pe GitHub104,236
pytorch/pytorch
pytorch/pytorch
100,814Vezi pe GitHub
PyTorch is a machine learning framework centered on a GPU-ready tensor library that supports multi-dimensional array operations across both CPU and accelerator hardware. It provides a foundational infrastructure for mathematical computation and dynamic neural network construction, utilizing a tape-based automatic differentiation system that allows for flexible, non-static graph execution. The framework is designed for deep integration with Python, enabling natural usage alongside standard scientific computing ecosystems. It distinguishes itself through a comprehensive distributed training sui
Persists tensors and complex data structures to disk through native loading and saving mechanisms.
Pythonautograddeep-learninggpu
Vezi pe GitHub100,814