4 Repos
Automated mechanisms for updating datasets by replacing old content with fresh data from external sources.
Distinct from Content Refreshers: The candidates focus on UI component state or localizations, whereas this is a backend data pipeline refresh.
Explore 4 awesome GitHub repositories matching devops & infrastructure · Data Refreshers. Refine with filters or upvote what's useful.
PROXY-List is a public proxy aggregator that provides data structures for storing and aggregating publicly available HTTP and SOCKS proxy server addresses. It serves as a source for retrieving network traffic routing lists used to mask origin IP addresses during web requests. The project utilizes a data pipeline to automatically scrape, poll, and serialize proxy lists from multiple public websites. This infrastructure ensures the availability of active servers through scheduled periodic polling and automated content refreshes, delivering the resulting lists as plain text files. These capabil
Automatically replaces old proxy lists with fresh data to ensure the availability of active servers.
dlt ist ein Python-Tool zur Datenaufnahme und ein ETL-Pipeline-Framework, das darauf ausgelegt ist, Daten aus verschiedenen Quellen abzurufen und in strukturierten Zielen zu speichern. Es fungiert als Schema-Inferenz-Engine, die automatisch Datentypen erkennt und verschachtelte JSON-Strukturen in relationale Tabellen flacht, wobei Daten von Quellen in Lakehouses, Warehouses oder Vektordatenbanken verschoben werden. Das Projekt zeichnet sich durch KI-gestützte Pipeline-Generierung aus, die Large Language Models nutzt, um Extraktionscode und Konnektoren für REST-APIs zu erstellen. Es unterstützt zudem multimodale Vektorspeicherung und die spezialisierte Befüllung von Vektordatenbanken zur Unterstützung von KI- und Machine-Learning-Anwendungen. Das Framework deckt ein breites Spektrum an Funktionen ab, einschließlich automatisierter Schema-Evolution, inkrementellem Datenladen mittels Statusverfolgung und Datenqualitätsvalidierung durch die Durchsetzung von Datenverträgen. Es bietet Tools für relationale Datennormalisierung, Pre- und Post-Load-Transformationen sowie eine Vielzahl von Ziel-Adaptern für SQL-Datenbanken und Cloud-Objektspeicher. Die Observability wird durch Pipeline-Ausführungs-Dashboards, Spalten-Lineage-Tracking und Schema-Versionsverifizierung mittels inhaltsbasierter Hashes gehandhabt.
Allows forcing a full reload of data by truncating or dropping specific tables in the destination.
Dieses Projekt ist ein Sina Weibo-Web-Scraper und eine Social-Media-Datenpipeline, die darauf ausgelegt ist, Benutzerprofile, Beiträge, Kommentare und Multimedia-Assets zu extrahieren. Es fungiert als containerisierter Daten-Crawler, der die Sammlung und lokale Speicherung von Social-Media-Inhalten und Engagement-Metriken automatisiert. Das System umfasst eine Verarbeitungsschicht, die Large Language Models zur Analyse der gescrapten Texte verwendet, um Zusammenfassungen und Sentiment-Analysen zu generieren. Es unterscheidet sich durch ein einsatzbereites Container-Modell mit einer HTTP-Schnittstelle zur Verwaltung von Extraktionsaufgaben und zur Überwachung des Fortschritts. Der Crawler deckt ein breites Spektrum an Funktionen ab, darunter Social-Media-Monitoring mittels geplanter inkrementeller Updates, Archivierung von Multimedia-Assets auf lokalen Festplatten und Datenexport in verschiedenen Formaten in Flat-Files oder Datenbanken. Zudem erfasst er detaillierte soziale Interaktionen wie Kommentare erster Ebene und Reposts.
Implements automated mechanisms for updating local datasets with fresh content from social media platforms.
Warehouse ist eine Implementierung des Python Package Index und eine verteilte Paket-Registry. Es dient als zentrales Repository und Webanwendung zum Hosten, Entdecken und Verteilen versionierter Python-Softwarepakete über eine standardisierte API. Das System fungiert als Multi-Tenant-Paketmanager mit einer Server-Implementierung, die mit den Standards des Python Package Index kompatibel ist. Es bietet spezialisierte Infrastruktur für das Hosting von Softwarepaketen und einen Index für Clients, um spezifische Bibliotheksversionen zu entdecken und herunterzuladen. Das Projekt integriert umfassende Sicherheits- und Zugriffskontrollen, einschließlich Multi-Faktor-Authentifizierung, digitaler Signaturprüfung für Paket-Attestierungen sowie rollenbasierter Berechtigungen für Projektbesitzer und Maintainer. Es verfügt zudem über ein asynchrones Task-Processing-System für Hintergrundjobs und E-Mail-Versand sowie Lokalisierungs-Utilities für die Unterstützung mehrsprachiger Interfaces. Datenbankstrukturen werden über versionierte Schema-Migrationen verwaltet.
Updates the local development database by importing a sanitized data dump to ensure a consistent testing dataset.