8 Repos
Utilities for aggregating, filtering, and refining large datasets gathered from remote endpoints.
Distinct from Collection Processing: None of the candidates focus on the post-acquisition refinement of forensic collections; most are generic async or quantum-specific.
Explore 8 awesome GitHub repositories matching data & databases · Collection Post-processing. Refine with filters or upvote what's useful.
xmltodict ist eine Python-Bibliothek, die bidirektionale Serialisierung zwischen XML-Dokumenten und Dictionaries bietet. Sie fungiert als Parser, der markierte Eingaben in Key-Value-Paare umwandelt, und als Serialisierungs-Utility, das Dictionaries zurück in strukturierte XML-Dokumente transformiert. Das Projekt enthält einen inkrementellen Stream-Prozessor, der tiefenbasierte Callbacks verwendet, um große XML-Dateien bei konstantem Speicherverbrauch zu verarbeiten. Es bietet einen Namespace-Manager für das Mapping von Präfixen und Deklarationen sowie einen Security-Sanitizer, der die Expansion externer Entitäten blockiert und Elementnamen validiert, um Injection-Angriffe zu verhindern. Die Bibliothek bietet Funktionen zur Durchsetzung von Datentypen, wie z. B. das Erzwingen, dass bestimmte Elemente unabhängig von der Anzahl der Kinder als Listen dargestellt werden. Sie unterstützt zudem die Daten-Nachbearbeitung durch benutzerdefinierte Callbacks und bietet konfigurierbare Kontrollen zum Erweitern, Zusammenklappen oder Überspringen von Namespaces während des Konvertierungsprozesses.
Executes custom callbacks during the conversion process to transform values or attributes.
Fluvio ist eine verteilte Event-Streaming-Plattform und eine Cloud-native Streaming-Engine, die für das Sammeln, Persistieren und Replizieren von Echtzeit-Datenströmen über einen verteilten Cluster hinweg entwickelt wurde. Sie fungiert als Echtzeit-Datenpipeline für den Aufbau zustandsbehafteter Workflows, die Daten zwischen externen Quellen und Senken aufnehmen, anreichern und exportieren. Die Plattform zeichnet sich durch die Verwendung von WebAssembly zur Ausführung kompilierter Module für In-Line-Datentransformationen und -filterung aus. Dies ermöglicht die Ausführung benutzerdefinierter Geschäftslogik, um Informationen während der Übertragung umzuformen, ohne den Cluster neu starten zu müssen. Das System deckt ein breites Spektrum an Funktionen ab, einschließlich connector-basierter Datenaufnahme aus externen Protokollen, log-strukturierter unveränderlicher Speicherung mit Zero-Copy-IO und horizontaler Clusterskalierung. Es unterstützt die Erstellung komplexer ereignisgesteuerter Pipelines, die zustandsbehaftete Verarbeitung, fensterbasierte Aggregationen und partitionierte Datenverteilung nutzen. Die Engine kann als leichtgewichtiges Binärprogramm auf diversen Systemarchitekturen bereitgestellt werden, einschließlich ARM64-IoT-Geräten für die Datenverarbeitung am Edge.
Uses WebAssembly modules to apply reusable processing functions and transformations to data streams.
Weibospider ist ein verteilter Web-Crawler, der darauf ausgelegt ist, Posts, Profile und Interaktionsdaten aus dem sozialen Netzwerk Weibo zu extrahieren. Er fungiert als Social-Media-Datenextraktor, der eine verteilte Task-Queue nutzt, um Scraping-Operationen über mehrere Worker-Knoten hinweg zu skalieren. Das System enthält eine grafische Administrationsschnittstelle zur Konfiguration von Crawler-Einstellungen, Ziel-Benutzerkennungen und Suchbegriffen. Es verwendet eine verteilte Architektur, um den Datendurchsatz zu erhöhen und die groß angelegte Sammlung von Social-Media-Inhalten zu verwalten. Das Tool deckt ein breites Spektrum an Datensammlungsfunktionen ab, einschließlich Harvesting von Benutzerprofilen, Extraktion basierend auf Suchbegriffen und das Mapping sozialer Graphen durch Follower-Listen, Kommentare und Reposts. Es bietet zudem Mechanismen für Request-Rate-Regulierung, Account-Rotation und die Automatisierung wiederkehrender Aufgaben, um Sitzungspersistenz und kontinuierliche Datensammlung aufrechtzuerhalten.
Extracts all original posts from a targeted user profile page.
Dieses Projekt ist ein Sina Weibo-Web-Scraper und eine Social-Media-Datenpipeline, die darauf ausgelegt ist, Benutzerprofile, Beiträge, Kommentare und Multimedia-Assets zu extrahieren. Es fungiert als containerisierter Daten-Crawler, der die Sammlung und lokale Speicherung von Social-Media-Inhalten und Engagement-Metriken automatisiert. Das System umfasst eine Verarbeitungsschicht, die Large Language Models zur Analyse der gescrapten Texte verwendet, um Zusammenfassungen und Sentiment-Analysen zu generieren. Es unterscheidet sich durch ein einsatzbereites Container-Modell mit einer HTTP-Schnittstelle zur Verwaltung von Extraktionsaufgaben und zur Überwachung des Fortschritts. Der Crawler deckt ein breites Spektrum an Funktionen ab, darunter Social-Media-Monitoring mittels geplanter inkrementeller Updates, Archivierung von Multimedia-Assets auf lokalen Festplatten und Datenexport in verschiedenen Formaten in Flat-Files oder Datenbanken. Zudem erfasst er detaillierte soziale Interaktionen wie Kommentare erster Ebene und Reposts.
Provides targeted retrieval of user profiles and their associated posts including engagement metrics.
WeiboSpider ist ein Social-Media-Scraper, der darauf ausgelegt ist, Benutzerprofile, Beiträge und Interaktionsdaten von der Sina Weibo-Plattform zu extrahieren. Er fungiert als webbasierter Daten-Crawler, der Informationen über externe Schnittstellen abruft, anstatt das visuelle Frontend zu parsen. Das Tool enthält einen Content-Lineage-Tracer, um geteilte Beiträge bis zu ihren ursprünglichen Quellen zurückzuverfolgen. Es bietet zudem einen Social-Engagement-Analyzer, um Aufrufzahlen und verschachtelte Kommentar-Threads zu erfassen und Interaktionsmetriken zu messen. Das System bietet Funktionen für schlüsselwortbasiertes Social-Monitoring und die Filterung von Suchergebnissen, um spezifische Themen im Zeitverlauf zu verfolgen. Es verwaltet große Datensätze durch paginierungsbasierte Iteration und rekursive Durchquerung von Engagement-Threads.
Extracts user profiles, posts, and activity data from the Sina Weibo platform for analysis or archiving.
This project is an unauthenticated web scraper designed to extract public data from the Twitter frontend API. It functions as a social media data extractor that simulates browser requests to gather information without the need for official API keys or user account authentication. The tool provides capabilities for gathering public posts, harvesting user profile metadata such as biographies and locations, and retrieving trending topics categorized by geographical region. It can perform targeted content scraping based on specific usernames, hashtags, or search queries. The system manages data
Retrieves a complete historical list of posts for a specific user profile via paginated scanning.
Velociraptor is a digital forensics and incident response platform, endpoint detection and response system, and visibility tool. It provides a query engine and remote forensic collector used to hunt for indicators of compromise and perform triage across a fleet of hosts. The system is distinguished by its specialized query language for interrogating host state and parsing binary files. It features a notebook environment that combines markdown documentation with executable query cells to standardize investigative workflows and enable collaborative reporting. The platform covers a wide range o
Aggregates and filters data from collections and event sessions using custom queries to refine investigation findings.
Inspektor Gadget is an eBPF observability toolset and program framework designed for tracing Linux systems and debugging Kubernetes nodes. It provides a suite of tools to collect kernel-level telemetry and export system metrics via the OpenTelemetry standard. The project distinguishes itself by packaging inspection tools as OCI-compliant container images, allowing for standardized distribution and deployment across clusters and hosts. It employs a modular data processing pipeline that utilizes WebAssembly modules to transform and filter telemetry, and leverages Compile Once Run Everywhere for
Executes WebAssembly modules to transform or analyze telemetry data before it is exported.