8 مستودعات
Utilities for aggregating, filtering, and refining large datasets gathered from remote endpoints.
Distinct from Collection Processing: None of the candidates focus on the post-acquisition refinement of forensic collections; most are generic async or quantum-specific.
Explore 8 awesome GitHub repositories matching data & databases · Collection Post-processing. Refine with filters or upvote what's useful.
xmltodict هي مكتبة Python توفر تسلسلاً ثنائي الاتجاه بين مستندات XML والقواميس (dictionaries). تعمل كمحلل (parser) يحول المدخلات المرمزة إلى أزواج مفتاح-قيمة، وأداة تسلسل تحول القواميس مرة أخرى إلى مستندات XML مهيكلة. يتضمن المشروع معالج تدفق تزايدي يستخدم استدعاءات تعتمد على العمق للتعامل مع ملفات XML الكبيرة مع الحفاظ على استهلاك ثابت للذاكرة. يتميز بمدير مساحات أسماء (namespace manager) لتعيين البادئات والإعلانات، بالإضافة إلى مطهر أمني (security sanitizer) يحظر توسيع الكيانات الخارجية ويتحقق من صحة أسماء العناصر لمنع هجمات الحقن. توفر المكتبة إمكانيات لفرض أنواع البيانات، مثل إجبار عناصر معينة على أن تُمثل كقوائم بغض النظر عن عدد العناصر الفرعية. كما تدعم معالجة البيانات اللاحقة من خلال استدعاءات يحددها المستخدم، وتوفر عناصر تحكم قابلة للتكوين لتوسيع أو طي أو تخطي مساحات الأسماء أثناء عملية التحويل.
Executes custom callbacks during the conversion process to transform values or attributes.
Fluvio هو منصة تدفق أحداث موزعة ومحرك تدفق سحابي أصلي مصمم لجمع وتخزين ونسخ تدفقات البيانات في الوقت الفعلي عبر مجموعة موزعة. يعمل كخط أنابيب بيانات في الوقت الفعلي لبناء سير عمل ذي حالة يقوم باستيعاب وإثراء وتصدير البيانات بين المصادر والمصارف الخارجية. تتميز المنصة باستخدام WebAssembly لتنفيذ وحدات مجمعة لتحويلات البيانات والفلترة المضمنة. يسمح هذا بتنفيذ منطق أعمال مخصص لإعادة تشكيل المعلومات أثناء الحركة دون الحاجة إلى إعادة تشغيل المجموعة. يغطي النظام مجموعة واسعة من القدرات بما في ذلك استيعاب البيانات القائم على الموصلات من بروتوكولات خارجية، وتخزين غير قابل للتغيير قائم على السجلات مع إدخال/إخراج بدون نسخ، وتوسيع المجموعة الأفقي. يدعم إنشاء خطوط أنابيب معقدة قائمة على الأحداث تستخدم المعالجة ذات الحالة، والتجميعات القائمة على النوافذ، وتوزيع البيانات القائم على التقسيم. يمكن نشر المحرك كثنائي خفيف الوزن على معماريات نظام متنوعة، بما في ذلك أجهزة ARM64 IoT لمعالجة بيانات الحافة.
Uses WebAssembly modules to apply reusable processing functions and transformations to data streams.
Weibospider هو زاحف ويب موزع مصمم لاستخراج المنشورات، والملفات الشخصية، وبيانات التفاعل من شبكة Weibo الاجتماعية. يعمل كمستخرج بيانات وسائل التواصل الاجتماعي يستخدم طابور مهام موزع لتوسيع نطاق عمليات الكشط عبر عقد عاملة متعددة. يتضمن النظام واجهة إدارية رسومية لتكوين إعدادات الزاحف، ومعرفات المستخدم المستهدفة، وكلمات البحث الرئيسية. يستخدم معمارية موزعة لزيادة إنتاجية البيانات وإدارة الجمع واسع النطاق لمحتوى وسائل التواصل الاجتماعي. تغطي الأداة مجموعة واسعة من قدرات جمع البيانات، بما في ذلك حصاد الملف الشخصي للمستخدم، واستخراج البحث القائم على الكلمات الرئيسية، وتعيين الرسوم البيانية الاجتماعية من خلال قوائم المتابعين، والتعليقات، وإعادة النشر. كما يتميز بآليات لتنظيم معدل الطلب، وتدوير الحساب، وأتمتة المهام المتكررة للحفاظ على استمرارية الجلسة وجمع البيانات المستمر.
Extracts all original posts from a targeted user profile page.
هذا المشروع عبارة عن أداة كشط (scraper) لـ Sina Weibo وخط أنابيب بيانات لوسائل التواصل الاجتماعي مصمم لاستخراج ملفات تعريف المستخدمين، والمنشورات، والتعليقات، وأصول الوسائط المتعددة. يعمل كزاحف بيانات حاوي (containerized) يقوم بأتمتة جمع وتخزين محتوى وسائل التواصل الاجتماعي ومقاييس التفاعل محلياً. يتضمن النظام طبقة معالجة تستخدم نماذج لغوية كبيرة لتحليل النصوص المكتوبة، وتوليد ملخصات وتحليل للمشاعر. يتميز بنموذج حاوية جاهز للنشر يتميز بواجهة HTTP لإدارة مهام الاستخراج ومراقبة تقدم العمل. يغطي الزاحف مجموعة واسعة من الإمكانيات، بما في ذلك مراقبة وسائل التواصل الاجتماعي عبر تحديثات مجدولة تزايدية، وأرشفة أصول الوسائط المتعددة على الأقراص المحلية، وتصدير البيانات بتنسيقات متعددة إلى ملفات مسطحة أو قواعد بيانات. كما يلتقط التفاعلات الاجتماعية التفصيلية، مثل التعليقات من المستوى الأول وإعادة النشر.
Provides targeted retrieval of user profiles and their associated posts including engagement metrics.
WeiboSpider هو أداة كشط (scraper) لوسائل التواصل الاجتماعي مصممة لاستخراج ملفات تعريف المستخدمين والمنشورات وبيانات التفاعل من منصة Sina Weibo. يعمل كزاحف بيانات ويب يسترجع المعلومات عبر واجهات خارجية بدلاً من تحليل الواجهة الأمامية المرئية. تتضمن الأداة متتبعاً لسلسلة المحتوى لمتابعة المنشورات المشتركة وصولاً إلى مصادرها الأصلية. كما تتميز بمحلل تفاعل اجتماعي لجمع عدد المشاهدات وسلاسل التعليقات المتداخلة لقياس مقاييس تفاعل المستخدمين. يوفر النظام إمكانيات للمراقبة الاجتماعية القائمة على الكلمات المفتاحية وتصفية نتائج البحث لتتبع مواضيع محددة بمرور الوقت. كما يدير مجموعات البيانات الكبيرة من خلال التكرار القائم على الترقيم (pagination) والاجتياز العودي لسلاسل التفاعل.
Extracts user profiles, posts, and activity data from the Sina Weibo platform for analysis or archiving.
This project is an unauthenticated web scraper designed to extract public data from the Twitter frontend API. It functions as a social media data extractor that simulates browser requests to gather information without the need for official API keys or user account authentication. The tool provides capabilities for gathering public posts, harvesting user profile metadata such as biographies and locations, and retrieving trending topics categorized by geographical region. It can perform targeted content scraping based on specific usernames, hashtags, or search queries. The system manages data
Retrieves a complete historical list of posts for a specific user profile via paginated scanning.
Velociraptor is a digital forensics and incident response platform, endpoint detection and response system, and visibility tool. It provides a query engine and remote forensic collector used to hunt for indicators of compromise and perform triage across a fleet of hosts. The system is distinguished by its specialized query language for interrogating host state and parsing binary files. It features a notebook environment that combines markdown documentation with executable query cells to standardize investigative workflows and enable collaborative reporting. The platform covers a wide range o
Aggregates and filters data from collections and event sessions using custom queries to refine investigation findings.
Inspektor Gadget is an eBPF observability toolset and program framework designed for tracing Linux systems and debugging Kubernetes nodes. It provides a suite of tools to collect kernel-level telemetry and export system metrics via the OpenTelemetry standard. The project distinguishes itself by packaging inspection tools as OCI-compliant container images, allowing for standardized distribution and deployment across clusters and hosts. It employs a modular data processing pipeline that utilizes WebAssembly modules to transform and filter telemetry, and leverages Compile Once Run Everywhere for
Executes WebAssembly modules to transform or analyze telemetry data before it is exported.