8 مستودعات
Applying deterministic constraints to filter out noise and invalid entries from datasets.
Distinct from Rule-Based Filters: Existing candidates focus on feed content, email, or linting tags, not general raw dataset noise filtering.
Explore 8 awesome GitHub repositories matching data & databases · Rule-Based Data Filtering. Refine with filters or upvote what's useful.
CleanMyWechat هو تطبيق سطح مكتب لأداة القرص مصمم لاستعادة مساحة التخزين عن طريق تنظيف الصور ومقاطع الفيديو والملفات المخزنة مؤقتاً من عميل WeChat لسطح المكتب على Windows وmacOS. يعمل كأداة صيانة تلقائية لذاكرة التخزين المؤقت تحدد وتزيل أصول الوسائط غير الضرورية من ذاكرة التخزين المؤقت لبرامج الاتصال. تعمل الأداة على تحسين تخزين الوسائط عن طريق تصفية الأصول بناءً على نوع الملف وعتبات العمر مع الحفاظ على سجل نص المحادثة. لمنع فقدان البيانات الدائم، يستخدم نظام استرداد ينقل الملفات المحددة إلى سلة مهملات النظام بدلاً من مسحها نهائياً. يتضمن النظام قدرات لتنظيف القرص تلقائياً من خلال آلية جدولة تطلق عمليات الصيانة في فترات زمنية محددة مسبقاً. يستخدم محرك تصفية قائماً على القواعد واكتشافاً قائماً على المسار لتحديد وإدارة هياكل دليل التطبيق عبر أنظمة تشغيل مختلفة.
Uses a rule-based engine to filter files by age and extension to determine deletion eligibility.
This is a regular expression library designed for the validation and identification of mobile phone numbers from mainland China. It provides the structural rules and digit constraints necessary to verify that phone numbers follow the correct regional format. The library includes specific patterns to determine the telecommunications provider based on regional prefixes. It also features filters to distinguish between standard voice numbers and IoT or data-only plans. The project covers broad data validation capabilities, including input format verification and carrier identification.
Applies deterministic structural constraints to filter and separate voice, IoT, and data-only phone plans.
Zim هو إطار عمل لتكوين Zsh ومدير بيئة مصمم لتحسين أداء الصدفة والإنتاجية. يعمل كمدير إضافات، ومخصص للموجه، ومحسن للأداء يجمع السمات والوحدات في نظام متماسك. يتميز إطار العمل باستخدام تجميع الـ bytecode لتسريع أوقات بدء الصدفة وتحسين سرعة التنفيذ. ويستخدم نظاماً معيارياً لتثبيت وتحديث ومزامنة وحدات وسكربتات الصدفة الخارجية من مصادر محلية أو بعيدة. يغطي المشروع نطاقاً واسعاً من القدرات، بما في ذلك أتمتة سير عمل المطور عبر تكاملات Git، وأدوات إنتاجية سطر الأوامر مثل الأسماء المستعارة المختصرة وأنظمة الإكمال التلقائي، وإدارة حزم النظام لأدوات مثل Homebrew و Pacman. كما يوفر أدوات هندسة الموجه لحقن بيانات وصفية في الوقت الفعلي وتطبيق سمات بصرية على الواجهة. تتم إدارة البيئة من خلال ملف تكوين مركزي يحدد دورات حياة الإضافات ومنطق التهيئة الشرطي بناءً على نظام التشغيل المكتشف.
Lists files based on specific attributes like modification date or type using shell glob qualifiers.
OUCML is a machine learning research curator and automated data curation tool. It provides a collection of structured research papers, code samples, and study guides designed for mastering complex data science concepts. The project includes a generative adversarial network training framework that uses generator and discriminator models to iteratively refine synthetic data. It also functions as a tensor-based computation library for performing high-dimensional matrix operations to accelerate neural network training. The system covers machine learning education and research curation by aggrega
Applies rule-based filtering and deterministic constraints to aggregate technical research materials.
fselect is a command line utility and file metadata query engine that uses SQL-like syntax to filter and find files based on their attributes. It functions as a file system analysis tool capable of selecting files and directories using relational logic, subqueries, and structured data filtering. The tool distinguishes itself by integrating Git tracking status and branch metadata into the search process while respecting project ignore files. It also includes a specialized media metadata search capability that filters audio and image files by technical properties such as resolution, bitrate, an
Filters files using attributes such as size, MIME type, file hashes, and POSIX ACLs.
RedisShake هي أداة لترحيل ومزامنة بيانات Redis و Valkey. تسهل الأداة نقل البيانات بين النماذج المستقلة (standalone)، وsentinel، وcluster، وتعمل كأداة ترحيل لقواعد البيانات عبر إصدارات مختلفة، بالإضافة إلى كونها أداة لاستعادة البيانات من ملفات النسخ الاحتياطي. يوفر المشروع خط معالجة بيانات قابل للبرمجة يسمح بتصفية المفاتيح (keys)، وإعادة تعيين فهارس قواعد البيانات، وتنفيذ نصوص Lua البرمجية لتعديل الأوامر والمفاتيح أثناء النقل. كما تدعم الأداة المزامنة بدون توقف (zero-downtime) عبر نسخ اللقطات (snapshots) وبث التغييرات التزايدية في الوقت الفعلي. تغطي الأداة مجموعة واسعة من طرق الاستخراج، بما في ذلك الترحيل القائم على النسخ المتماثل، والترحيل القائم على المسح (scan)، واستعادة ملفات النسخ الاحتياطي. وتتضمن إمكانيات لاكتشاف عقد العناقيد (cluster nodes)، وتحديد العقدة الرئيسية في sentinel، والتحقق من توافق الإصدارات لضمان الاستقرار أثناء عمليات النقل بين الإصدارات المختلفة.
Drops specific keys, database indices, or data structure types based on custom business logic to control migrated content.
waka-readme-stats هو أداة تحديث تلقائية لملف README الخاص بالملف الشخصي ولوحة معلومات إحصائيات المطور. يتكامل مع واجهة برمجة تطبيقات WakaTime ونقاط النهاية المتوافقة ذاتية الاستضافة لمزامنة بيانات تتبع الوقت، والتي يقوم بعد ذلك بتحويلها إلى عرض منسق لساعات البرمجة، واللغات، وأنظمة التشغيل. تعمل الأداة كإجراء GitHub (GitHub Action) يجلب المقاييس ويحدث ملف README للملف الشخصي تلقائياً عن طريق استبدال تعليقات العلامات بمحتوى ديناميكي عبر التزامات git. يسمح بتكامل نقطة نهاية API مخصصة لدعم الخدمات ذاتية الاستضافة. يوفر النظام قدرات لعرض المقاييس وجمع البيانات، بما في ذلك القدرة على تصفية مستودعات معينة والتحكم في رؤية نقاط البيانات الفردية. يتم التعامل مع التصميم المرئي من خلال قوالب قابلة للتكوين لأشرطة التقدم والشارات، بينما يدعم توطين الإخراج لغات متعددة عبر رموز اللغة. تتضمن خيارات التكوين إعدادات هوية الالتزام للتحديثات التلقائية وتنسيق الطابع الزمني القابل للتخصيص لكتلة الإحصائيات.
Applies deterministic constraints to exclude specific repositories from activity metric calculations.
DataFlow is an agent-based workflow orchestrator and data pipeline designed to synthesize, clean, and augment large-scale datasets for training large language models. It functions as a synthetic data generator and text curation tool, utilizing an intelligent assistant to assemble modular processing operators into functional pipelines based on user requirements. The project distinguishes itself through a low-code approach, providing a web-based visual interface for designing and monitoring multi-stage execution flows. It features an operator-based registry system that allows for the integratio
Applies deterministic constraints on length, language, and symbols to remove noise from raw datasets.