Why is blackboxo/cleanmywechat a recommended Rule-Based Data Filtering GitHub Repositories repository?

Uses a rule-based engine to filter files by age and extension to determine deletion eligibility.

Why is vincentsit/chinamobilephonenumberregex a recommended Rule-Based Data Filtering GitHub Repositories repository?

Applies deterministic structural constraints to filter and separate voice, IoT, and data-only phone plans.

Why is eriner/zim a recommended Rule-Based Data Filtering GitHub Repositories repository?

Lists files based on specific attributes like modification date or type using shell glob qualifiers.

Why is oucmachinelearning/oucml a recommended Rule-Based Data Filtering GitHub Repositories repository?

Applies rule-based filtering and deterministic constraints to aggregate technical research materials.

Why is jhspetersson/fselect a recommended Rule-Based Data Filtering GitHub Repositories repository?

Filters files using attributes such as size, MIME type, file hashes, and POSIX ACLs.

Why is tair-opensource/redisshake a recommended Rule-Based Data Filtering GitHub Repositories repository?

Drops specific keys, database indices, or data structure types based on custom business logic to control migrated content.

Why is anmol098/waka-readme-stats a recommended Rule-Based Data Filtering GitHub Repositories repository?

Applies deterministic constraints to exclude specific repositories from activity metric calculations.

Why is opendcai/dataflow a recommended Rule-Based Data Filtering GitHub Repositories repository?

Applies deterministic constraints on length, language, and symbols to remove noise from raw datasets.

8 repository-uri

Awesome GitHub RepositoriesRule-Based Data Filtering

Applying deterministic constraints to filter out noise and invalid entries from datasets.

Distinct from Rule-Based Filters: Existing candidates focus on feed content, email, or linting tags, not general raw dataset noise filtering.

Explore 8 awesome GitHub repositories matching data & databases · Rule-Based Data Filtering. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

blackboxo/cleanmywechat
blackboxo/CleanMyWechat
5,416Vezi pe GitHub
CleanMyWechat este un utilitar de disc pentru aplicații desktop conceput pentru a recupera spațiul de stocare prin curățarea imaginilor, videoclipurilor și fișierelor cache din clientul desktop WeChat pe Windows și macOS. Acesta funcționează ca un instrument automat de întreținere a cache-ului care identifică și elimină activele media inutile din cache-urile software-ului de comunicare. Utilitarul optimizează stocarea media prin filtrarea activelor pe baza tipului de fișier și a pragurilor de vechime, păstrând în același timp istoricul textului conversațiilor. Pentru a preveni pierderea permanentă a datelor, utilizează un sistem de recuperare care mută fișierele identificate în coșul de gunoi al sistemului, în loc să le șteargă permanent. Sistemul include capabilități pentru curățarea automată a discului printr-un mecanism de programare care declanșează procese de întreținere la intervale predefinite. Utilizează un motor de filtrare bazat pe reguli și descoperirea bazată pe căi pentru a localiza și gestiona structurile de directoare ale aplicațiilor pe diferite sisteme de operare.
Uses a rule-based engine to filter files by age and extension to determine deletion eligibility.
Pythoncachecache-storageclean
Vezi pe GitHub5,416
vincentsit/chinamobilephonenumberregex
VincentSit/ChinaMobilePhoneNumberRegex
4,775Vezi pe GitHub
This is a regular expression library designed for the validation and identification of mobile phone numbers from mainland China. It provides the structural rules and digit constraints necessary to verify that phone numbers follow the correct regional format. The library includes specific patterns to determine the telecommunications provider based on regional prefixes. It also features filters to distinguish between standard voice numbers and IoT or data-only plans. The project covers broad data validation capabilities, including input format verification and carrier identification.
Applies deterministic structural constraints to filter and separate voice, IoT, and data-only phone plans.
Vezi pe GitHub4,775
eriner/zim
Eriner/zim
4,632Vezi pe GitHub
Zim este un framework de configurare Zsh și un manager de mediu conceput pentru a optimiza performanța shell-ului și productivitatea. Acesta servește drept manager de plugin-uri, personalizator de prompt și optimizator de performanță care grupează teme și module într-un sistem coerent. Framework-ul se distinge prin utilizarea compilării bytecode pentru a accelera timpii de pornire a shell-ului și a îmbunătăți viteza de execuție. Utilizează un sistem modular pentru instalarea, actualizarea și sincronizarea modulelor și scripturilor shell externe din surse locale sau la distanță. Proiectul acoperă o gamă largă de capabilități, inclusiv automatizarea fluxului de lucru al dezvoltatorului prin integrări Git, instrumente de productivitate în linia de comandă, cum ar fi alias-uri scurte și sisteme de completare prin tab, și gestionarea pachetelor de sistem pentru instrumente precum Homebrew și Pacman. De asemenea, oferă instrumente de inginerie a promptului pentru a injecta metadate în timp real și a aplica teme vizuale interfeței. Mediul este gestionat printr-un fișier de configurare central care definește ciclurile de viață ale plugin-urilor și logica de inițializare condiționată bazată pe sistemul de operare detectat.
Lists files based on specific attributes like modification date or type using shell glob qualifiers.
Shell
Vezi pe GitHub4,632
oucmachinelearning/oucml
OUCMachineLearning/OUCML
4,602Vezi pe GitHub
OUCML este un curator de cercetare în machine learning și un instrument automat de curare a datelor. Oferă o colecție de lucrări de cercetare structurate, exemple de cod și ghiduri de studiu concepute pentru stăpânirea conceptelor complexe de data science. Proiectul include un framework de antrenare a rețelelor adverse generative care utilizează modele generatoare și discriminatoare pentru a rafina iterativ datele sintetice. De asemenea, funcționează ca o bibliotecă de calcul bazată pe tensori pentru efectuarea operațiilor matriciale de înaltă dimensiune pentru a accelera antrenarea rețelelor neuronale. Sistemul acoperă educația în machine learning și curarea cercetării prin agregarea materialelor tehnice în seturi de învățare structurate. Aceasta susține învățarea tehnică auto-ghidată prin organizarea lucrărilor academice și a modelelor de automatizare.
Applies rule-based filtering and deterministic constraints to aggregate technical research materials.
Python
Vezi pe GitHub4,602
jhspetersson/fselect
jhspetersson/fselect
4,451Vezi pe GitHub
fselect este un utilitar de linie de comandă și un motor de interogare a metadatelor fișierelor care utilizează o sintaxă de tip SQL pentru a filtra și găsi fișiere pe baza atributelor lor. Funcționează ca un instrument de analiză a sistemului de fișiere capabil să selecteze fișiere și directoare folosind logică relațională, subinterogări și filtrarea datelor structurate. Instrumentul se distinge prin integrarea stării de urmărire Git și a metadatelor de branch în procesul de căutare, respectând în același timp fișierele de ignorare ale proiectului. Include, de asemenea, o capabilitate specializată de căutare a metadatelor media care filtrează fișierele audio și imagine după proprietăți tehnice precum rezoluția, bitrate-ul și tag-urile EXIF. Proiectul acoperă o gamă largă de capabilități, inclusiv criminalistica sistemului de fișiere prin inspecția hash-ului SHA-256 și auditarea permisiunilor POSIX. Suportă potrivirea complexă a tiparelor cu expresii regulate și glob-uri, căutarea conținutului în corpul fișierelor și al arhivelor ZIP, precum și calcularea statisticilor agregate precum sume și medii pe seturile de rezultate. Utilizatorii pot executa interogări printr-un loop interactiv read-eval-print sau pot exporta rezultate structurate în formate precum CSV și JSON pentru raportare externă.
Filters files using attributes such as size, MIME type, file hashes, and POSIX ACLs.
Rustclicommand-linefiles
Vezi pe GitHub4,451
tair-opensource/redisshake
tair-opensource/RedisShake
4,404Vezi pe GitHub
RedisShake este un instrument de migrare și sincronizare pentru instanțele Redis și Valkey. Acesta facilitează transferul de date între deployment-uri de tip standalone, sentinel și cluster, acționând ca un migrator de baze de date cross-version și ca utilitar pentru restaurarea datelor din fișiere de backup. Proiectul oferă un pipeline programabil de transformare a datelor care permite filtrarea cheilor, remaparea indicilor bazelor de date și executarea de scripturi Lua pentru a modifica comenzi și chei în timpul tranzitului. Suportă sincronizarea fără downtime prin replicarea snapshot-urilor și streaming-ul modificărilor incrementale în timp real. Instrumentul acoperă o gamă largă de metode de extracție, inclusiv migrarea bazată pe replicare, migrarea bazată pe scanare și restaurarea din fișiere de backup. Include capabilități pentru descoperirea nodurilor de cluster, rezoluția master-ului sentinel și verificarea compatibilității versiunilor pentru a asigura stabilitatea în timpul transferurilor între versiuni diferite.
Drops specific keys, database indices, or data structure types based on custom business logic to control migrated content.
Goredisredis-clusterredis-proxy
Vezi pe GitHub4,404
anmol098/waka-readme-stats
anmol098/waka-readme-stats
3,954Vezi pe GitHub
waka-readme-stats is an automated profile README updater and developer statistics dashboard. It integrates with the WakaTime API and compatible self-hosted endpoints to synchronize time-tracking data, which it then transforms into a formatted display of coding hours, languages, and operating systems. The tool operates as a GitHub Action that fetches metrics and automatically updates a profile README file by replacing marker comments with dynamic content via git commits. It allows for custom API endpoint integration to support self-hosted services. The system provides capabilities for metrics
Applies deterministic constraints to exclude specific repositories from activity metric calculations.
Python
Vezi pe GitHub3,954
opendcai/dataflow
OpenDCAI/DataFlow
2,926Vezi pe GitHub
DataFlow is an agent-based workflow orchestrator and data pipeline designed to synthesize, clean, and augment large-scale datasets for training large language models. It functions as a synthetic data generator and text curation tool, utilizing an intelligent assistant to assemble modular processing operators into functional pipelines based on user requirements. The project distinguishes itself through a low-code approach, providing a web-based visual interface for designing and monitoring multi-stage execution flows. It features an operator-based registry system that allows for the integratio
Applies deterministic constraints on length, language, and symbols to remove noise from raw datasets.
Pythondatadata-agentdata-cleaning
Vezi pe GitHub2,926