8 repository-uri
Applying deterministic constraints to filter out noise and invalid entries from datasets.
Distinct from Rule-Based Filters: Existing candidates focus on feed content, email, or linting tags, not general raw dataset noise filtering.
Explore 8 awesome GitHub repositories matching data & databases · Rule-Based Data Filtering. Refine with filters or upvote what's useful.
CleanMyWechat este un utilitar de disc pentru aplicații desktop conceput pentru a recupera spațiul de stocare prin curățarea imaginilor, videoclipurilor și fișierelor cache din clientul desktop WeChat pe Windows și macOS. Acesta funcționează ca un instrument automat de întreținere a cache-ului care identifică și elimină activele media inutile din cache-urile software-ului de comunicare. Utilitarul optimizează stocarea media prin filtrarea activelor pe baza tipului de fișier și a pragurilor de vechime, păstrând în același timp istoricul textului conversațiilor. Pentru a preveni pierderea permanentă a datelor, utilizează un sistem de recuperare care mută fișierele identificate în coșul de gunoi al sistemului, în loc să le șteargă permanent. Sistemul include capabilități pentru curățarea automată a discului printr-un mecanism de programare care declanșează procese de întreținere la intervale predefinite. Utilizează un motor de filtrare bazat pe reguli și descoperirea bazată pe căi pentru a localiza și gestiona structurile de directoare ale aplicațiilor pe diferite sisteme de operare.
Uses a rule-based engine to filter files by age and extension to determine deletion eligibility.
This is a regular expression library designed for the validation and identification of mobile phone numbers from mainland China. It provides the structural rules and digit constraints necessary to verify that phone numbers follow the correct regional format. The library includes specific patterns to determine the telecommunications provider based on regional prefixes. It also features filters to distinguish between standard voice numbers and IoT or data-only plans. The project covers broad data validation capabilities, including input format verification and carrier identification.
Applies deterministic structural constraints to filter and separate voice, IoT, and data-only phone plans.
Zim este un framework de configurare Zsh și un manager de mediu conceput pentru a optimiza performanța shell-ului și productivitatea. Acesta servește drept manager de plugin-uri, personalizator de prompt și optimizator de performanță care grupează teme și module într-un sistem coerent. Framework-ul se distinge prin utilizarea compilării bytecode pentru a accelera timpii de pornire a shell-ului și a îmbunătăți viteza de execuție. Utilizează un sistem modular pentru instalarea, actualizarea și sincronizarea modulelor și scripturilor shell externe din surse locale sau la distanță. Proiectul acoperă o gamă largă de capabilități, inclusiv automatizarea fluxului de lucru al dezvoltatorului prin integrări Git, instrumente de productivitate în linia de comandă, cum ar fi alias-uri scurte și sisteme de completare prin tab, și gestionarea pachetelor de sistem pentru instrumente precum Homebrew și Pacman. De asemenea, oferă instrumente de inginerie a promptului pentru a injecta metadate în timp real și a aplica teme vizuale interfeței. Mediul este gestionat printr-un fișier de configurare central care definește ciclurile de viață ale plugin-urilor și logica de inițializare condiționată bazată pe sistemul de operare detectat.
Lists files based on specific attributes like modification date or type using shell glob qualifiers.
OUCML este un curator de cercetare în machine learning și un instrument automat de curare a datelor. Oferă o colecție de lucrări de cercetare structurate, exemple de cod și ghiduri de studiu concepute pentru stăpânirea conceptelor complexe de data science. Proiectul include un framework de antrenare a rețelelor adverse generative care utilizează modele generatoare și discriminatoare pentru a rafina iterativ datele sintetice. De asemenea, funcționează ca o bibliotecă de calcul bazată pe tensori pentru efectuarea operațiilor matriciale de înaltă dimensiune pentru a accelera antrenarea rețelelor neuronale. Sistemul acoperă educația în machine learning și curarea cercetării prin agregarea materialelor tehnice în seturi de învățare structurate. Aceasta susține învățarea tehnică auto-ghidată prin organizarea lucrărilor academice și a modelelor de automatizare.
Applies rule-based filtering and deterministic constraints to aggregate technical research materials.
fselect este un utilitar de linie de comandă și un motor de interogare a metadatelor fișierelor care utilizează o sintaxă de tip SQL pentru a filtra și găsi fișiere pe baza atributelor lor. Funcționează ca un instrument de analiză a sistemului de fișiere capabil să selecteze fișiere și directoare folosind logică relațională, subinterogări și filtrarea datelor structurate. Instrumentul se distinge prin integrarea stării de urmărire Git și a metadatelor de branch în procesul de căutare, respectând în același timp fișierele de ignorare ale proiectului. Include, de asemenea, o capabilitate specializată de căutare a metadatelor media care filtrează fișierele audio și imagine după proprietăți tehnice precum rezoluția, bitrate-ul și tag-urile EXIF. Proiectul acoperă o gamă largă de capabilități, inclusiv criminalistica sistemului de fișiere prin inspecția hash-ului SHA-256 și auditarea permisiunilor POSIX. Suportă potrivirea complexă a tiparelor cu expresii regulate și glob-uri, căutarea conținutului în corpul fișierelor și al arhivelor ZIP, precum și calcularea statisticilor agregate precum sume și medii pe seturile de rezultate. Utilizatorii pot executa interogări printr-un loop interactiv read-eval-print sau pot exporta rezultate structurate în formate precum CSV și JSON pentru raportare externă.
Filters files using attributes such as size, MIME type, file hashes, and POSIX ACLs.
RedisShake este un instrument de migrare și sincronizare pentru instanțele Redis și Valkey. Acesta facilitează transferul de date între deployment-uri de tip standalone, sentinel și cluster, acționând ca un migrator de baze de date cross-version și ca utilitar pentru restaurarea datelor din fișiere de backup. Proiectul oferă un pipeline programabil de transformare a datelor care permite filtrarea cheilor, remaparea indicilor bazelor de date și executarea de scripturi Lua pentru a modifica comenzi și chei în timpul tranzitului. Suportă sincronizarea fără downtime prin replicarea snapshot-urilor și streaming-ul modificărilor incrementale în timp real. Instrumentul acoperă o gamă largă de metode de extracție, inclusiv migrarea bazată pe replicare, migrarea bazată pe scanare și restaurarea din fișiere de backup. Include capabilități pentru descoperirea nodurilor de cluster, rezoluția master-ului sentinel și verificarea compatibilității versiunilor pentru a asigura stabilitatea în timpul transferurilor între versiuni diferite.
Drops specific keys, database indices, or data structure types based on custom business logic to control migrated content.
waka-readme-stats is an automated profile README updater and developer statistics dashboard. It integrates with the WakaTime API and compatible self-hosted endpoints to synchronize time-tracking data, which it then transforms into a formatted display of coding hours, languages, and operating systems. The tool operates as a GitHub Action that fetches metrics and automatically updates a profile README file by replacing marker comments with dynamic content via git commits. It allows for custom API endpoint integration to support self-hosted services. The system provides capabilities for metrics
Applies deterministic constraints to exclude specific repositories from activity metric calculations.
DataFlow is an agent-based workflow orchestrator and data pipeline designed to synthesize, clean, and augment large-scale datasets for training large language models. It functions as a synthetic data generator and text curation tool, utilizing an intelligent assistant to assemble modular processing operators into functional pipelines based on user requirements. The project distinguishes itself through a low-code approach, providing a web-based visual interface for designing and monitoring multi-stage execution flows. It features an operator-based registry system that allows for the integratio
Applies deterministic constraints on length, language, and symbols to remove noise from raw datasets.