8 Repos
Applying deterministic constraints to filter out noise and invalid entries from datasets.
Distinct from Rule-Based Filters: Existing candidates focus on feed content, email, or linting tags, not general raw dataset noise filtering.
Explore 8 awesome GitHub repositories matching data & databases · Rule-Based Data Filtering. Refine with filters or upvote what's useful.
CleanMyWechat ist ein Desktop-Anwendungs-Disk-Utility, das entwickelt wurde, um Speicherplatz durch das Bereinigen zwischengespeicherter Bilder, Videos und Dateien vom WeChat-Desktop-Client unter Windows und macOS zurückzugewinnen. Es fungiert als automatisiertes Cache-Wartungstool, das unnötige Medien-Assets aus den Caches von Kommunikationssoftware identifiziert und entfernt. Das Utility optimiert die Medienspeicherung durch das Filtern von Assets basierend auf Dateityp und Altersschwellen, während der Konversationstextverlauf erhalten bleibt. Um dauerhaften Datenverlust zu verhindern, nutzt es ein Wiederherstellungssystem, das identifizierte Dateien in den System-Papierkorb verschiebt, anstatt sie dauerhaft zu löschen. Das System umfasst Funktionen für die automatisierte Festplattenbereinigung durch einen Planungsmechanismus, der Wartungsprozesse in vordefinierten Intervallen auslöst. Es verwendet eine regelbasierte Filter-Engine und pfadbasierte Erkennung, um Anwendungsverzeichnisstrukturen über verschiedene Betriebssysteme hinweg zu lokalisieren und zu verwalten.
Uses a rule-based engine to filter files by age and extension to determine deletion eligibility.
This is a regular expression library designed for the validation and identification of mobile phone numbers from mainland China. It provides the structural rules and digit constraints necessary to verify that phone numbers follow the correct regional format. The library includes specific patterns to determine the telecommunications provider based on regional prefixes. It also features filters to distinguish between standard voice numbers and IoT or data-only plans. The project covers broad data validation capabilities, including input format verification and carrier identification.
Applies deterministic structural constraints to filter and separate voice, IoT, and data-only phone plans.
Zim ist ein Zsh-Konfigurations-Framework und Umgebungsmanager, der entwickelt wurde, um die Shell-Performance und Produktivität zu optimieren. Es dient als Plugin-Manager, Prompt-Anpasser und Performance-Optimierer, der Themes und Module zu einem kohärenten System bündelt. Das Framework zeichnet sich durch die Verwendung von Bytecode-Kompilierung aus, um die Startzeiten der Shell zu beschleunigen und die Ausführungsgeschwindigkeit zu verbessern. Es verwendet ein modulares System zur Installation, Aktualisierung und Synchronisierung externer Shell-Module und Skripte aus lokalen oder Remote-Quellen. Das Projekt deckt ein breites Spektrum an Fähigkeiten ab, einschließlich der Automatisierung von Entwickler-Workflows durch Git-Integrationen, Produktivitätstools für die Befehlszeile wie Kurz-Aliase und Tab-Vervollständigungssysteme sowie System-Paketmanagement für Tools wie Homebrew und Pacman. Es bietet zudem Prompt-Engineering-Tools, um Echtzeit-Metadaten einzufügen und visuelle Themes auf das Interface anzuwenden. Die Umgebung wird über eine zentrale Konfigurationsdatei verwaltet, die Plugin-Lebenszyklen und bedingte Initialisierungslogik basierend auf dem erkannten Betriebssystem definiert.
Lists files based on specific attributes like modification date or type using shell glob qualifiers.
OUCML ist ein Kurator für Machine-Learning-Forschung und ein automatisiertes Datenkurationstool. Es bietet eine Sammlung strukturierter Forschungsarbeiten, Codebeispiele und Studienleitfäden, die für die Beherrschung komplexer Data-Science-Konzepte entwickelt wurden. Das Projekt enthält ein Framework für das Training von Generative Adversarial Networks, das Generator- und Diskriminator-Modelle verwendet, um synthetische Daten iterativ zu verfeinern. Es fungiert zudem als tensorbasierte Berechnungsbibliothek zur Durchführung hochdimensionaler Matrixoperationen, um das Training neuronaler Netze zu beschleunigen. Das System deckt Machine-Learning-Ausbildung und Forschungskuration ab, indem es technische Materialien in strukturierten Lernsets aggregiert. Dies unterstützt das selbstgesteuerte technische Lernen durch die Organisation akademischer Arbeiten und Automatisierungsmuster.
Applies rule-based filtering and deterministic constraints to aggregate technical research materials.
fselect ist ein Befehlszeilendienstprogramm und eine Engine für Dateimetadaten-Abfragen, die SQL-ähnliche Syntax verwendet, um Dateien basierend auf ihren Attributen zu filtern und zu finden. Es fungiert als Dateisystem-Analysetool, das in der Lage ist, Dateien und Verzeichnisse mithilfe relationaler Logik, Unterabfragen und strukturierter Datenfilterung auszuwählen. Das Tool zeichnet sich dadurch aus, dass es den Git-Tracking-Status und Branch-Metadaten in den Suchprozess integriert, während es Projekt-Ignore-Dateien respektiert. Es enthält zudem eine spezialisierte Mediensuchfunktion, die Audio- und Bilddateien nach technischen Eigenschaften wie Auflösung, Bitrate und EXIF-Tags filtert. Das Projekt deckt ein breites Spektrum an Funktionen ab, einschließlich Dateisystem-Forensik durch SHA-256-Hash-Inspektion und POSIX-Berechtigungsprüfung. Es unterstützt komplexes Pattern-Matching mit regulären Ausdrücken und Globs, Inhaltssuche innerhalb von Dateikörpern und ZIP-Archiven sowie die Berechnung von Aggregatstatistiken wie Summen und Durchschnitten über Ergebnismengen hinweg. Benutzer können Abfragen über eine interaktive Read-Eval-Print-Loop ausführen oder strukturierte Ergebnisse in Formate wie CSV und JSON für externe Berichte exportieren.
Filters files using attributes such as size, MIME type, file hashes, and POSIX ACLs.
RedisShake is a migration and synchronization tool for Redis and Valkey instances. It facilitates the transfer of data between standalone, sentinel, and cluster deployments, acting as a cross-version database migrator and a utility for restoring data from backup files. The project provides a programmable data transformation pipeline that allows for filtering keys, remapping database indices, and executing Lua scripts to modify commands and keys during transit. It supports zero-downtime synchronization by replicating snapshots and streaming incremental changes in real time. The tool covers a
Drops specific keys, database indices, or data structure types based on custom business logic to control migrated content.
waka-readme-stats ist ein automatisierter Profil-README-Updater und ein Entwickler-Statistik-Dashboard. Es integriert sich in die WakaTime-API und kompatible selbst gehostete Endpunkte, um Zeitverfolgungsdaten zu synchronisieren, die es dann in eine formatierte Anzeige von Programmierstunden, Sprachen und Betriebssystemen umwandelt. Das Tool fungiert als GitHub Action, die Metriken abruft und automatisch eine Profil-README-Datei aktualisiert, indem sie Marker-Kommentare durch dynamische Inhalte via Git-Commits ersetzt. Es ermöglicht die Integration benutzerdefinierter API-Endpunkte zur Unterstützung selbst gehosteter Dienste. Das System bietet Funktionen für das Metriken-Rendering und die Datenerfassung, einschließlich der Möglichkeit, bestimmte Repositories herauszufiltern und die Sichtbarkeit einzelner Datenpunkte zu steuern. Die visuelle Gestaltung erfolgt über konfigurierbare Vorlagen für Fortschrittsbalken und Badges, während die Ausgabelokalisierung mehrere Sprachen über Gebietsschemacodes unterstützt. Zu den Konfigurationsoptionen gehören Commit-Identitätseinstellungen für automatisierte Updates und anpassbare Zeitstempelformatierung für den Statistikblock.
Applies deterministic constraints to exclude specific repositories from activity metric calculations.
DataFlow is an agent-based workflow orchestrator and data pipeline designed to synthesize, clean, and augment large-scale datasets for training large language models. It functions as a synthetic data generator and text curation tool, utilizing an intelligent assistant to assemble modular processing operators into functional pipelines based on user requirements. The project distinguishes itself through a low-code approach, providing a web-based visual interface for designing and monitoring multi-stage execution flows. It features an operator-based registry system that allows for the integratio
Applies deterministic constraints on length, language, and symbols to remove noise from raw datasets.