2 Repos
Generating hash values for serialized documents to detect changes or verify integrity.
Distinguishing note: No candidate covers general document integrity hashing; existing ones are for ZK-circuits or bytecode translation.
Explore 2 awesome GitHub repositories matching data & databases · Document Content Hashing. Refine with filters or upvote what's useful.
ArduinoJson is a C++ library for parsing and manipulating JSON data and MessagePack binary streams on microcontrollers with limited memory and processing power. It provides the core primitives necessary for embedded data serialization and parsing, enabling devices to exchange structured data over serial or network interfaces. The library is distinguished by its focus on microcontroller memory management, employing strategies such as pool-based allocation, string deduplication, and non-owning string views to minimize RAM usage. It further optimizes for constrained environments by allowing cons
Generates a hash of a serialized JSON document for integrity checks or change detection.
RedPajama-Data ist ein Toolset für das Preprocessing großskaliger Textdatensätze, die zum Training großer Sprachmodelle verwendet werden. Es bietet eine Preprocessing-Pipeline, die sich auf das Bereinigen, Deduplizieren und Bewerten massiver Textsammlungen konzentriert, um Datenqualität und -vielfalt sicherzustellen. Das Projekt nutzt ein Framework zur Bewertung der Dokumentqualität, das Machine Learning und statistische Heuristiken einsetzt, um zu bewerten, ob Dokumente für das Training geeignet sind. Es enthält eine Datensatz-Filter-Pipeline, die Klassifikatoren und Blocklisten verwendet, um unerwünschte Wörter oder URLs zu entfernen. Das System verfügt über ein Text-Deduplizierungstoolset, das redundante Inhalte sowohl mit exakten als auch mit Fuzzy-Matching-Techniken eliminiert. Diese Funktionen ermöglichen die Identifizierung und Entfernung doppelter oder nahezu identischer Dokumente innerhalb eines Korpus.
Generates unique fingerprints for documents to detect redundancy and track content across different data sources.