2 dépôts
Generating hash values for serialized documents to detect changes or verify integrity.
Distinguishing note: No candidate covers general document integrity hashing; existing ones are for ZK-circuits or bytecode translation.
Explore 2 awesome GitHub repositories matching data & databases · Document Content Hashing. Refine with filters or upvote what's useful.
ArduinoJson is a C++ library for parsing and manipulating JSON data and MessagePack binary streams on microcontrollers with limited memory and processing power. It provides the core primitives necessary for embedded data serialization and parsing, enabling devices to exchange structured data over serial or network interfaces. The library is distinguished by its focus on microcontroller memory management, employing strategies such as pool-based allocation, string deduplication, and non-owning string views to minimize RAM usage. It further optimizes for constrained environments by allowing cons
Generates a hash of a serialized JSON document for integrity checks or change detection.
RedPajama-Data est un ensemble d'outils pour le prétraitement de jeux de données textuels à grande échelle utilisés pour entraîner des grands modèles de langage. Il fournit un pipeline de prétraitement axé sur le nettoyage, la déduplication et la notation de collections massives de textes pour garantir la qualité et la diversité des données. Le projet utilise un framework de notation de la qualité des documents qui emploie le machine learning et des heuristiques statistiques pour évaluer si les documents sont adaptés à l'entraînement. Il inclut un pipeline de filtrage de jeux de données qui utilise des classificateurs et des listes de blocage pour supprimer les mots ou URLs indésirables. Le système dispose d'un ensemble d'outils de déduplication de texte qui élimine le contenu redondant en utilisant des techniques de correspondance exacte et floue. Ces capacités permettent l'identification et la suppression de documents en double ou presque identiques à travers un corpus.
Generates unique fingerprints for documents to detect redundancy and track content across different data sources.